Modelización para monitoreo de bioreactores
En la modelización para monitoreo de biorreactores se toman en cuenta los desafíos introducidos por los datos recopilados de los bioprocesos, en particular la alta dimensionalidad de los conjuntos de datos resultantes, hacen que los enfoques multivariados para la modelización de datos de bioprocesos sean un requisito esencial. El uso de herramientas quimiométricas está bien establecido en otros campos científicos, especialmente en química, aunque su amplia aceptación en la modelización de bioprocesos se evidencia por la gran cantidad de publicaciones que informan sobre el uso rutinario de estas herramientas tanto en la investigación como en las aplicaciones industriales. Se presentan brevemente varios enfoques de modelización multivariada, tanto lineales como no lineales, con énfasis específico en su aplicabilidad para el monitoreo y control de bioprocesos.
A pesar de que el argumento en el monitoreo de biorreactores de utilizar métodos basados en la suposición fundamental de relaciones lineales entre las variables del proceso se cita con frecuencia como una limitación importante de los métodos lineales, estos siguen siendo ampliamente utilizados y aceptados en el análisis y modelado de datos de bioprocesos. A pesar del carácter no lineal de los bioprocesos, se ha demostrado que diversas modificaciones y preprocesamiento de datos permiten que los métodos lineales capturen de manera efectiva las características subyacentes de los bioprocesos modelados.
Extracción de características y clasificación
Uno de los métodos de análisis exploratorio de datos/extracción de características más frecuentemente descritos en la literatura de quimiometría es el análisis de componentes principales (PCA, por sus siglas en inglés). Esta técnica de monitoreo de bioreactores se utiliza con frecuencia como un enfoque de reducción de datos, especialmente antes de llevar a cabo un análisis de regresión adicional. Esta capacidad de reducción de datos resulta de la descomposición de la matriz de datos original de las mediciones del proceso (X) en un conjunto de variables no correlacionadas (componentes principales – PCs). Los PCs ortogonales resultantes son una combinación lineal de las variables originales del proceso, con el primer PC capturando la mayor parte de la varianza en los datos originales y los PCs subsiguientes capturando una proporción decreciente de la varianza, respectivamente.
La siguiente ecuación representa esta descomposición en términos de las matrices resultantes de puntajes (T) y cargas (P), y una matriz de error residual (E):
X=TPT +E
Dado que los componentes principales (PCs) se ordenan en función de la disminución de la varianza, es posible capturar las características subyacentes en los datos originales utilizando menos PCs, lo que reduce la dimensionalidad de los datos originales. Esto hace que el PCA sea especialmente adecuado en el monitoreo de biorreactores para el análisis de datos altamente dimensionales producidos por técnicas de huella dactilar y métodos multianalíticos, como técnicas espectroscópicas, narices y lenguas electrónicas, así como la salida de diversas mediciones «ómicas», según confirman numerosos informes en la literatura.
Las fuentes de literatura sobre la aplicación del PCA en el análisis de datos de bioprocesos abarcan una amplia gama de aspectos de los bioprocesos, desde la materia prima, el cultivo de semillas, la producción en lotes o el monitoreo de la calidad del proceso aguas abajo. La funcionalidad del PCA para la reducción de la dimensionalidad de los datos del proceso se utiliza típicamente en todas estas aplicaciones. El conjunto resultante de componentes principales se utiliza típicamente posteriormente como entradas en modelos de monitoreo de procesos dentro de esquemas de control estadístico multivariado de procesos (MSPC).
En una variedad de aplicaciones, el PCA y técnicas similares, como el análisis discriminante lineal/cuadrático/regularizado, los vecinos más cercanos o la agrupación jerárquica, se utilizan como «clasificadores», es decir, asignan muestras/objetos a una de las posibles clases en función de las mediciones recopiladas para la muestra/objeto dada en comparación con una biblioteca de muestras similares recopiladas a lo largo del tiempo. Estas aplicaciones en el monitoreo de biorreactores son particularmente útiles para identificar similitudes, por ejemplo, en datos de expresión génica recopilados a través de una variedad de microarrays de ADN/ARN o patrones en datos de metabolómica. En tales aplicaciones, el problema importante es especificar los criterios para discriminar entre las diversas clases. Los peligros de las decisiones arbitrarias en este sentido son discutidos por Glassey, donde se presenta un estudio de caso sobre el uso del PCA para discriminar entre lotes de producción de anticuerpos monoclonales recombinantes de alta y baja producción utilizando el sistema de expresión de Escherichia coli. Aunque inicialmente la agrupación de componentes principales parecía proporcionar una clasificación razonable para la discriminación requerida, un análisis más profundo reveló que la agrupación inicial arbitraria estaba más relacionada con la composición del alimento que con el título del producto.
En el control de calidad multivariado, típicamente en la industria alimentaria y potencialmente muy importante en la industria biofarmacéutica para asegurar la calidad del producto final, las técnicas mencionadas anteriormente suelen ser menos aplicables. En tales casos, es importante determinar sin lugar a dudas si el producto pertenece a una categoría en particular (por ejemplo, productos alimentarios no adulterados de una región específica). Forina et al. argumentan que esta tarea es más adecuada para las técnicas de modelado de clases (CMT), como UNEQ, SIMCA, POTFUN (modelado de funciones potenciales) y MRM (modelado de rangos multivariados). Estos métodos se discuten luego con más detalle en términos de su capacidad discriminatoria y su sensibilidad al ruido en los datos.
Para contrarrestar el argumento de la limitación de las técnicas de extracción y clasificación de características lineales, se introdujo un gran número de métodos no lineales. Estos no solo incluyen variantes no lineales de las técnicas lineales descritas anteriormente en el monitoreo de biorreactores, sino también técnicas basadas en redes neuronales artificiales, descritas con más detalle por Marini o Glassey. Este último también proporciona ejemplos de aplicaciones de bioprocesos de tales técnicas para identificar el estado fisiológico de la cultura y, por lo tanto, potencialmente mejorar la estimación de importantes parámetros del proceso.