April 5, 2024Open Access

Aprendizaje de etiquetas parciales para la clasificación automatizada de perfiles transcriptómicos de células individuales

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los datos de secuenciación de ARN de células individuales (scRNASeq) desempeñan un papel importante en el avance de nuestra comprensión de la biología del desarrollo. Una pregunta actual importante es cómo clasificar los perfiles transcriptómicos obtenidos de experimentos de scRNASeq en los diversos tipos de células e identificar la relación filogenética para células individuales. Debido a la rápida acumulación de conjuntos de datos y a la alta dimensionalidad de los datos, se ha vuelto un desafío explorar y anotar los perfiles transcriptómicos de células individuales a mano. Para superar este desafío, se necesitan métodos de clasificación automatizada. Los enfoques clásicos dependen de conjuntos de datos de entrenamiento supervisados. Sin embargo, debido a la dificultad de obtener datos anotados a resolución de célula individual, proponemos en su lugar aprovechar las anotaciones parciales. El marco de aprendizaje de etiquetas parciales asume que podemos obtener un conjunto de etiquetas candidatas que contengan la correcta para cada punto de datos, un escenario más sencillo que requerir un conjunto de datos de entrenamiento completamente supervisado. Estudiamos y ampliamos cuando es necesario los métodos de clasificación multiclase de última generación, como SVM, kNN, basados en prototipos, regresión logística y métodos de ensamble, al marco de aprendizaje de etiquetas parciales. Además, estudiamos el efecto de incorporar la estructura del conjunto de etiquetas en los métodos. Nos enfocamos particularmente en la estructura jerárquica de las etiquetas, como se observa comúnmente en procesos de desarrollo. Mostramos, en conjuntos de datos simulados y reales, que estas extensiones permiten aprender de datos parcialmente etiquetados y realizar predicciones con alta precisión, particularmente con un método basado en prototipos no lineales. Demostramos que el rendimiento de nuestros métodos entrenados con datos parcialmente anotados alcanza el mismo rendimiento que los datos completamente supervisados. Finalmente, estudiamos el nivel de incertidumbre presente en los datos parcialmente anotados y derivamos algunos resultados prescriptivos sobre el efecto de esta incertidumbre en la precisión de los métodos de aprendizaje de etiquetas parciales. En general, nuestros hallazgos muestran cómo las estrategias de aprendizaje de etiquetas parciales jerárquicas y no jerárquicas pueden ayudar a resolver el problema de clasificación automatizada de perfiles transcriptómicos de células individuales; curiosamente, estos métodos se basan en un tipo de conjuntos de datos anotados mucho menos estrictos en comparación con los métodos de aprendizaje completamente supervisados.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo