February 12, 2020Open Access

Visualización de conjuntos de datos muy grandes y de alta dimensión como árboles de expansión mínima

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Las ciencias químicas están produciendo una cantidad sin precedentes de grandes conjuntos de datos de alta dimensión que contienen estructuras químicas y propiedades asociadas. Sin embargo, actualmente no existen algoritmos para visualizar tales datos mientras se preservan tanto las características globales como las locales con un nivel de detalle suficiente que permita la inspección e interpretación humanas. Aquí proponemos una solución a este problema con un nuevo método de visualización de datos, TMAP, capaz de representar conjuntos de datos de hasta millones de puntos de datos y de alta dimensionalidad arbitraria como un árbol bidimensional (http://tmap.gdb.tools). Las visualizaciones basadas en TMAP son más adecuadas que t-SNE o UMAP para la exploración e interpretación de grandes conjuntos de datos debido a su naturaleza arbórea, su mayor vecindad local y global y la preservación de la estructura, así como la transparencia de los métodos en los que se basa el algoritmo. Aplicamos TMAP a los conjuntos de datos de química más utilizados, incluidos bases de datos de moléculas como ChEMBL, FDB17, el Atlas de Productos Naturales, DSSTox, así como a la colección de datos de referencia MoleculeNet. También mostramos su amplia aplicabilidad con ejemplos adicionales de biología, física de partículas y literatura.

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo