Los puntos clave no están disponibles para este artículo en este momento.
Las ciencias químicas están produciendo una cantidad sin precedentes de grandes conjuntos de datos de alta dimensión que contienen estructuras químicas y propiedades asociadas. Sin embargo, actualmente no existen algoritmos para visualizar tales datos mientras se preservan tanto las características globales como las locales con un nivel de detalle suficiente que permita la inspección e interpretación humanas. Aquí proponemos una solución a este problema con un nuevo método de visualización de datos, TMAP, capaz de representar conjuntos de datos de hasta millones de puntos de datos y de alta dimensionalidad arbitraria como un árbol bidimensional (http://tmap.gdb.tools). Las visualizaciones basadas en TMAP son más adecuadas que t-SNE o UMAP para la exploración e interpretación de grandes conjuntos de datos debido a su naturaleza arbórea, su mayor vecindad local y global y la preservación de la estructura, así como la transparencia de los métodos en los que se basa el algoritmo. Aplicamos TMAP a los conjuntos de datos de química más utilizados, incluidos bases de datos de moléculas como ChEMBL, FDB17, el Atlas de Productos Naturales, DSSTox, así como a la colección de datos de referencia MoleculeNet. También mostramos su amplia aplicabilidad con ejemplos adicionales de biología, física de partículas y literatura.
Probst et al. (Wed,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: