Key points are not available for this paper at this time.
Apresentamos o CLiDE Pro, a versão mais recente do resultado do projeto de longo prazo CLiDE para o desenvolvimento de ferramentas para extração automática de informações químicas da literatura. O CLiDE Pro se ocupa da extração de informações de estrutura química e estrutura genérica a partir de imagens eletrônicas de moléculas químicas disponíveis online, além de páginas de documentos químicos escaneados. A informação é extraída em três fases: primeiro, a imagem é segmentada em regiões textuais e gráficas; em seguida, as regiões gráficas são analisadas e, quando possível, as tabelas de conexão são reconstruídas; e, finalmente, quaisquer estruturas genéricas são interpretadas por meio do emparelhamento de grupos R encontrados em diagramas de estrutura com aqueles localizados no texto. O programa foi testado em um grande conjunto de imagens de estruturas químicas originárias de diversas fontes. Os resultados demonstram bom desempenho na reconstrução das tabelas de conexão, com poucos erros na interpretação das características de desenho individuais encontradas nos diagramas de estrutura. Este conjunto completo de testes é apresentado para uso na validação de outros sistemas similares.
Valko et al. (Qui,) estudaram esta questão.