Key points are not available for this paper at this time.
Métodos de aprendizado de máquina são frequentemente usados para classificar objetos descritos por centenas de atributos; em muitas aplicações desse tipo, uma grande fração dos atributos pode ser totalmente irrelevante para o problema de classificação. Além disso, geralmente não se pode decidir a priori quais atributos são relevantes. Neste artigo, apresentamos uma versão aprimorada do algoritmo para identificação do conjunto completo de variáveis realmente importantes em um sistema de informação. É uma extensão do método de floresta aleatória que utiliza a medida de importância gerada pelo algoritmo original. Compara, de forma iterativa, as importâncias dos atributos originais com as importâncias de suas cópias randomizadas. Analisamos o desempenho do algoritmo em vários exemplos de dados sintéticos, bem como em um problema biologicamente importante, a saber, na identificação dos motivos de sequência que são importantes para a atividade aptamérica de sequências curtas de RNA.
Kursa et al. (Sex,) estudaram essa questão.