Key points are not available for this paper at this time.
Na esfera financeira, existe uma abundância de dados financeiros não estruturados acumulados, como os documentos de divulgação textual que as empresas submetem regularmente a agências reguladoras, como a Comissão de Valores Mobiliários. Esses documentos são tipicamente muito longos e tendem a conter informações valiosas não quantitativas sobre o desempenho de uma empresa que não estão presentes em preditores quantitativos. Portanto, é de grande interesse aprender modelos preditivos a partir desses longos documentos textuais, especialmente para prever indicadores-chave de desempenho numéricos. Nos últimos anos, houve um grande progresso no processamento de linguagem natural por meio de modelos de linguagem pré-treinados (LMs) aprendidos a partir de grandes corpora de dados textuais. Isso levanta a importante questão de saber se eles podem ser usados efetivamente para produzir representações de documentos longos, além de como podemos avaliar a eficácia das representações produzidas por vários LMs. Nosso trabalho se concentra em responder a essa questão crítica, a saber, a avaliação da eficácia de vários LMs na extração de informações úteis a partir de documentos textuais longos para tarefas de previsão. Neste artigo, propomos e implementamos um framework de avaliação de aprendizado profundo que utiliza uma abordagem de fragmentação sequencial combinada com um mecanismo de atenção. Realizamos um conjunto extenso de experimentos em uma coleção de relatórios 10-K submetidos anualmente por bancos dos EUA, e outro conjunto de dados de relatórios submetidos por empresas dos EUA, para investigar minuciosamente o desempenho de diferentes tipos de modelos de linguagem. No geral, nosso framework utilizando LMs supera métodos de referência fortes para modelagem textual, bem como para regressão numérica. Nosso trabalho fornece melhores insights sobre como a utilização de LMs de domínio específico pré-treinados e ajustados para entradas longas pode melhorar a qualidade da representação de dados textuais e, portanto, ajudar a melhorar análises preditivas.
Xia et al. (qua,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: