April 10, 2024Open Access

FETILDA: Framework de Avaliação para Representações Eficazes de Documentos Financeiros Longos

Key Points

Key points are not available for this paper at this time.

Abstract

Na esfera financeira, existe uma abundância de dados financeiros não estruturados acumulados, como os documentos de divulgação textual que as empresas submetem regularmente a agências reguladoras, como a Comissão de Valores Mobiliários. Esses documentos são tipicamente muito longos e tendem a conter informações valiosas não quantitativas sobre o desempenho de uma empresa que não estão presentes em preditores quantitativos. Portanto, é de grande interesse aprender modelos preditivos a partir desses longos documentos textuais, especialmente para prever indicadores-chave de desempenho numéricos. Nos últimos anos, houve um grande progresso no processamento de linguagem natural por meio de modelos de linguagem pré-treinados (LMs) aprendidos a partir de grandes corpora de dados textuais. Isso levanta a importante questão de saber se eles podem ser usados efetivamente para produzir representações de documentos longos, além de como podemos avaliar a eficácia das representações produzidas por vários LMs. Nosso trabalho se concentra em responder a essa questão crítica, a saber, a avaliação da eficácia de vários LMs na extração de informações úteis a partir de documentos textuais longos para tarefas de previsão. Neste artigo, propomos e implementamos um framework de avaliação de aprendizado profundo que utiliza uma abordagem de fragmentação sequencial combinada com um mecanismo de atenção. Realizamos um conjunto extenso de experimentos em uma coleção de relatórios 10-K submetidos anualmente por bancos dos EUA, e outro conjunto de dados de relatórios submetidos por empresas dos EUA, para investigar minuciosamente o desempenho de diferentes tipos de modelos de linguagem. No geral, nosso framework utilizando LMs supera métodos de referência fortes para modelagem textual, bem como para regressão numérica. Nosso trabalho fornece melhores insights sobre como a utilização de LMs de domínio específico pré-treinados e ajustados para entradas longas pode melhorar a qualidade da representação de dados textuais e, portanto, ajudar a melhorar análises preditivas.

FETILDA: Framework de Avaliação para Representações Eficazes de Documentos Financeiros Longos

Key Points

Abstract

Cite This Study

Also Consider

Also Consider