Los puntos clave no están disponibles para este artículo en este momento.
Los conjuntos de datos de Preguntas y Respuestas Naturales (QA) juegan un papel crucial en el desarrollo y evaluación de las capacidades de los modelos de lenguaje grande (LLMs), asegurando su uso efectivo en aplicaciones del mundo real. A pesar de los numerosos conjuntos de datos QA que se han desarrollado, hay una notable falta de conjuntos de datos específicos de regiones generados por usuarios nativos en sus propios idiomas. Esta brecha dificulta la evaluación efectiva de LLMs para especificidades regionales y culturales. En este estudio, proponemos un marco escalable, NativQA, para construir sin problemas conjuntos de datos QA alineados cultural y regionalmente en idiomas nativos, para la evaluación y ajuste de LLM. Además, para demostrar la eficacia del marco propuesto, diseñamos un conjunto de datos QA natural multilingüe, MultiNativQA, que consiste en ~72K pares de QA en siete idiomas, que van desde recursos altos hasta extremadamente bajos, basado en consultas de hablantes nativos que cubren 18 temas. Benchmarkamos el conjunto de datos MultiNativQA con LLM de código abierto y cerrado. Hicimos que tanto el marco NativQA como el conjunto de datos MultiNativQA estuvieran disponibles públicamente para la comunidad. (https://nativqa.gitlab.io)
Hasan et al. (Sat,) studied this question.