기계 번역 및 주제 분류는 피에몬트어 데이터셋을 사용하여 성능이 개선되었으며, 그 유용성을 강조합니다.
평가 데이터셋은 다양한 언어적 특징을 포함하여 비표준 철자법 결과에 대한 더 나은 이해를 촉진합니다.
분석은 언어 모델의 능력을 다양한 언어에서 평가하기 위해 FLORES+ 및 SIB-200과 같은 고급 데이터셋에 의존합니다.
크라우드소싱의 활용은 데이터셋의 풍부함을 높이지만, 비표준 형태에 대한 추가 탐색이 필요합니다.
Abstract
이 데이터셋은 피에몬트어로 기계 번역 및 주제 분류를 테스트하기 위한 데이터를 포함하고 있습니다. 이는 FLORES+(NLLB Team et al., 2024)와 200개 이상의 언어 및 방언에 대한 주제 분류를 위한 간단하고 포괄적이며 대규모 평가 데이터셋인 SIB-200(Adelani et al., EACL 2024)을 기반으로 하고 있습니다.