What type of study is this?

This is a Experimental Study study (also classified as: Quantitative Study).

October 5, 2025Open Access

GemDetox at TextDetox CLEF 2025: 저자원 언어의 텍스트 해독화를 위한 대규모 다국어 모델 향상

Key Points

시스템은 고자원 및 저자원 언어 모두에서 1위를 차지하며 효과적인 해독화를 보여줍니다.
평가된 지표에는 Style Transfer Accuracy 및 LaBSE 기반 의미 보존이 포함되어 품질 높은 출력을 보장합니다.
LoRA 미세 조정 및 Chain-of-Thought 프롬프트와 같은 매개변수 효율적인 기법이 모델 성능을 크게 향상시킵니다.
ANOVA 분석은 언어 자원 상태가 모델의 효과성을 예측하는 가장 강력한 변수임을 나타냅니다.

Abstract

소셜 미디어 플랫폼이 등장하고 발전하는 속도가 이를 감독하기 위한 규제보다 빠르게 이루어짐에 따라, 자동 해독화가 안전한 담론을 대규모로 시행할 수 있는Moderator를 위한 시의적절한 도구로 작용할 수 있습니다. 우리는 15개의 유형론적으로 다양한 언어에서 독성 단일 문장 입력을 중립적인 동의어로 재작성하는 PAN 2025 다국어 텍스트 해독화 챌린지에 대한 제출 내용을 설명합니다. 12B 매개변수를 갖춘 Gemma-3 다국어 변환기를 기반으로, 우리는 매개변수 효율적인 LoRA SFT 미세 조정 및 few-shot, Chain-of-Thought와 같은 프롬프트 기법을 적용합니다. 우리의 다국어 훈련 말뭉치는 3,600개의 인간 작성 평행 쌍, 21,600개의 기계 번역합성 쌍 및 Jaccard 임계값으로 필터링된 모델 생성 쌍을 결합합니다. 추론 시, 입력은 세 개의 LaBSE 검색 이웃 및 명시적인 독성 범위 주석으로 풍부하게 됩니다. Style Transfer Accuracy, LaBSE 기반 의미 보존 및 xCOMET 유창성으로 평가된 우리의 시스템은 고자원 및 저자원 언어 모두에서 1위를 차지합니다. 제거 연구는 few-shot 예제로부터 +0.081의 공동 점수 증가와 기본 CoT 프롬프트로부터 +0.088을 보여줍니다. ANOVA 분석은 언어 자원 상태가 성능의 가장 강력한 예측 변수임을 확인합니다 (η² = 0.667, p < 0.01).

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper