What type of study is this?

September 10, 2025Open Access

효율적인 도메인 적응을 위한 AI 시스템: 계산 요구 사항을 줄인 LLM 기반 가중 대조 학습

Key Points

제안된 방법은 전문 텍스트에서 성능을 유지하면서 도메인 적응의 효율성을 개선합니다.
실험 결과는 SimCSE 및 DiffCSE와 같은 기존 방법에 비해 상당한 성능 향상을 보여줍니다.
이 프레임워크는 주요 도메인 특정 용어를 식별하기 위해 새로운 주제 인식 마스킹 전략을 사용합니다.
줄어든 계산 요구 사항은 전문 도메인에 언어 모델을 적응시키기 위한 실제 적용 가능성을 보장합니다.

Abstract

사전 학습된 언어 모델의 도메인 적응은 특히 구별되는 어휘와 독특한 의미 구조를 포함하는 전문 텍스트 수집에 대해 여전히 도전 과제가 되고 있습니다. 기존의 대조 학습 방법은 일반적인 마스킹 기술과 조잡한 유사성 측정에 자주 의존하여 세밀하고 도메인 특정 언어 뉘앙스를 포착하는 능력이 제한됩니다. 이 논문은 대규모 언어 모델(LLM) 피드백에 의해 안내되는 가중 대조 학습과 새로운 주제 인식 마스킹 전략을 통합하여 향상된 도메인 적응 프레임워크를 제안합니다. 구체적으로, 주제 모델링을 활용하여 의미적으로 중요한 도메인 특정 용어를 체계적으로 식별함으로써 단일 키워드, 다중 키워드 및 부분 키워드 마스킹의 세 가지 표적 마스킹 전략을 통해 의미 있는 대조 쌍을 생성합니다. 각 마스킹된 문장은 LLM 지침에 따라 재구성되며, 계속적이고 세밀한 감독 신호로 작용하는 단계적인 유사성 평가가 함께 진행됩니다. 20세기 초 과학 소설 말뭉치에서 수행된 실험은 제안된 접근법이 새로운 SF-ProbeEval 벤치마크 내의 여러 언어 프로빙 작업에서 SimCSE 및 DiffCSE와 같은 기존 기준선을 일관되게 초월함을 보여줍니다. 더욱이, 제안된 방법은 상당히 줄인 계산 요구 사항으로 이러한 성능 개선을 달성하여 전문 도메인에 대한 언어 모델의 효율적이고 해석 가능한 적응을 위한 실제 적용 가능성을 강조합니다.

효율적인 도메인 적응을 위한 AI 시스템: 계산 요구 사항을 줄인 LLM 기반 가중 대조 학습

Key Points

Abstract

Cite This Study

Also Consider

Also Consider