사전 학습된 언어 모델의 도메인 적응은 특히 구별되는 어휘와 독특한 의미 구조를 포함하는 전문 텍스트 수집에 대해 여전히 도전 과제가 되고 있습니다. 기존의 대조 학습 방법은 일반적인 마스킹 기술과 조잡한 유사성 측정에 자주 의존하여 세밀하고 도메인 특정 언어 뉘앙스를 포착하는 능력이 제한됩니다. 이 논문은 대규모 언어 모델(LLM) 피드백에 의해 안내되는 가중 대조 학습과 새로운 주제 인식 마스킹 전략을 통합하여 향상된 도메인 적응 프레임워크를 제안합니다. 구체적으로, 주제 모델링을 활용하여 의미적으로 중요한 도메인 특정 용어를 체계적으로 식별함으로써 단일 키워드, 다중 키워드 및 부분 키워드 마스킹의 세 가지 표적 마스킹 전략을 통해 의미 있는 대조 쌍을 생성합니다. 각 마스킹된 문장은 LLM 지침에 따라 재구성되며, 계속적이고 세밀한 감독 신호로 작용하는 단계적인 유사성 평가가 함께 진행됩니다. 20세기 초 과학 소설 말뭉치에서 수행된 실험은 제안된 접근법이 새로운 SF-ProbeEval 벤치마크 내의 여러 언어 프로빙 작업에서 SimCSE 및 DiffCSE와 같은 기존 기준선을 일관되게 초월함을 보여줍니다. 더욱이, 제안된 방법은 상당히 줄인 계산 요구 사항으로 이러한 성능 개선을 달성하여 전문 도메인에 대한 언어 모델의 효율적이고 해석 가능한 적응을 위한 실제 적용 가능성을 강조합니다.
성관 강 (Mon)은 이 질문을 연구했습니다.
Synapse has enriched 2 closely related papers on similar clinical questions. Consider them for comparative context: