Key points are not available for this paper at this time.
비구조화된 텍스트를 유용한 범주 레이블로 구성된 구조적이고 의미 있는 형태로 변환하는 것은 하류 분석 및 응용을 위한 텍스트 마이닝의 기본적인 단계입니다. 그러나 기존의 레이블 분류체계 생성 및 텍스트 기반 레이블 분류기 구축 방법은 여전히 전문성 및 수작업 큐레이션에 크게 의존하여 비용이 많이 들고 시간이 소요됩니다. 이는 레이블 공간이 구체적으로 정의되지 않고 대규모 데이터 주석이 사용할 수 없을 때 특히 어려운 문제입니다. 본 논문에서는 LLM(대규모 언어 모델)을 이용하여 이러한 문제를 해결합니다. 프롬프트 기반 인터페이스는 대규모 의사 레이블의 유도 및 사용을 용이하게 합니다. 우리는 최소한의 인간 노력을 통해 주어진 사용 사례에 대해 종료 간 레이블 생성 및 할당 프로세스를 자동화 하기 위해 LLM을 활용하는 두 단계 프레임워크인 TnT-LLM을 제안합니다. 첫 번째 단계에서는 LLM이 레이블 분류체계를 반복적으로 생성하고 다듬을 수 있도록 하는 제로샷 다중 단계 추론 접근 방식을 소개합니다. 두 번째 단계에서는 LLM을 데이터 레이블러로 사용하여 경량의 감독된 분류기를 신뢰할 수 있게 구축, 배포 및 대규모로 제공할 수 있는 훈련 샘플을 생성합니다. 우리는 TnT-LLM을 오픈 도메인 채팅 기반 검색 엔진인 Bing Copilot(구 Bing Chat)의 사용자 의도 및 대화 도메인 분석에 적용합니다. 인간 및 자동 평가 지표를 사용한 광범위한 실험을 통해 TnT-LLM이 최신 기준과 비교하여 더 정확하고 관련성 높은 레이블 분류체계를 생성하며, 대규모 분류에서 정확성과 효율성 간의 우호적인 균형을 달성함을 입증했습니다.
Wan et al. (토요일)은 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: