인공지능이 법률 실무를 변화시키면서 대형 언어 모델(LLM)의 효과적 배포가 중요해졌습니다. LLM이 법률 과제 전반에서 가능성을 보이나, 사실 정확성과 도메인 특화 추론에서 특히 권위 있는 법적 효력을 가지는 인용 예측 분야에서 과제가 남아 있습니다. 우리는 55,000건의 실제 호주 사례와 18,677개의 고유 인용문으로 구성된 AusLaw 인용 벤치마크를 도입했습니다. 이는 이 과제의 최대 관할권별 데이터셋입니다. 지시 조정 모델, 희소 및 밀집 검색, 재순위자 앙상블 등 프롬프트, 검색, 미세 조정, 하이브리드 전략을 체계적으로 비교했습니다. 단독 생성 모델(일반 또는 법률 특화)은 거의 완전히 실패해 보강 없는 배포의 위험을 강조합니다. 과제 특화 지시 조정은 성능을 크게 향상시키며, BM25가 밀집 임베딩보다 검색에서 우위를 보이고, 관할권별 사전 학습이 크지만 덜 특화된 모델을 능가합니다. 학습된 재순위자를 결합한 하이브리드 접근법이 최고의 결과를 내지만, 40%의 큰 성능 격차가 남아 인용 예측의 장기 꼬리 문제를 드러냅니다. 이 결과는 규모, 검색, 미세 조정에 대한 기존 가정을 재구성하며 신뢰할 수 있는 관할권 인식 법률 AI 시스템 구축의 기반을 제시합니다. 코드, 데이터, 모델은 https://auslawbench.github.io/ 에서 제공됩니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiuzhou Han
Monash University
Paul Burgess
Monash University
Ehsan Shareghi
University College London
Artificial Intelligence and Law
University College London
Monash University
Building similarity graph...
Analyzing shared references across papers
Loading...
Han 등(Tue,)이 이 질문을 연구함.
synapsesocial.com/papers/69d894ce6c1944d70ce05b8f — DOI: https://doi.org/10.1007/s10506-026-09506-9