산업 디지털 전환이 가속화되면서 제조·에너지 분야의 복잡한 데이터를 대상으로 정확한 검색증강생성(RAG)의 필요성이 커지고 있다. 그러나 기존 연구는 대규모 언어모델(LLM)과 범용 데이터셋에 과도하게 의존해, 스키마와 메타데이터가 핵심적인 고구조화 산업 환경에는 적용에 한계가 있다. 본 연구는 산업·에너지 도메인의 스키마 기반 표 형식 데이터를 대상으로 RAG 성능을 체계적으로 평가한다. 우리는 NREL FIED 데이터셋을 활용해 2,510개 QA 벤치마크를 구축하고, Phi-3-Mini와 Gemma-2B-IT 같은 소형 언어모델(SLM)과 GPT-4o, Claude-3.5-Sonnet 등 LLM을 비교하였다. Baseline-RAG과 스키마 의미를 메타데이터로 포함한 Meta-RAG 전반에서 메타데이터 통합은 답변 신뢰도와 문맥 정밀도를 향상시키며, 경량 SLM에서도 뚜렷한 성능 개선을 보였다.이러한 결과는 SLM 기반 RAG 파이프라인의 실질적인 활용 가능성을 보여주며, 실제 제조·에너지 응용 환경에서 확장 가능하고 비용 효율적인 시스템 구축을 위해 효과적인 메타데이터 및 스키마 설계가 중요함을 시사한다.
Building similarity graph...
Analyzing shared references across papers
Loading...
SON et al. (Tue,) studied this question.
synapsesocial.com/papers/69d8930e6c1944d70ce041e4 — DOI: https://doi.org/10.6109/jkiice.2026.30.3.384
DONG-YOUNG SON
Youn-Jun Seong
Hayoung Oh
University of Southern California
The Journal of the Korean Institute of Information and Communication Engineering
Building similarity graph...
Analyzing shared references across papers
Loading...
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: