누락된 데이터 채우기는 원시 데이터 세트의 누락된 값을 채우는 것을 목표로 하며, 대형 언어 모델(LLM)과 같은 현대 데이터 기반 모델에 매우 중요합니다. 그 중요성에도 불구하고, 기존 솔루션은 1) 숫자 및 범주형 데이터만 지원하거나 2) 텍스트 데이터에 우선 순위를 두고 표 형식 데이터의 본질적인 특성을 간과하는 설계로 인해 만족스럽지 않은 성능을 보입니다. 본 논문에서는 숫자형, 범주형 및 텍스트 데이터를 포함한 혼합형 데이터의 채우기를 개선하기 위해 LLM과 고차 메시지 전송을 활용하는 통합 채우기 프레임워크인 UnIMP를 제안합니다. 구체적으로, 우리는 먼저 테이블을 모델링하기 위해 셀 중심의 하이퍼그래프를 소개합니다. 그런 다음 전 column 이질성과 intra-column 동질성을 포착하면서 글로벌-로컬 및 고차 정보를 집계하는 효율적인 양방향 고차 메시지 전송 네트워크인 BiHMP를 제안합니다. LLM의 용량을 BiHMP에 의해 집계된 정보에 맞추기 위해, BiHMP와 함께 LLM의 어댑터 역할을 하는 Xfusion을 도입합니다. 우리는 효율성을 높이기 위해 테이블을 더 작은 청크로 나누는 청크 기법과 점진적으로 모델이 더 복잡한 데이터 패턴을 학습하도록 적응시키는 점진적 마스킹 기법의 두 가지 최적화를 통합하여 UnIMP를 훈련하는 사전 훈련 및 미세 조정 파이프라인을 따릅니다. 10개의 실제 데이터 세트에 대한 이론적 증명과 실증 실험 모두 UnIMP가 기존 기술보다 우수함을 강조합니다.
Wang et al. (Sun,)는 이 질문을 연구했습니다.