Key points are not available for this paper at this time.
많은 응용 프로그램이 지식 기반 작업을 수행하기 위해 웹 데이터 및 추출 시스템에 의존합니다. 웹 정보는 선별되지 않기 때문에 많은 출처가 부정확하거나 상충하는 정보를 제공합니다. 더 나아가, 추출 시스템은 데이터에 추가적인 잡음을 발생시킵니다. 우리는 올바른 데이터와 잘못된 데이터를 자동으로 구별하여 더 깨끗한 통합 데이터 세트를 만들기를 원합니다. 이전 연구에서는 대다수 또는 최소한 일정 수의 출처가 제공하는 데이터를 신뢰하는 단순 투표 전략이 출처 간의 복사가 있을 때 잘 작동하지 않을 수 있음을 보여주었습니다. 그러나 출처 간의 상관관계는 복사보다 훨씬 넓을 수 있습니다: 출처는 보완적인 도메인에서 데이터를 제공할 수 있으며(부정적 상관관계), 추출기는 서로 다른 유형의 정보에 집중할 수 있습니다(부정적 상관관계), 그리고 추출기는 추출에 대해 공통의 규칙을 적용할 수 있습니다(복사 없이 긍정적 상관관계). 본 논문에서는 출처 간의 상관관계를 모델링하고 이를 진실 발견에 적용하는 새로운 기법을 제시합니다. 우리는 서로 다른 특성을 가진 세 개의 실제 데이터 세트 및 합성 데이터에 대한 접근 방식을 포괄적으로 평가하며, 우리의 알고리즘이 기존의 최첨단 기술을 초월하는 것을 보여줍니다.
Pochampally et al. (수요일) 는 이 질문을 연구했습니다.