Key points are not available for this paper at this time.
검색 엔진은 웹에서 정보 획득을 시작하는 사실상의 장소가 되었습니다. 그러나 웹 스팸 현상으로 인해 검색 결과는 항상 원하는 만큼 좋지 않습니다. 더구나 스팸이 진화하여 고품질 검색을 제공하는 문제를 더욱 도전적으로 만들고 있습니다. 지난 10년 동안 적대적 정보 검색에 대한 연구는 학계와 산업 모두에서 많은 관심을 받았습니다. 본 논문에서는 알고리즘 및 기본 원칙에 중점을 두고 웹 스팸 탐지 기술에 대한 체계적인 리뷰를 제시합니다. 우리는 기존의 모든 알고리즘을 사용하는 정보의 유형에 따라 세 가지 범주로 분류합니다: 콘텐츠 기반 방법, 링크 기반 방법, 사용자 행동, 클릭, HTTP 세션과 같은 비전통적 데이터에 기반한 방법. 차례로 우리는 사용된 아이디어와 원칙에 따라 링크 기반 범주를 다섯 그룹으로 세분화합니다: 레이블 전파, 링크 가지치기 및 재가중치, 레이블 정제, 그래프 정규화, 그리고 기능 기반. 우리는 또한 웹 스팸 개념을 수치적으로 정의하고 다양한 스팸 형태에 대한 간단한 조사를 제공합니다. 마지막으로, 우리는 웹 스팸 탐지에 적용된 관찰과 기본 원칙을 요약합니다.
Спирин 외 (화요일), 이 질문을 연구하였습니다.