토픽 모델의 재정규화 분석

Key Points

Key points are not available for this paper at this time.

Abstract

실제로 빅 데이터의 기계 학습 모델을 구축하기 위해서는 모델 매개변수를 조정해야 합니다. 매개변수 조정 과정은 매우 시간 소모적이고 계산적으로 비용이 많이 드는 그리드 검색을 포함합니다. 그러나 통계 물리학의 이론은 이 프로세스를 최적화할 수 있는 기술을 제공합니다. 본 논문에서는 토픽 모델링의 출력 함수가 군집 수의 변동에 따라 자기 유사적 행동을 나타낸다는 것을 보여줍니다. 이러한 행동은 재정규화 기법을 사용할 수 있도록 합니다. 재정규화 절차와 Renyi 엔트로피 접근 방식을 결합하면 최적의 주제 수를 빠르게 검색할 수 있습니다. 이 논문에서는 확률적 잠재 의미 분석(pLSA)과 변분 기대 최대화 알고리즘(VLDA) 및 결정론적 깁스 샘플링 절차(GLDA)를 가진 잠재 디리클레 할당 모델을 위한 재정규화 절차를 개발하였습니다. 실험은 서로 다른 두 언어로 된 주제 수가 알려진 두 개의 테스트 데이터 세트와 주제 수가 알려지지 않은 하나의 비표시 테스트 데이터 세트에서 수행되었습니다. 본 논문은 재정규화 절차가 품질 손실 없이 그리드 검색보다 최소 30배 빠르게 최적의 주제 수를 근사적으로 찾을 수 있도록 한다는 것을 보여줍니다.

Bookmark

View Full Paper

Bookmark

View Full Paper

토픽 모델의 재정규화 분석

Key Points

Abstract

Cite This Study