Key points are not available for this paper at this time.
본 논문에서는 일반적인 비볼록 문제에서 확률적 경사 하강법(SGD)의 장기 분포를 조사합니다. 구체적으로, 우리는 SGD가 문제의 상태 공간에서 어느 영역을 방문할 가능성이 더 높은지를 이해하고자 합니다. 큰 편차 이론과 무작위로 섭동된 동적 시스템에 기반한 접근법을 사용하여, SGD의 장기 분포가 볼츠만-깁스 평형 열역학 분포와 유사하며, 온도는 방법의 스텝 크기에, 에너지 수준은 문제의 목표와 잡음의 통계에 의해 결정됨을 보여줍니다. 특히, 우리는 장기적으로 (a) 문제의 임계 영역이 비임계 영역보다 기하급수적으로 더 자주 방문된다는 점; (b) SGD의 반복값이 문제의 최소 에너지 상태 주위에 기하급수적으로 집중된다는 점(이는 항상 목표의 전역 최소값과 일치하지 않음); (c) 임계점의 모든 다른 연결된 구성 요소가 그들의 에너지 수준에 기하급수적으로 비례하는 빈도로 방문된다는 점; 그리고 마지막으로 (d) 지역 극대값이나 샘들 지점의 구성 요소가 기하급수적으로 더 자주 방문되는 지역 최소화 구성 요소에 의해 "지배"된다는 점을 보여줍니다.
Azizian 외 (Thu,)는 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: