Key points are not available for this paper at this time.
이 논문은 신경망과 강화 학습을 사용하여 조합 최적화 문제를 해결하기 위한 프레임워크를 제시합니다. 우리는 외판원 문제(TSP)에 초점을 맞추고, 주어진 도시 좌표 집합에 대해 다양한 도시 순열에 대한 분포를 예측하는 순환 네트워크를 훈련합니다. 보상 신호로 음수 투어 길이를 사용하여 정책 경량화 방법을 사용하여 순환 네트워크의 매개변수를 최적화합니다. 훈련 그래프 집합에서 네트워크 매개변수를 학습하는 것과 개별 테스트 그래프에서 학습하는 것을 비교합니다. 계산 비용이 많이 드는 것에도 불구하고, 많은 공학적 노력과 휴리스틱 설계없이 신경 연결 최적화는 최대 100개의 노드를 가진 2D 유클리드 그래프에서 최적에 가까운 결과를 얻습니다. NP-하드 문제인 KnapSack에 적용했을 때, 동일한 방법은 최대 200개의 항목을 가진 인스턴스에 대해 최적의 솔루션을 얻습니다.
Bello et al. (Tue,)은 이 질문을 연구했습니다.