May 22, 2017Open Access

TernGrad: 통신을 줄이기 위한 삼원 그래디언트 분산 심층 학습에서

Key Points

Key points are not available for this paper at this time.

Abstract

그래디언트와 파라미터를 동기화하기 위한 높은 네트워크 통신 비용은 분산 훈련의 잘 알려진 병목 현상입니다. 이 연구에서는 데이터 병렬성을 활용하여 분산 심층 학습을 가속화하는 삼원 그래디언트(TernGrad)를 제안합니다. 우리의 접근 방식은 -1, 0, 1의 세 가지 수치 수준만을 필요로 하며, 이는 통신 시간을 급격히 줄일 수 있습니다. 우리는 그래디언트에 대한 경계를 가정할 때 TernGrad의 수렴을 수학적으로 증명합니다. 이 경계에 의해 유도되어, 우리는 수렴을 개선하기 위해 층별 삼원화(layer-wise ternarizing) 및 그래디언트 클리핑을 제안합니다. 실험 결과, AlexNet에서 TernGrad를 적용해도 정확도 손실이 없거나 오히려 정확도가 향상될 수 있음을 보여줍니다. TernGrad에 의해 유도된 GoogLeNet의 평균 정확도 손실은 2% 미만입니다. 마지막으로 TernGrad의 확장성을 연구하기 위해 성능 모델이 제안됩니다. 실험은 다양한 심층 신경망에서 상당한 속도 향상을 보여줍니다. 우리의 소스 코드는 사용 가능하며.

Bookmark

View Full Paper

Bookmark

View Full Paper

TernGrad: 통신을 줄이기 위한 삼원 그래디언트 분산 심층 학습에서

Key Points

Abstract

Cite This Study