Key points are not available for this paper at this time.
그래디언트와 파라미터를 동기화하기 위한 높은 네트워크 통신 비용은 분산 훈련의 잘 알려진 병목 현상입니다. 이 연구에서는 데이터 병렬성을 활용하여 분산 심층 학습을 가속화하는 삼원 그래디언트(TernGrad)를 제안합니다. 우리의 접근 방식은 -1, 0, 1의 세 가지 수치 수준만을 필요로 하며, 이는 통신 시간을 급격히 줄일 수 있습니다. 우리는 그래디언트에 대한 경계를 가정할 때 TernGrad의 수렴을 수학적으로 증명합니다. 이 경계에 의해 유도되어, 우리는 수렴을 개선하기 위해 층별 삼원화(layer-wise ternarizing) 및 그래디언트 클리핑을 제안합니다. 실험 결과, AlexNet에서 TernGrad를 적용해도 정확도 손실이 없거나 오히려 정확도가 향상될 수 있음을 보여줍니다. TernGrad에 의해 유도된 GoogLeNet의 평균 정확도 손실은 2% 미만입니다. 마지막으로 TernGrad의 확장성을 연구하기 위해 성능 모델이 제안됩니다. 실험은 다양한 심층 신경망에서 상당한 속도 향상을 보여줍니다. 우리의 소스 코드는 사용 가능하며.
Wen et al. (Mon,)이 이 질문을 연구했습니다.