Key points are not available for this paper at this time.
텍스트-이미지 확산 모델은 자연어 설명으로부터 전문 예술가와 사진작가의 작품에 필적하는 놀라운 이미지를 생성할 수 있습니다. 그러나 이러한 모델은 크기가 크고 복잡한 네트워크 아키텍처와 수십 번의 노이즈 제거 이터레이션을 가지고 있어 계산적으로 소모가 크고 실행 속도가 느립니다. 그 결과, 확산 모델을 대규모로 실행하려면 고급 GPU와 클라우드 기반 추론이 필요합니다. 이는 비용이 많이 들고, 사용자 데이터가 제3자에게 전송될 때 특히 개인 정보 보호 문제가 있습니다. 이러한 문제를 극복하기 위해 우리는 텍스트-이미지 확산 모델을 모바일 기기에서 2초 이내에 실행할 수 있도록 하는 일반적인 접근 방식을 처음으로 제시합니다. 우리는 효율적인 네트워크 아키텍처를 도입하고 단계 증류를 개선하여 이를 달성합니다. 구체적으로 원래 모델의 중복을 식별하고 데이터 증류를 통해 이미지 디코더의 계산을 줄임으로써 효율적인 UNet을 제안합니다. 또한, 훈련 전략을 탐색하고 분류기 없는 안내에서 규제를 도입하여 단계 증류를 향상시킵니다. MS-COCO에 대한 우리의 광범위한 실험은 8단계 노이즈 제거를 가진 우리의 모델이 50단계의 Stable Diffusion v1.5보다 더 나은 FID 및 CLIP 점수를 달성함을 보여줍니다. 우리의 연구는 강력한 텍스트-이미지 확산 모델을 사용자에게 전달함으로써 콘텐츠 생성의 민주화를 실현합니다.
Li et al. (목요일), 이 질문을 연구했습니다.