Key points are not available for this paper at this time.
최근 잠재 확산 모델(LDM)의 발전은 다양한 생성 작업의 최전선으로 이끌었습니다. 그러나 이들의 반복 샘플링 프로세스는 상당한 계산 부담을 초래하여 생성 속도가 느리고 텍스트-오디오 생성 배포에 제한이 있습니다. 본 연구에서는 효율적이고 고품질의 텍스트-오디오 생성을 위해 설계된 새로운 일관성 기반 모델인 AudioLCM을 소개합니다. AudioLCM은 생성 프로세스에 일관성 모델을 통합하여, 언제든지 임의의 지점에서 궤도의 초기 지점으로의 매핑을 통해 신속한 추론을 지원합니다. 샘플 반복을 줄인 LDM에서 발생하는 수렴 문제를 해결하기 위해, 우리는 다단계 일반 미분 방정식(ODE) 솔버를 이용한 가이드 잠재 일관성 증류를 제안합니다. 이 혁신은 수천 단계에서 수십 단계로 시간 일정을 단축하면서 샘플 품질을 유지하여 빠른 수렴과 고품질 생성을 달성합니다. 또한, 변환기 기반 신경망 아키텍처의 성능을 최적화하기 위해 우리는 LLaMA가 선도한 고급 기술을 변환기의 기본 프레임워크에 통합합니다. 이 아키텍처는 안정적이고 효율적인 훈련을 지원하여 텍스트-오디오 합성에서 발군의 성능을 보장합니다. 텍스트-사운드 생성 및 텍스트-음악 합성 작업에 대한 실험 결과는 AudioLCM이 고충실도의 오디오를 합성하기 위해 단 2번의 반복만 필요하며, 수백 단계에 걸쳐 최신 모델들과 경쟁하는 샘플 품질을 유지함을 보여줍니다. AudioLCM은 단일 NVIDIA 4090Ti GPU에서 실시간보다 333배 빠른 샘플링 속도를 지원하여 생성 모델이 텍스트-오디오 생성 배포에 실제적으로 적용 가능하게 합니다. 우리의 광범위한 예비 분석은 AudioLCM의 각 설계가 효과적임을 보여줍니다.
Liu et al. (Sat,)는 이 문제를 연구했습니다.