Key points are not available for this paper at this time.
최근 대규모 언어 모델(LLM)의 발전으로 인해 LLM과 다중 모드 학습을 결합하는 데 대한 관심이 증가하고 있습니다. 이전의 다중 모드 대규모 언어 모델(MLLM)에 대한 조사들은 주로 이해에 초점을 맞추었습니다. 본 조사는 이미지, 비디오, 3D 및 오디오를 포함한 다양한 도메인에서의 다중 모드 생성에 대해 자세히 설명하며, 이러한 분야에서의 중요한 발전과 이정표적인 작업들을 강조합니다. 구체적으로, 우리는 이러한 연구에 사용된 방법론과 다중 모드 데이터세트 뒤에 있는 주요 기술 구성 요소를 철저히 조사합니다. 또한, 기존의 생성 모델을 사용하여 인간-컴퓨터 상호작용을 할 수 있는 도구 보강 다중 모드 에이전트에 대해서도 탐구합니다. 마지막으로, 우리는 AI 안전성의 발전에 대해 종합적으로 논의하고, 새로운 응용 프로그램과 미래 전망을 조사합니다. 우리의 작업은 다중 모드 생성에 대한 체계적이고 통찰력 있는 개요를 제공하며, 이는 생성 콘텐츠를 위한 인공지능(AIGC) 및 세계 모델의 발전에 기여할 것으로 기대됩니다. 관련 논문 목록은 https://github.com/YingqingHe/Awesome-LLMs-meet-Multimodal-Generation 에서 확인할 수 있습니다.
He et al. (수요일), 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: