Key points are not available for this paper at this time.
생성 모델의 빠른 발전과 함께 인공지능 생성 콘텐츠(AIGC)는 일상생활에서 기하급수적으로 증가하고 있습니다. 그중 텍스트-투-비디오(T2V) 생성이 널리 주목받고 있습니다. 높은 지각 품질의 비디오를 생성하는 다수의 T2V 모델이 발표되었지만, 이러한 비디오들의 품질을 정량적으로 평가하는 방법은 아직 부족합니다. 이 문제를 해결하기 위해, 우리는 현재까지 가장 대규모인 텍스트-투-비디오 품질 평가 데이터베이스(T2VQA-DB)를 구축했습니다. 이 데이터셋은 9개의 서로 다른 T2V 모델이 생성한 10,000개의 비디오로 구성되어 있습니다. 또한, 각 비디오에 대한 평균 의견 점수를 얻기 위해 주관적 연구를 수행했습니다. T2VQA-DB를 바탕으로, 우리는 주관적 정렬 텍스트-투-비디오 품질 평가(T2VQA)를 위한 새로운 트랜스포머 기반 모델을 제안합니다. 해당 모델은 텍스트-비디오 정렬과 비디오 충실도 관점에서 특징을 추출하고, 이후 거대 언어 모델의 능력을 활용해 예측 점수를 제공합니다. 실험 결과 T2VQA는 기존의 T2V 지표와 최신 비디오 품질 평가 모델들을 능가함을 보였습니다. 정량적 분석 결과 T2VQA가 주관적 정렬 예측을 수행할 수 있음을 확인하며, 그 효과를 검증합니다. 데이터셋과 코드는 https://github.com/QMME/T2VQA 에서 공개될 예정입니다.
Kou 외 연구팀(모니터링)이 이 문제를 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: