Poetry2Image: 중국 고전시에서 생성된 이미지에 대한 반복 수정 프레임워크

Key Points

Key points are not available for this paper at this time.

Abstract

텍스트-이미지 생성 모델은 종종 중국 고전시 관련 작업에서 주요 요소 손실이나 의미 혼란을 겪습니다. 이 문제를 해결하기 위해 모델을 미세 조정하는 데는 상당한 훈련 비용이 필요합니다. 또한, 재확산 조정을 위한 수동 프롬프트는 전문 지식이 필요합니다. 이 문제를 해결하기 위해 우리는 중국 고전시에서 생성된 이미지를 위한 반복 수정 프레임워크인 Poetry2Image를 제안합니다. 외부 시집 데이터셋을 활용하여 Poetry2Image는 이미지 생성 모델과 대형 언어 모델(LLM)이 제안한 후속 재확산 수정으로 시와 이미지 간의 정렬을 향상시키는 자동 피드백 및 수정 루프를 구축합니다. 200개의 중국 고전시 문장으로 구성된 테스트 세트를 사용한 결과, 제안된 방법은 다섯 개의 인기 있는 이미지 생성 모델과 통합했을 때 평균 요소 완성도가 70.63%에 달해 직접 이미지 생성 대비 25.56% 개선된 것입니다. 의미 정확성 테스트에서 우리의 방법은 평균 의미 일관성 80.09%를 달성합니다. 이 연구는 고대 시 문화의 확산을 촉진할 뿐만 아니라 비미세 조정 방법에 대한 참고 자료를 제공하여 LLM 생성 향상에 기여합니다.

Poetry2Image: 중국 고전시에서 생성된 이미지에 대한 반복 수정 프레임워크

Key Points

Abstract

Cite This Study

Also Consider

Also Consider