0 引言
多模态大语言模型作为一种大语言模型,其通过整合非文本模态以完成各类多模态任务[1]。与传统以文字生成为主的大型语言模型不同,多模态大型语言模型具备对文字、图像、视频、声音以及复合文档进行阐释与生成(试读)...