搜索

最懂中国传统文化的AI绘画生成模型——文澜与绘画模型的创新结合

王饱饱 1年前 (2022-10-22)

卢志武教授团队打造了一款最懂中国传统文化的AI绘画生成模型。

最近AI绘画生成模型在国内外掀起了一波AI绘画热潮，在各种社交媒体上都能看见用户分享的用AI工具生成的各种图片，甚至AI生成的作品获得了国际上的重要奖项。受此启发，中国人民大学卢志武教授团队将文澜模型与最新的图像生成技术进行创新结合，打造了一款最懂中国传统文化的AI绘画生成模型。

文澜模型是中国人民大学高瓴人工智能学院执行院长文继荣教授牵头研发的大规模中文多模态预训练模型。文澜模型经过6.5亿弱相关中文图文对的预训练，学习到独特的中文语言理解能力并能很好地将中文语义与视觉信息联系起来，尤其擅长理解中文独有的含蓄语义与图片中的抽象概念。相关研究成果“Towards artificial general intelligence via a multimodal foundation model”已经发表在Nature Communications上，并初步形成了一定的影响力。

最懂中国传统文化的AI绘画生成模型——文澜与绘画模型的创新结合

论文链接：https://www.nature.com/articles/s41467-022-30761-2

卢志武教授团队进一步挖掘文澜模型的潜力，将其与最新的生成技术进行创新性的结合，融合文澜的抽象语义理解能力与生成模型的强大生成能力，确保得到的模型能够出色地理解输入文本的语义并生成具有对应语义的图片。该研究团队专注于挖掘文澜对于中国传统文化的理解，借用最新的生成模型架构，并在所搜集的国画数据集上进行训练，得到的模型能根据中国传统文学生成对应风格的图片。具体而言，该研究团队在国画数据集上训练了一个无条件生成模型，并在生成过程中沿着与输入文本接近的方向不断调整生成图片的内容，使得最终的图片内容与输入文本在文澜模型的隐空间中趋于一致，从而实现根据文本语义生成图片的功能。该模型能够根据输入的中国古诗词生成对应的图片，从给出的下述例子中可以看出，生成的图片与古诗词的内容和意境都非常契合。

最懂中国传统文化的AI绘画生成模型——文澜与绘画模型的创新结合

通过大量的测试验证，卢志武教授团队发现文澜绘画模型甚至对晦涩难懂的儒释道思想也有独到的理解，生成的绘画作品开始获得相关领域专家的高度认可。为了更好地展现文澜绘画模型在解读儒释道思想上的特色，研究团队挑选了国内外最热门的AI绘画模型进行对比分析，包含盗梦师、文心、Disco Diffusion、Midjourney和Stable Diffusion。对Disco Diffusion、Midjourney和Stable Diffusion而言，中文文本需要先经过百度翻译。详细的分析结果如下。

儒家思想：

最懂中国传统文化的AI绘画生成模型——文澜与绘画模型的创新结合

儒家思想方面，挑选了王阳明心学的三句代表性话。通过生成的结果来看，盗梦师、Disco Diffusion、Midjourney和Stable Diffusion偏向于生成句子中的一些具象物体，或者生成一些画面较好但内容与句子并无太大关系的图片。文心则是倾向于生成带有人物的图片，甚至将光明直接理解成点燃的蜡烛。这些方法均无法较好地理解输入文本中的儒家思想。与之相反，文澜绘画模型能够更好地理解整句话的意思以及其中蕴含的儒家思想，从而生成符合该思想的图片。

释家思想：

最懂中国传统文化的AI绘画生成模型——文澜与绘画模型的创新结合

对于含有释家思想的文本输入，目前最火的绘画生成模型均只能抓住其中的一些具象物体并进行针对性的生成，有的绘画模型甚至会错误地理解其中的思想。比如，文心就将“见道忘山者人间亦寂也，见山忘道者山中也喧也”理解成了道家的思想（生成了一个道士的形象）。反观文澜绘画模型则是很好地理解了输入文本的释家思想并将之反映在生成的图片中。

道家思想：

最懂中国传统文化的AI绘画生成模型——文澜与绘画模型的创新结合

道家思想方面，主要挑选了道德经中三句最核心的话。文心相对于盗梦师、Disco Diffusion、Midjourney和Stable Diffusion，对道德经有较好的理解。但是，整体来说，文澜绘画模型对道家思想理解得更为透彻，生成的图片比文心更加具有道家的意境。

习近平总书记在二十大中提出“全面建设社会主义现代化国家，必须坚持中国特色社会主义文化发展道路，增强文化自信，围绕举旗帜、聚民心、育新人、兴文化、展形象建设社会主义文化强国，发展面向现代化、面向世界、面向未来的，民族的科学的大众的社会主义文化，激发全民族文化创新创造活力，增强实现中华民族伟大复兴的精神力量”。卢志武教授团队正是响应了这一号召，将最近大火的AI绘画生成技术与中文多模态预训练模型文澜结合起来，深度挖掘文澜模型的中国传统文化理解能力，并通过生成模型以图片的形式展现出来，让普通老百姓对一些深奥的中国传统文化思想有了更直观的了解，从而为创新性地传播中国传统文化贡献力量。该研究团队将会继续深挖文澜模型对中华传统文化的理解，并进一步运用最新技术展现中国传统文化在AI时代的最新理解！

最后，记得关注微信公众号：镁客网（im2maker），更多干货在等你！

镁客网

科技 | 人文 | 行业

微信ID：im2maker

长按识别二维码关注

硬科技产业媒体

关注技术驱动创新

王饱饱作者

王饱饱作者

450篇

文章总数

最新文章

雷军：一半时间放在汽车业务，争取15至20年进入世界前五；理想发布L7被指套娃式造车

ChatGPT飓风下的百度、微软和谷歌：三个“中年人”的隔空赌局

ChatGPT爆火全球，AIGC“破圈”成元宇宙加速新引擎

2023，大厂从元宇宙悄悄撤退

对标ChatGPT，谷歌宣布推出聊天机器人Bard；电动汽车初创公司Rivian正在研发电动自行车

更多 >