具备原生汉文知道才略色色色色色色色色色色色色,还兼容 Stable Diffusion 生态。
最新模子结构Bridge Diffusion Model来了。
与 Dreambooth 模子取悦,它生成的穿录取婚仪式服的歪国明星长这么。
它由 360 东说念主工智能说合院忽视,最近刚被 AAAI 接收,并已开源。
访佛 ControlNet 的分支鸠合念念路
文生图模子的汉文原生问题,一直是一个要点说合问题。
受算力和数据身分的抑止,国内大批的汉文 AI 绘图居品背后,执行上许多所以开源的英文模子偏激微调模子为才略基座,关联词,英文模子包括且不限于 SD1.4/1.5/2.1/3.5 以及 DALLE、Midjourney、Flux 等,因为这些模子的磨真金不怕火数据以英文数据为主,因此在生成图像时,主体形象包括东说念主物、物品、诱惑、车辆、衣饰、标识等,都存在相配普遍和较着的英文天下不雅偏见。
BDM 是咱们在多模态生成宗旨相比早期的职责,调理两个要害问题:
1)原生汉文及生成模子的天下不雅偏见
2)与 SD 生态的兼容性
冷大炜博士对 BDM 职责的主要着眼点作念了如上的精湛综合。
"原生汉文"问题指的不单是是文生图模子撑捏汉文输入,更中枢的是条目模子生成的东说念主、物形象应该相宜汉文文化的通晓。
下图是 AI 绘图模子的天下不雅偏见实例,从左到右分辩是 SDXL,Midjourney,国内友商 B*,国内友商 V*:
汉文 AI 绘图模子,从达成的阶梯聘请上,从易到难轻便有以下几种阵势:
英文模子 + 翻译。
能够平直色色色色色色色色色色色色,除了翻译外几无本钱。这种阵势只可处置名义上的汉文输入问题,并不可处置英文模子因为模子偏见而无法生成相宜汉文文化通晓形象的问题。
英文模子 + 隐式翻译。
与显式调用翻译工作不同,这种阵势是将英文模子的 text encoder 替换为汉文 text encoder,并期骗中英文平行语料对汉文 text encoder 进行磨真金不怕火,使其输出的 embedding 空间与蓝本的英文 text encoder 对皆。实质上属于一种隐式翻译,亦然本钱相配低的一种决策,相通无法处置模子的天下不雅偏见问题。
英文模子 + 隐式翻译 + 微调。
在上头体式基础上,将对皆了 text encoder 的模子使用汉文图文数据进一步举座微调以普及模子对汉文形象的输出才略。不错在一定进度上缓解英文基底模子带来的模子偏见问题。
汉文数据重新磨真金不怕火。
这是最透澈的一种汉文化决策:知道汉文输入,并能给出相宜汉文文化通晓的图像输出收尾,不错完好处置模子的天下不雅偏见问题。
上述四种阶梯,第 4 种阶梯看上去相配完好,但仍有极少值得出奇的研发极力:在基座模子以外,咱们需要进一步探究的是大模子期间的模子生态问题。
围绕着以 SD 为代表的开源模子,已酿成了相配深广的开源社区生态,这个生态中大批繁衍作风模子、插件模子等积存了相配细腻的群体智商钞票。
在克服 AI 绘图模子天下不雅偏见的基础上,进一步达成对开源社区的兼容,即是咱们的 BDM 职责所要处置的第二个要害问题。
BDM 从模子结构上是一种访佛 ControlNet 的分支鸠合念念路,以不同的鸠合分支学习不同谈话的数据,因此从旨趣上 BDM 不仅不错达成原生汉文图像生成,也不错达成苟且 X 谈话的图像生成,并保证生成的图像相宜对应谈话文化的通晓。
英文部分不错平直复用已有的开源模子,从而达成与开源社区的无缝兼容。防御 BDM 在使用时只需要输入一种谈话,比如输入汉文时,英文分支所以空文本行为输入的。
BDM v1 版块使用 10 亿量级的汉文图文数据进行磨真金不怕火,并兼容 SD1.5 社区生态。
下图展示了 BDM 在生成汉文独到成见的才略和翻译无法应酬的中英多义情况下的生成后果:
下图则展示了 BDM 在 SD1.5 社区生态兼容性上的情况,不错看到 BDM 对不同的 SD1.5 作风微调模子具有很好的兼容性,超越是 BDM 同期保捏了汉文形象的输出才略,更多案例请详见 AAAI 论文。
对于 360 东说念主工智能说合院
在 360 集团 All in AI 的大配景下,360 东说念主工智能说合院阐扬本身的智商上风,承担多模态知道和多模态生成大模子(俗称图生文和文生图)的计策研发任务,并在两个方进取捏续发力,持续研发了 360VL 多模态大模子,BDM 文生图模子,可控布局 HiCo 模子,以及新一代 DiT 架构 Qihoo-T2X 等一系列职责。
近日,说合院在多模态知道宗旨的职责 IAA 和在多模态生成宗旨的职责 BDM 分辩被 AI 领域的 top 会议 AAAI 接收,这两项职责的研发负责东说念主为冷大炜博士。
据悉本届 AAAI 2025 会议收到近 1.3 万份投稿,接收 3032 份职责,接收率仅为 23.4%。
Arxiv: https://arxiv.org/abs/2309.00952
Github: https://github.com/360CVGroup/Bridge_Diffusion_Model
— 完 —
投稿请发邮件到:
女同telegramai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 名堂主页持续,以及关系阵势哦
咱们会(尽量)实时复兴你
点这里� � 调理我,铭刻标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日重逢 ~