摄影技巧
MMTryon团队 投稿爱游戏平台
量子位 | 公众号 QbitAI
多件穿着按指定穿法一键捏造试穿!
中山大学&字节智创数字东说念主团队提倡了一个名为MMTryon的捏造试穿框架,不错通过输入多个服装图像及指定穿法的文本提示来生成高质地的组合试穿终局。
比如选中一件大衣、一条裤子,再配一个包,用话语描写穿法,“啪”的一键就穿到了东说念主像上:
无论是真东说念主图像又或是漫画东说念主物,皆能一键按照搭配试穿穿着:
关于单图换装,MMTryon有用诈欺了多量的数据假想了一个表征能力雄壮的服装编码器,使得该决策能处理复杂的换装场景及大肆服装项目;
关于组合换装,MMTryon排斥了传统捏造换装算法中对服装细巧分割的依赖,可依靠一条规本提示从多张服装参考图像中采取需要试穿的服装及对应的穿法,生成的确当然的组合换装效用。
在基准测试中,MMTryon拿下新SOTA。
多模态多参考提防机制加握,效用更精准纯真捏造换装技巧旨在将模特所穿衣饰大约穿着的平铺图穿到地方东说念主物身上,达到换装的效用,关联词之前捏造试穿的决策存在一些技巧难点莫得处分。
领先,现存的体式时时是为单件试穿任务(上衣/下衣、连衣裙)而假想的,何况无法自界说着装作风爱游戏平台,举例,外衣拉上/拉开拉链、上衣塞入/塞出等。
另外,之前的决策严重依赖特定于类别的分割模子来识别试穿区域,如下图所示若是分割颠倒则将凯旋导致试穿终局中出现显明的试穿颠倒大约伪影等情况。
为了处分这些问题,讨论团队提倡了MMTryon,将参考图像中的服装信息与文本提示中的着装作风信息通过一种新颖的多模态和多参考提防机制来进行默示,这使得该决策援手组合式换装以及千般的试穿作风。
此外,为了排斥对分割的依赖性,MMTryon使用了表征能力丰富的服装编码器,并诈欺新颖的可膨大的数据生成历程增强现存的数据集,这么在推理阶段,MMtryon无需任何分割,只是通过文本以及多个试穿对象即可终了高质地捏造换装。
在开源的数据集以及复杂场景下进行的多量践诺在定性和定量上证据了MMTryon优于现存SOTA体式。
接下来是更具体的体式。
领先讨论团队预锤真金不怕火了一个服装编码器,在这一stage中MMTryon诈欺文本算作query,将得回的特征与grouding dino+SAM所得回的mask狡计一个query赔本。
地方是经过text query 后仅激活文本对应区域的特征,这么不错解脱关于服装分割的依赖。同期,诈欺多量的pair对更好的编码服装特征。
之后,为了更踏实的锤真金不怕火组合换装,需要多件服装组合式换装的pair图,关联词这么的pair图鸠集老本很高。
为此,讨论团队提倡了一个基于大模子的数据扩增时势,诈欺视觉话语模子以及grouding dino+SAM去得回了不同区域的mask,来保护对应的上衣大约下衣区域,诈欺stable diffusion XL去重绘保护区域外剩下的实质,构建了100w的增强数据集,锤真金不怕火中将增强数据集与90w原始数据一说念加入锤真金不怕火。
基于增强的数据集以及服装编码器,MMTryon假想了多参考图像提防力模块和多模态图文提防力模块,其中多参考图图像提防力模块用于将多件穿着的特征注入到地方图像来弃世多件穿着的试穿,多模态图文提防力模块诈欺详备的文本与图像的clip编码来弃世千般的试穿作风。
不错看到,MMtryon 由于衣饰编码器丰富的表征能力,关于各式类型的换装皆不错有的确的捏造试穿效用:
无论是真东说念主图像依然挂台衣饰,只需要多张服装参考图像及文本,就不错组合式换装并弃世换装作风。
致使还能算作一个fashion换装辅助假想来帮你买穿着:
在量化筹画上,MMTryon优于其他baseline的的效用,在开源数据集测试聚会的Human evaluation中,MMTryon也跨越其它baseline模子
在复杂场景的Human evaluation中,MMTryon也卓绝了现在的社区模子outfit anyone。
讨论东说念主员鸠集了复杂场景女装图片142张,男装图片57张,非服装图片87张,共邀请15位参与者参与评测,采取更心爱的决策终局。从图表中不错看出,MMTryon的效用更受测试者的心爱。
更多细节,感酷爱酷爱的家东说念主们不错稽查论文~
论文连气儿:https://arxiv.org/abs/2405.00448
— 完 —
量子位 QbitAI · 头条号签约爱游戏平台