更高清写实的人体天生模子HyperHuman来了,基于隐式妄想散漫,刷新多项SOTA
时间:2025-03-04 11:40:43 出处:探索阅读(143)
机械之心专栏
作者:Snap钻研院,更高香港中文大学 ,清写香港大学 ,实的式妄南洋理工大学

论文地址: https://arxiv.org/pdf/2310.08579.pdf
Github 地址: https://github.com/snap-research/HyperHuman
1. 钻研布景与念头
随着散漫模子的人体崛起,一些典型的天生模子好比 Stable Diffusion, DALL-E 2 等在文本天生图像使命上揭示了使人震撼的能耐。但一个清晰的模H漫刷缺少是 ,这些模子在文本天生人体图片的于隐使命上展现患上不精美绝伦 ,致使很难天生具备公平妄想或者做作姿态的想散新多项人体(好比精确的四肢数目以及适宜人体物理妄想的多少多拓扑)。眼前的更高主要原因在于:做作情景下的人体是铰接的,且搜罗刚性以及非刚性的清写形变;天生高品质的人体图片需要文本难以形貌的妄想信息 。
为了在文生图中引入妄想操作信息 ,实的式妄近期的人体代表使命如 ControlNet[1] ,T2I-Adapter [2] 削减了颇为轻量的天生、即插即用的模H漫刷可学习分支,用以调节预磨炼的于隐文生图散漫模子。可是 ,原本散漫模子分支以及新退出的可学习分支之间的特色差距,每一每一会导致生乐成果与操作信号的不不同 。
为了处置这个下场, HumanSD [3] 运用了一种原生的操作向导方式 ,即直接将人体骨架图与散漫模子输入在特色维度妨碍拼接 。尽管确定水平上处置了天生 - 条件不同过错齐的下场,但规模于天生艺术画风的图片,在天生品质、多样性以及写实性上仍有美满。此外,以前的大部份使命仅仅把操作信号作为一种输入或者向导条件,却漠视了人体概况与差距妄想信息之间多层级的分割关连 。若何天生一个传神的、妄想公平的人体图片依然是一个未处置的下场。
在本文中 ,Snap 钻研院、香港中文大学、香港大学、南洋理工大学团队推出了最新的高写实人体天生模子 HyperHuman ,经由对于显式的人体概况与隐式的多层级人体妄想妨碍散漫学习 ,在 zero-shot 的 MS-COCO 数据集上取患了最佳的图片品质(FID, FID_CLIP, KID)与天生 - 人体姿态不同性(AP, AR)目的服从 ,且取患了优异的文本 - 图像对于齐目的(CLIP score)服从 ,并在普遍的用户主不雅评测中取患了最优的服从。
2. 中间措施
为了引入人体骨架图以妨碍姿态操作,最重大的措施是经由特色残差或者输入串联。可是,这种做法依然存在多少个下场 :(1)浓密关键点仅形貌了简陋的人体妄想,而漠视了细粒度的人体多少多妄想以及远景 - 布景关连 。此外,原始的散漫模子磨炼仅由 RGB 信号妨碍把守,无奈取患上数据集图片中搜罗的妄想信息 。(2)图像 RGB 以及妄想表当初空间上对于齐 ,但在特色空间扩散上有很大的差距 。若何对于它们妨碍散漫建模依然具备挑战性 。
(1)Unified Model for Simultaneous Denoising.
咱们对于第一个下场的处置妄想是同时对于深度图