长期以来,扩散模型的训练通常依赖由变分自编码器(VAE)构建的低维潜空间表示。然而,VAE 的潜空间表征能力有限,难以有效支撑感知理解等核心视觉任务,同时「VAE + ...
④ 在此之上,VAE 的潜空间由于表征质量的缺陷,几乎无法被迁移到图像分类、分割或检测等更广泛的视觉任务中,导致生成与判别依赖于完全不同的视觉表征体系,难以支持构建生成、感知和理解的统一视觉基础模型。
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected] ...
近年来,基于扩散模型的图像生成技术发展迅猛,催生了Stable Diffusion、Midjourney等一系列强大的文生图应用。然而,当前主流的训练范式普遍依赖一个核心组件——变分自编码器(VAE),这也带来了长久以来困扰研究者们的几个问题: 训练复杂性:VAE旨在将高维 ...
本研究针对文化遗产保护中传统巴厘面具三维数据缺失问题,开发了包含27类面具的BaliMask3D数据集。通过360度摄影测量法获取高精度三维模型,结合VQ-VAE(矢量量化变分自编码器)和SDFusion(符号距离场融合)技术实现破损文物的三维补全,平均Uniform Hausdorff ...
前脚谢赛宁刚宣告VAE在图像生成领域退役,后脚清华与快手可灵团队也带着无VAE潜在扩散模型SVG来了。 该方法实现了在训练效率上62倍、生成速度上35倍的提升。 VAE为何被接连抛弃?主要还是因为语义纠缠的缺陷——语义特征都放在同一个潜空间,调一个数值就 ...
针对 VQ-VAE 在欧氏和球面隐空间的局限,研究人员开展双曲空间几何先验对其学习能力提升的研究。提出 HVQ-VAE,使隐嵌入和码本在双曲庞加莱球学习。实验表明其图像重建更优、码本利用高效、收敛快,在低维隐空间表现更佳。 论文解读 在人工智能的图像生成 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果