凯发k8国际首页登录 k8凯发(中国)天生赢家·一触即发

凯发·k8国际app官网这次团队也勾搭 MAE 的效力探索了一些可能性-凯发k8国际首页登录 k8凯发(中国)天生赢家·一触即发

发布日期:2025-03-08 09:28    点击次数:91

凯发·k8国际app官网这次团队也勾搭 MAE 的效力探索了一些可能性-凯发k8国际首页登录 k8凯发(中国)天生赢家·一触即发

何恺明再次开宗立派!开荒了生成模子的全新范式——

分形生成模子  Fractal Generative Models,初度使逐像素生成高离别率图像成为可能,论文名字依旧持续以往的大路至简立场。

团队将生成模子自身综合为可复用的"原子模块" 。

通过递归地在生成模子中调用这些原子生成模块,不错构建出一种自一样的分形架构。

其灵感源于数学中的分形念念想。它尽头于一个纯粹或破裂的几何局势分红数个部分,每一部分齐(至少雷同地)是举座减弱后的局势。即具有自一样的性质。

嗯,等于像俄罗斯套娃(Matryoshka)那样子。

By the way,「俄罗斯套娃」这个词还是被其他论文用过了,sad。

团队建议用参数化的神经网罗看成分形生成器,从数据中学习这种递归律例,已毕对高维非序列数据的建模,也可用于材料、卵白质等。

截止在「逐像素图像生成」这一任务中泄露出色。

看到这张图,难免让东说念主猜度此前‍

通过对输入图像的马上区块进行遮挡,然后重建缺失的像素。

这次团队也勾搭 MAE 的效力探索了一些可能性。现在该效力代码已开源。

逐像素生成高离别率图像

若何使用自转头模子看成分形生成器?

领先洽商到观点是对一大组马上变量的调理漫步进行建模 ,平直使用单个自转头模子的策划量令东说念主我见犹怜。

团队选拔的要害计谋是"分而治之",将自转头模子综合成一个模块化单位。

由于每个级别的生成器齐不错从单个输入生成多个输出,因此分形框架不错在只需要线性数目的递归级别的情况下已终身成输出的指数级增长。

最终,在每个分形级别中,自转头模子罗致来自前一个生成器的输出,将其与相应的图像块纠合,并使用多个 transformer 模块为下一个生成器生成一组输出,冉冉从图像块到像素细化生成经由。

之是以弃取像素级图像生成这个任务,是由于原始图像数据具有高维度和复杂性,像素之间存在丰富的结构口头和互相依赖联系。

这类高维生成问题任务在一一元素生成数据,但又与长序列建模不同,频频波及非国法数据,像分子结构、卵白质、生物神经网罗等数据也相宜这个性情。

团队觉得分型生成模子不仅是一个策划机视觉规律,还能展示分形规律在处罚这类高维非国法数据建模问题上的后劲,为其他数据界限的哄骗提供参考。

不外照旧来望望它在像素级图像上的泄露:

领先是直不雅的视觉效果,在 ImageNet 256x256 数据集上,逐像素生成一张图需要 1.29 秒。

测试盘算方面,分形模子在 ImageNet 64 × 64 无要求生成上已毕了 3.14bits/dim 的负对数似然,越过此前最好的自转头模子。

在图像质地上,FractalMAR-H 模子达到 6.15 的 FID 和 348.9 的 Inception Score。

更值多礼贴的是,分形架构将策划效力耕作到传统规律的 4000 倍,一一像素生成高离别率图像初度成为可能。

团队还探索了将掩码重建与分形生成模子勾搭起来,实践发现也不错准确展望被遮挡的像素。

此外,它不错灵验地从类标签中拿获高档语义,并将其反应在展望的像素中,比如临了一列,把猫的脸替换成狗的脸,这些截止解说了该规律在已知要求下展望未知数据的灵验性。

临了附上更多生成截止样本。

何恺明 MIT 天团,一作黎天鸿

这次效力是由 MIT 何恺明团队和谷歌 DeepMind 全华东说念主班底完成,并由谷歌提供 TPU、GPU 资源因循。

一作何恺明的学生黎天鸿。

黎天鸿本科毕业于清华叉院姚班,在 MIT 赢得了硕博学位之后,现在在何恺明组内从事博士后盘问。

他的主要盘问标的是表征学习、生成模子以及两者之间的协同作用。观点是构建或者融会东说念主类感知除外的寰宇的智能视觉系统。

此前曾看成一作和何恺明成立了自要求图像生成框架 RCG,团队最新的多项盘问中他也齐有参与。

Qinyi Sun,现在 MIT 三年岁本科生。

范丽杰,清华策划机系学友,客岁博士毕业于 MIT CSAIL,现在在谷歌 DeepMind 担任盘问科学家,起劲于生成模子和合成数据。

此前曾与黎天鸿共同参与过 FLUID 的盘问——

一个可推广的自转头文本转图像模子,无需 VQ。10B 参数模子已毕 SOTA 性能。

论文地址:

https://arxiv.org/abs/2502.17437v1凯发·k8国际app官网