何恺明团队新作：删掉VAE和私有数据后，文生图竟然更强了

marsbit发布于2026-06-22更新于2026-06-22

文章摘要

何恺明团队发布极简文生图模型MiniT2I，挑战当前依赖复杂组件的行业范式。该模型摒弃了VAE编解码器、AdaLN条件注入、私有数据和强化学习对齐等常见设计，直接在像素空间使用流匹配目标进行训练。其采用改进的MM-JiT架构，用轻量文本适配器取代复杂的条件注入机制，使模型结构更简洁高效。训练数据全程使用公开集，采用预训练加微调的两阶段模式。仅258M参数的B/16版本在多个基准测试中超越了参数量大数倍的同类模型，展现出极高的性价比。扩展后的L/16版本在风格、构图等方面已接近更大规模的先进模型。研究证明了文生图模型可通过架构和训练流程的简化实现强大性能，可能推动该领域从“堆料”向“提纯”的范式转换。团队也指出了像素空间模型在patch边界伪影、高分辨率扩展和数据瓶颈等方面的当前局限。

文本生成图像的领域早已经是一片红海,看上去已经卷无可卷了。

想在当下训一个很牛的文生图模型,你需要什么?

如果从当下主流方案入手,那需要:预训练好的 VAE 编解码器、文本编码器的拼接、精心设计的条件注入机制、海量数据、RL 或 DPO 对齐阶段......

总体上,大家似乎默认了一个前提:做文生图,就是得这么复杂。

而何恺明团队却反其道而行之,在文生图模型领域做出了新的思考。他们发布了 MiniT2I —— 一个刻意追求极简的像素空间文生图模型。

没有 VAE 编解码器,没有 AdaLN 条件注入,没有辅助损失函数,没有私有数据,没有 RL/DPO 对齐,纯粹的流匹配目标直接在像素上训练。258M 参数的 B/16 版本,在 GenEval 上达到 0.87,DPG-Bench 达到 84.2,超越了参数量大它数倍的同类像素空间模型。

MiniT2I 的核心主张是:如果把文本条件当作「带有语义信息的上下文 token」注入模型,文生图和类别条件的 ImageNet 生成在本质上并没有那么大的区别 —— 架构可以相似,算力可以相当,甚至数据量级也可以对齐。

论文标题:A Minimalist Baseline for Text-to-Image Generation
技术博客:https://peppaking8.github.io/#/post/minit2i
开源地址:https://github.com/PeppaKing8/minit2i-jax

技术路线:每一步都在做减法

像素空间直出,不要 VAE

MiniT2I 的第一个设计选择就很激进:丢掉 VAE,直接在 RGB 像素上做去噪。

潜在扩散模型(Latent Diffusion)是当前主流范式,先用自编码器把图像压缩到低维空间再做扩散。这确实让高分辨率变得可行,但代价是引入了重建误差、额外的训练阶段、以及编码器 - 去噪器之间的目标不对齐问题。

MiniT2I 选择像素空间的理由很务实:对于 512×512 分辨率,用 16×16 的 patch 把图像切成 1024 个 token,序列长度完全在 Transformer 的舒适区内。去掉 VAE 后,单步前向的计算从~1379 GFLOPs 降到~570 GFLOPs(B/16 设置),而且不存在重建精度的上限问题 —— 去噪器能力有多强,输出就能有多好。

实验也证实了这一点:在相同参数预算下,像素模型的 FID 和潜在空间模型持平(18.7 vs 19.0),但单步成本低了 5 倍。

MM-JiT 架构:回归朴素 Transformer

SD3 的 MM-DiT 在每个 block 中用 AdaLN(Adaptive Layer Normalization)将时间步和池化文本编码注入网络 —— 每个子块需要计算 scale、shift 和 gate 参数,通过一个额外的 MLP 从条件向量生成。这是一套精巧的调制机制,但 MiniT2I 发现它并非必需。

MiniT2I 提出的 MM-JiT 架构做了两件事:

1. 加两层文本适配器:在联合注意力之前,插入两个轻量 Transformer block,让冻结的 T5 特征先「适应」去噪器的需求。

2. 删除 AdaLN 分支:不再通过额外路径注入时间步和全局文本信息。模型依然能感知噪声水平 —— 因为被噪声污染的图像本身就携带了时间步信息。

结果是一个接近标准预归一化 Transformer 的干净架构。去掉 AdaLN 后参数减少,但可以用相同算力预算换来更多层数(12 层 → 17 层)。FID 从 18.7 降到 13.7,同时架构本身更容易理解和修改。

训练数据:全公开,两阶段

MiniT2I 的训练数据同样追求极简:

预训练:LLaVA-recaptioned CC12M(公开可用的 VLM 重标注数据集),250K 步
微调:~12 万张高质量图文对(BLIP3o-60K + LAION DALL・E 3 Discord set + ShareGPT-4o-Image),40K 步

这种「预训练 - 微调」的两阶段模式完全对标 LLM 的训练范式:预训练买覆盖面,微调教模型什么是好答案。消融显示两者缺一不可 —— 只做预训练,图像质量可以但提示跟随很差;只做微调,模型看到的世界太窄,生成多样性坍塌。

结果:小模型,大表现

在像素空间文生图的对比中,MiniT2I 的性价比极为突出:

MiniT2I-B/16 仅用约 600M 总参数(含文本编码器),就在 GenEval 和 DPG-Bench 上超越了参数量 3-4 倍于己的模型。而且训练成本极低:B/32 消融模型在 8 张 H100 上只需约 3 天,总训练 FLOPs 与标准 ImageNet 200 epoch 实验相当。

扩展到 L/16(912M 参数)后,模型在风格多样性、空间关系和文字渲染方面都有明显进步,与 SD3-Medium(~2B 参数)在想象力场景上的生成质量相当甚至更优。

在更全面的 PRISM-Bench 评测中,MiniT2I-L/16 在风格、组合和想象力维度上表现出色(79.9、78.4、57.9),已经接近 SD3-Medium 水平。但在文字渲染(30.6 vs SD3 的 50.9)和命名实体(60.3 vs 66.3)上仍有差距 —— 团队坦承这是公开数据配方的固有局限,需要补充专项数据来弥补。

局限与展望

MiniT2I 是一条技术路线的概念验证,而非最终产品。团队诚实地指出了几个未解问题:

像素空间的 patch 伪影:在 patch 边界处存在可测量的不连续(边界处梯度比非边界高 17-22%),潜在空间模型没有这个问题
CFG 在像素空间的副作用:高引导系数(~6)会将局部 token 推离数据流形,在没有解码器「平滑」的情况下直接暴露为视觉瑕疵
分辨率天花板:当前在 512×512 工作良好,推向 4K+ 需要更长序列或更高效的注意力机制
数据瓶颈:文字渲染和命名实体仍弱于工业系统,需要专项数据补强

MiniT2I 证明了现阶段的文生图不是只有顶尖工业实验室才能玩的游戏。

当一个 258M 参数的模型,用纯公开数据,在学术级算力上训练 3 天就能打败体量大数倍的对手时,或许文生图正在经历从「堆料」到「提纯」的范式转换。

「T2I 不再是高不可攀的围墙。欢迎使用并改进它,打造更简洁的基线。」

本文来自微信公众号“机器之心”

你可能也喜欢

伯恩斯坦研报解读：明年 HBM 价格必翻 2 倍以上，存储成为 AI 的负担

伯恩斯坦研报指出，由于普通DRAM价格已上涨约4.5倍且利润率远超HBM，存储厂商缺乏将产能分配给HBM的动力。为确保HBM供应，其2027年合同价格需上涨2-2.5倍。关键在于，HBM直接封装于英伟达GPU中，英伟达为维持75%毛利率，可能将HBM成本涨幅放大4倍转嫁给云厂商，导致后者AI资本开支增加约30%。报告因此大幅上调三星、SK海力士、美光的目标价与盈利预测，但指出更大的HBM业务敞口反而会拉低存储厂整体盈利能力。铠侠因缺乏HBM业务无法受益，而联发科可能因云厂商寻求替代方案（如直接采购HBM用于ASIC）而获益。报告改用市盈率法估值，认为三大存储股仍有15%-26%上行空间。

marsbit4分钟前

marsbit4分钟前

金融市场的「危机舵手」逝世，回顾格林斯潘的美联储生涯

美国前美联储主席艾伦·格林斯潘去世，享年100岁。他执掌美联储近19年，历经里根至小布什四任总统，跨越1987年股灾、互联网繁荣及9/11袭击等多个关键时期，曾因危机应对举措被誉为“大师”和“危机舵手”，其“格林斯潘看跌期权”政策预期深刻影响市场。格林斯潘奉行市场友好哲学，相信金融创新与市场自我约束。在其任内，美国经济经历长期低通胀增长，但其不愿主动刺破资产泡沫的立场，以及在互联网泡沫破裂后长期维持低利率的做法，在2008年金融危机后受到广泛审视与批评。他被视为金融自由化时代的标志，其政策遗产的争议核心在于：央行如何在维护稳定与避免助长风险之间取得平衡。他的逝世再度引发对央行角色和市场边界这一永恒问题的思考。

marsbit9分钟前

marsbit9分钟前

两大巨头“信贷”狂奔：贷款余额 99 亿 vs 146 亿美元，巴西已成主战场

文章对比了Sea集团旗下Monee与Mercado Libre旗下Mercado Pago两大金融科技巨头2026年第一季度的信贷业务表现。两者均在海外市场，尤其是东南亚和拉美（以巴西为主）高速扩张，与国内信贷市场增长放缓形成对比。截至2026年一季度末，Monee贷款余额达99亿美元（同比增长71%），Mercado Pago达146亿美元（同比增长87%）。金融科技收入在各自集团总收入中占比持续提升。文章重点分析了双方在巴西市场的竞争与发展： 1. **Monee方面**：巴西是其增长最快市场，Q1贷款规模超10亿美元（同比增长250%），并成功获得巴西金融信贷牌照（SCFI），为未来多元化业务奠定合规基础。其信贷增长主要来自深耕存量用户、获取高质量新用户及拓展Shopee生态外场景。 2. **Mercado Pago方面**：巴西市场贡献了集团超一半收入，其信贷收入（主要来自信用卡、消费者贷款等）首次超过金融服务收入，成为金融科技板块最大引擎。尽管因信用卡业务占比提升导致净息差有所收窄，但仍保持约17.8%的高水平。巴西市场信贷收入达11.24亿美元，同比增长89%，占集团总收入12.7%。总结指出，巴西已成为两大巨头信贷业务的关键增长战场，增速迅猛。但这种增长高度依赖其原有的电商生态、支付闭环和用户数据，对于缺乏场景和生态的其他互金玩家而言，进入门槛极高，难以复制。

链捕手14分钟前

链捕手14分钟前

研报解读：英特尔靠苹果翻身？伯恩斯坦算完账，方向对但价格透支了

伯恩斯坦发布报告，解读英特尔可能为苹果代工PC芯片的前景。报告指出，特朗普的表态是积极信号，但合作初期规模有限：即便英特尔赢得苹果40%的高端笔记本芯片订单，年收入贡献仅约5亿美元，对英特尔整体财务影响微乎其微。其核心价值在于为英特尔的18A制程提供了关键的市场信任背书。报告认为，从概念验证到大规模量产，英特尔仍面临巨大挑战，包括巨额资本投入、产能建设、成本竞争和客户认证等。因此，伯恩斯坦维持英特尔“持有”评级和100美元目标价，认为当前股价已部分透支利好。长期看，此举有助于英特尔融入苹果供应链多元化及美国芯片制造本土化的趋势，并为争取云计算、AI等更大代工订单打开想象空间。但短期叙事与长期价值之间存在显著落差。投资者应关注英特尔代工业务的财务指标、18A制程良率与成本进展，以及后续能否赢得其他大客户。

marsbit38分钟前

marsbit38分钟前

27年王者让位：海力士市值首超三星，一场AI驱动的韩国芯片权力重构

2026年6月22日，SK海力士市值首次超越三星电子，终结了后者在韩国资本市场长达27年的统治地位。这场逆转的核心是SK海力士成功押注AI浪潮下的高带宽内存（HBM）市场。凭借在HBM领域近59%的份额以及与英伟达等客户的深度绑定，其2026年第一季度净利润同比增长近4倍，日均净赚超20亿元人民币，HBM业务成为核心利润引擎。相比之下，业务多元的三星电子在HBM布局上相对滞后，且智能手机、半导体代工等其他业务面临挑战，分散了资源与焦点。 SK海力士的崛起源于其从负债140亿美元的困境中，通过对HBM技术的早期战略投入，抓住了AI算力需求爆发的历史机遇。这一市值超越不仅标志着企业排名的变化，更折射出韩国经济增长动力正从消费电子转向AI基础设施，以及全球半导体产业向高价值专用化转型的趋势。然而，竞争并未结束。随着2028年前后各大厂商新产能释放，以及三星在HBM领域的奋力追赶，市场格局仍可能生变。此次市值登顶，是全球半导体产业权力在AI时代重构的一个鲜明信号。

marsbit49分钟前

marsbit49分钟前

交易

现货

合约

热门文章

什么是 ₿O₿

比特币鲍勃 ($₿o₿)：通过混合层-2创新开创以比特币为中心的去中心化金融在数字经济快速发展的时代，比特币鲍勃 ($₿o₿) 作为一个革命性项目，旨在增强比特币在去中心化金融（DeFi）领域的实用性。比特币鲍勃于2024年5月正式推出，也被称为“构建在比特币上”（BOB），代表了一种混合层-2区块链解决方案，将比特币著名的安全性和不可篡改性与以太坊的可编程性结合在一起。该倡议旨在填补比特币生态系统中的一个关键空白，通过促进智能合约和去中心化应用的整合，同时保持比特币固有的信任和安全的核心原则。凭借来自知名风险投资家的重大支持，比特币鲍勃有望重新定义比特币在DeFi领域的角色，使其成为全球去中心化金融操作的基石。什么是比特币鲍勃，$₿o₿？从本质上讲，比特币鲍勃是一个混合区块链解决方案，旨在增强比特币的功能。该项目的主要目标是使比特币上的去中心化金融成为可能，促进快速和无缝的交易，同时确保高水平的安全性。比特币鲍勃采用先进技术，特别是一种混合层-2架构，将比特币的安全属性与以太坊虚拟机（EVM）的可编程性和灵活性结合在一起。这种务实的方法使该项目能够有效运作，而不妨碍比特币的基本价值，使其成为弥合传统比特币持有者与新兴DeFi生态系统之间差距的重大一步。比特币鲍勃的一个突出特点是通过创新机制提供一个信任最小化的环境，例如最初依赖于以太坊的乐观汇总，最终过渡到完全的比特币集成。这个混合系统旨在确保比特币中存在的巨大流动性不仅得到保留，而且在各种DeFi协议中得到有效利用。比特币鲍勃的创始人是谁，$₿o₿？比特币鲍勃的创意力量是联合创始人兼首席执行官 Alexei Zamyatin，他在加密货币领域拥有丰富的经验和知识。Zamyatin拥有计算机科学博士学位，自2015年以来一直积极参与比特币开发。他对比特币和以太坊生态系统的深刻理解在塑造比特币鲍勃的愿景和技术基础方面发挥了至关重要的作用。与Zamyatin一起的是联合创始人 Dominik Harz，他担任首席技术官（CTO）。这对组合培养了一支充满激情的优秀团队，致力于推动区块链技术的边界，确保比特币鲍勃在市场上的创新地位。比特币鲍勃的投资者是谁，$₿o₿？比特币鲍勃成功获得了一系列知名投资者和风险投资公司的支持，他们认识到该项目改变比特币格局的潜力。在2024年3月，该项目完成了一轮强劲的 1000万美元种子融资，由Castle Island Ventures主导，并得到了Coinbase Ventures和Bankless Ventures等公司的显著参与。不久之后，在2024年7月，比特币鲍勃获得了额外的 160万美元战略融资。这一轮融资由Ledger Ventures共同主导，并吸引了来自BlackRock、Aave和Curve等多家知名公司的天使投资者。强大的财务支持反映了行业对比特币鲍勃在解锁比特币在DeFi空间潜力的创新方法的广泛认可。这笔资金不仅对项目的持续发展至关重要，还有助于建立一个孵化器，以促进专门满足日益增长的用户需求的比特币原生去中心化应用（dApps）。比特币鲍勃是如何运作的，$₿o₿？比特币鲍勃的操作机制根植于其混合汇总架构，旨在结合比特币安全性的优势与以太坊EVM的多功能性。该项目采用分阶段的安全模型，概述了其与用户和开发者的互动方式：第一阶段 – 初始阶段作为以太坊上的乐观汇总运行，其中交易以有效性的承诺期望进行处理，为未来在比特币上的发展铺平道路。第二阶段 – 随着项目的过渡，它将通过比特币质押集成比特币最终性，利用巴比伦网络增强安全性。该机制要求验证者锁定比特币，从而验证BOB交易，这不仅增强了安全性，还为参与者创造了收益机会。第三阶段 – 比特币鲍勃的前瞻性愿景是与比特币完全集成，使用创新技术如BitVM和零知识证明来促进链外计算，同时保持比特币的安全完整性。关键创新如 BitVM2，这是由Zamyatin共同撰写的信任最小化桥接协议，对于项目的功能至关重要，允许比特币存款和取款而无需依赖广泛的网络。这使得生态系统能够有效地与以太坊和其他兼容链连接，为用户和开发者创建一个简化和高效的互动模型。比特币鲍勃的时间线，$₿o₿ 了解比特币鲍勃的演变需要跟踪其重要里程碑： 2019年：Alexei Zamyatin和Dominik Harz成立了一家专注于区块链解决方案的研究公司，为未来项目奠定基础。 2024年3月：比特币鲍勃成功筹集 1000万美元的种子融资，标志着其进入竞争激烈的区块链市场。 2024年5月1日：官方主网启动，展示项目的能力，用户采用率和锁定总价值（TVL）显著。 2024年7月：该项目获得额外的 160万美元战略融资，用于建立其孵化器，旨在促进比特币驱动的创新。 2024年10月：比特币鲍勃发布“愿景文件”，详细说明其混合层-2设计和前瞻性战略。 2025年：预计推出第二阶段功能，重点关注比特币最终性和BitVM桥接，旨在增强整体功能。结论：重新定义比特币在去中心化金融中的角色比特币鲍勃 ($₿o₿) 不仅仅是另一个区块链项目；它代表了比特币与更广泛金融应用互动方式的范式转变。通过精心结合比特币的安全性与以太坊的灵活性，比特币鲍勃旨在重塑DeFi领域，弥合数字货币与去中心化应用之间的差距。凭借强大的技术框架、卓越的领导力和战略融资，比特币鲍勃有望在加密货币生态系统中确立自己作为基础参与者的地位，为比特币解锁新的流动性和实用性维度。随着项目的不断发展和扩展，它承诺将迎来创新的新纪元，证明比特币的潜力远不止于作为一种价值存储，而是作为未来金融格局的基石。随着项目通过其预期阶段的推进，所有目光都将聚焦于比特币鲍勃，特别是其致力于纳入去中心化原则并确保用户能够享受以比特币为基础的DeFi的全部好处的承诺。

22人学过发布于 2025.06.30更新于 2025.06.30

如何购买O

欢迎来到HTX.com！我们已经让购买O1 exchange（O）变得简单而便捷。跟随我们的逐步指南，放心开始您的加密货币之旅。第一步：创建您的HTX账户使用您的电子邮件、手机号码注册一个免费账户在HTX上。体验无忧的注册过程并解锁所有平台功能。立即注册第二步：前往买币页面，选择您的支付方式信用卡/借记卡购买：使用您的Visa或Mastercard即时购买O1 exchange（O）。余额购买：使用您HTX账户余额中的资金进行无缝交易。第三方购买：探索诸如Google Pay或Apple Pay等流行支付方法以增加便利性。C2C购买：在HTX平台上直接与其他用户交易。HTX场外交易台（OTC）购买：为大量交易者提供个性化服务和竞争性汇率。第三步：存储您的O1 exchange（O）购买完您的O1 exchange（O）后，将其存储在您的HTX账户钱包中。您也可以通过区块链转账将其发送到其他地方或者用于交易其他加密货币。第四步：交易O1 exchange（O）在HTX的现货市场轻松交易O1 exchange（O)。访问您的账户，选择您的交易对，执行您的交易，并实时监控。HTX为初学者和经验丰富的交易者提供了友好的用户体验。

56人学过发布于 2026.06.19更新于 2026.06.19