何恺明团队新作:删掉VAE和私有数据后,文生图竟然更强了

marsbit發佈於 2026-06-22更新於 2026-06-22

文章摘要

何恺明团队发布极简文生图模型MiniT2I,挑战当前依赖复杂组件的行业范式。该模型摒弃了VAE编解码器、AdaLN条件注入、私有数据和强化学习对齐等常见设计,直接在像素空间使用流匹配目标进行训练。其采用改进的MM-JiT架构,用轻量文本适配器取代复杂的条件注入机制,使模型结构更简洁高效。 训练数据全程使用公开集,采用预训练加微调的两阶段模式。仅258M参数的B/16版本在多个基准测试中超越了参数量大数倍的同类模型,展现出极高的性价比。扩展后的L/16版本在风格、构图等方面已接近更大规模的先进模型。 研究证明了文生图模型可通过架构和训练流程的简化实现强大性能,可能推动该领域从“堆料”向“提纯”的范式转换。团队也指出了像素空间模型在patch边界伪影、高分辨率扩展和数据瓶颈等方面的当前局限。

文本生成图像的领域早已经是一片红海,看上去已经卷无可卷了。

想在当下训一个很牛的文生图模型,你需要什么?

如果从当下主流方案入手,那需要:预训练好的 VAE 编解码器、文本编码器的拼接、精心设计的条件注入机制、海量数据、RL 或 DPO 对齐阶段......

总体上,大家似乎默认了一个前提:做文生图,就是得这么复杂。

而何恺明团队却反其道而行之,在文生图模型领域做出了新的思考。他们发布了 MiniT2I —— 一个刻意追求极简的像素空间文生图模型

没有 VAE 编解码器,没有 AdaLN 条件注入,没有辅助损失函数,没有私有数据,没有 RL/DPO 对齐,纯粹的流匹配目标直接在像素上训练。258M 参数的 B/16 版本,在 GenEval 上达到 0.87,DPG-Bench 达到 84.2,超越了参数量大它数倍的同类像素空间模型。

MiniT2I 的核心主张是:如果把文本条件当作「带有语义信息的上下文 token」注入模型,文生图和类别条件的 ImageNet 生成在本质上并没有那么大的区别 —— 架构可以相似,算力可以相当,甚至数据量级也可以对齐。

  • 论文标题:A Minimalist Baseline for Text-to-Image Generation
  • 技术博客:https://peppaking8.github.io/#/post/minit2i
  • 开源地址:https://github.com/PeppaKing8/minit2i-jax

技术路线:每一步都在做减法

像素空间直出,不要 VAE

MiniT2I 的第一个设计选择就很激进:丢掉 VAE,直接在 RGB 像素上做去噪。

潜在扩散模型(Latent Diffusion)是当前主流范式,先用自编码器把图像压缩到低维空间再做扩散。这确实让高分辨率变得可行,但代价是引入了重建误差、额外的训练阶段、以及编码器 - 去噪器之间的目标不对齐问题。

MiniT2I 选择像素空间的理由很务实:对于 512×512 分辨率,用 16×16 的 patch 把图像切成 1024 个 token,序列长度完全在 Transformer 的舒适区内。去掉 VAE 后,单步前向的计算从~1379 GFLOPs 降到~570 GFLOPs(B/16 设置),而且不存在重建精度的上限问题 —— 去噪器能力有多强,输出就能有多好。

实验也证实了这一点:在相同参数预算下,像素模型的 FID 和潜在空间模型持平(18.7 vs 19.0),但单步成本低了 5 倍。

MM-JiT 架构:回归朴素 Transformer

SD3 的 MM-DiT 在每个 block 中用 AdaLN(Adaptive Layer Normalization)将时间步和池化文本编码注入网络 —— 每个子块需要计算 scale、shift 和 gate 参数,通过一个额外的 MLP 从条件向量生成。这是一套精巧的调制机制,但 MiniT2I 发现它并非必需。

MiniT2I 提出的 MM-JiT 架构做了两件事:

1. 加两层文本适配器:在联合注意力之前,插入两个轻量 Transformer block,让冻结的 T5 特征先「适应」去噪器的需求。

2. 删除 AdaLN 分支:不再通过额外路径注入时间步和全局文本信息。模型依然能感知噪声水平 —— 因为被噪声污染的图像本身就携带了时间步信息。

结果是一个接近标准预归一化 Transformer 的干净架构。去掉 AdaLN 后参数减少,但可以用相同算力预算换来更多层数(12 层 → 17 层)。FID 从 18.7 降到 13.7,同时架构本身更容易理解和修改。

训练数据:全公开,两阶段

MiniT2I 的训练数据同样追求极简:

  • 预训练:LLaVA-recaptioned CC12M(公开可用的 VLM 重标注数据集),250K 步
  • 微调:~12 万张高质量图文对(BLIP3o-60K + LAION DALL・E 3 Discord set + ShareGPT-4o-Image),40K 步

这种「预训练 - 微调」的两阶段模式完全对标 LLM 的训练范式:预训练买覆盖面,微调教模型什么是好答案。消融显示两者缺一不可 —— 只做预训练,图像质量可以但提示跟随很差;只做微调,模型看到的世界太窄,生成多样性坍塌。

结果:小模型,大表现

在像素空间文生图的对比中,MiniT2I 的性价比极为突出:

MiniT2I-B/16 仅用约 600M 总参数(含文本编码器),就在 GenEval 和 DPG-Bench 上超越了参数量 3-4 倍于己的模型。而且训练成本极低:B/32 消融模型在 8 张 H100 上只需约 3 天,总训练 FLOPs 与标准 ImageNet 200 epoch 实验相当。

扩展到 L/16(912M 参数)后,模型在风格多样性、空间关系和文字渲染方面都有明显进步,与 SD3-Medium(~2B 参数)在想象力场景上的生成质量相当甚至更优。

在更全面的 PRISM-Bench 评测中,MiniT2I-L/16 在风格、组合和想象力维度上表现出色(79.9、78.4、57.9),已经接近 SD3-Medium 水平。但在文字渲染(30.6 vs SD3 的 50.9)和命名实体(60.3 vs 66.3)上仍有差距 —— 团队坦承这是公开数据配方的固有局限,需要补充专项数据来弥补。

局限与展望

MiniT2I 是一条技术路线的概念验证,而非最终产品。团队诚实地指出了几个未解问题:

  • 像素空间的 patch 伪影:在 patch 边界处存在可测量的不连续(边界处梯度比非边界高 17-22%),潜在空间模型没有这个问题
  • CFG 在像素空间的副作用:高引导系数(~6)会将局部 token 推离数据流形,在没有解码器「平滑」的情况下直接暴露为视觉瑕疵
  • 分辨率天花板:当前在 512×512 工作良好,推向 4K+ 需要更长序列或更高效的注意力机制
  • 数据瓶颈:文字渲染和命名实体仍弱于工业系统,需要专项数据补强

MiniT2I 证明了现阶段的文生图不是只有顶尖工业实验室才能玩的游戏。

当一个 258M 参数的模型,用纯公开数据,在学术级算力上训练 3 天就能打败体量大数倍的对手时,或许文生图正在经历从「堆料」到「提纯」的范式转换

「T2I 不再是高不可攀的围墙。欢迎使用并改进它,打造更简洁的基线。」

本文来自微信公众号“机器之心”

熱門幣種推薦

相關問答

Q何恺明团队提出的MiniT2I模型与传统文生图模型在架构上的核心区别是什么?

AMiniT2I模型的核心区别在于追求极简设计:它舍弃了传统文生图模型中普遍使用的VAE(变分自编码器)进行编解码,直接在高维像素空间(RGB)上进行去噪和生成。同时,它移除了SD3等模型中常用的AdaLN(自适应层归一化)条件注入机制,回归到更朴素、易于理解的预归一化Transformer架构,并通过增加轻量级文本适配器来处理文本条件。这种简化不仅降低了计算开销,还使得模型在相同算力预算下可以堆叠更多层数。

QMiniT2I模型为何选择在像素空间而非潜在空间进行训练?这样做的优缺点是什么?

AMiniT2I选择在像素空间训练,主要原因是为了消除由VAE带来的重建误差、额外训练阶段以及编解码器与去噪器目标不对齐的问题。具体操作上,它将512×512分辨率图像通过16×16的patch转化为1024个token序列,这仍在Transformer的有效处理范围内。 优点包括:1) 去除了VAE的重建精度上限,模型性能直接取决于去噪器能力;2) 显著降低了计算成本(B/16配置下单步计算量从约1379 GFLOPs降至约570 GFLOPs)。 缺点包括:1) 可能在patch边界产生视觉上的不连续(伪影);2) 在高分辨率(如4K)生成时面临序列长度增长带来的挑战。

Q文章提到MiniT2I模型的训练数据策略是怎样的?为什么采用两阶段模式?

AMiniT2I的训练数据策略遵循极简和公开原则,采用两阶段模式: 1. **预训练阶段**:使用公开的、由VLM(视觉语言模型)重新标注的LLaVA-recaptioned CC12M数据集,约训练250K步,目的是让模型广泛学习视觉-语言关联。 2. **微调阶段**:使用约12万张来自BLIP3o-60K、LAION DALL・E 3 Discord set和ShareGPT-4o-Image的高质量图文对,约训练40K步,目的是提升生成质量和提示跟随能力。 采用两阶段模式的原因类似大语言模型(LLM)训练:预训练提供广阔的知识覆盖面,微调则专注于提升生成结果的质量和忠实度。消融实验表明,两者缺一不可,否则会导致生成多样性差或提示跟随能力弱。

Q根据文章,MiniT2I模型在性能评测中表现如何?有哪些优势和不足?

AMiniT2I模型(特别是258M参数的B/16版本)在评测中展现出极高的性价比: **优势**: 1. 在GenEval(0.87)和DPG-Bench(84.2)等评测中,超越了参数量数倍于它的同类像素空间模型。 2. 训练成本低,B/32消融模型在8张H100上仅需约3天。 3. 扩展到L/16版本(912M参数)后,在风格多样性、空间关系和想象力场景上表现出色,接近或优于参数量约2B的SD3-Medium。 **不足**: 1. 在文字渲染和命名实体生成方面,与SD3等顶尖工业模型仍有明显差距(如PRISM-Bench中文字渲染得分为30.6 vs 50.9)。 2. 由于依赖公开数据,在特定领域和精细概念上存在数据瓶颈。 3. 像素空间生成存在patch边界伪影和高CFG引导系数下的视觉瑕疵问题。

Q文章认为MiniT2I模型的意义是什么?它可能给文生图领域带来什么影响?

AMiniT2I模型的意义在于进行了一次重要的“概念验证”,挑战了文生图领域普遍存在的“复杂堆料”范式。它证明,通过极简的架构设计(去除VAE、简化条件注入)、仅使用公开数据以及学术级可负担的算力(3天训练),完全可以训练出性能优异的文生图模型。 这可能会给领域带来以下影响: 1. **范式转换**:推动文生图研究从一味追求模型规模、私有数据和复杂组件(如VAE、RL/DPO)的“堆料”竞赛,转向更关注架构“提纯”、设计简洁性和训练效率。 2. **降低门槛**:让更多学术研究机构和资源有限的团队能够参与到前沿的文生图模型研发和改进中,促进了领域的开放性和可复现性。 3. **启发未来方向**:指明了在像素空间直接操作、简化调制机制、以及采用LLM式的两阶段数据训练等方向上的潜力,为后续研究提供了清晰、可复现的基线。

你可能也喜歡

博弈关键周:BTC回抽确认与HYPE支撑争夺 | 特邀分析

本周市场进入关键博弈阶段。宏观上,美联储政策预期变化主导风险资产节奏;加密市场经历震荡后,多空分歧在关键价位显现。本文对BTC和HYPE进行技术分析,制定中短线操作预案,所有内容仅为个人记录,不构成投资建议。 **BTC分析:** 4小时图显示,币价自6月5日低点反弹后呈现短期上升通道,当前已跌破通道下轨,正进行回抽确认。若无法重新站上下轨,可能回测59,100美元支撑。本周关注对通道下轨的回抽结果:站稳则可能挑战69,500~70,500美元压力区;跌破则下探59,000~60,000美元支撑区。 核心压力位:64,500~65,000美元(通道下轨附近),69,500~70,500美元。 核心支撑位:59,000~60,000美元,55,000美元附近。 操作策略:中线已按计划在64,500美元附近布局20%空单。短线利用30%仓位,依据支撑压力位寻找价差机会,并制定了A/B/C三套预案: A. 反弹至64,500~65,000美元滞涨时试空。 B. 反弹至69,500~70,500美元承压时加空。 C. 有效跌破59,000~60,000美元支撑后顺势加空。 **HYPE分析:** 4小时图显示,HYPE自6月2日高点调整后强势上涨创出新高,当前回落至64~66美元关键支撑区域。若在此获得支撑,上涨趋势可能延续;若失守,可能测试52~54美元支撑带。 核心压力位:77美元附近,80~82美元区域。 核心支撑位:64~66美元区域,52~54美元区域。 本周核心观点:观察64~66美元区域的多空争夺结果。 操作策略:短线遵循“逢低布局”,当价格回测64~66美元或52~54美元支撑区域出现企稳信号时,可轻仓试多,仓位控制在30%以下,并严守止损纪律。 **特别提示:** 开仓立即设止损;盈利1%时止损移至成本价;盈利2%时止损移至盈利1%处;此后每盈利1%,止损同步上移1%,动态锁定利润。 市场瞬息万变,本文所有内容仅为个人技术分析记录,不构成任何投资建议。市场有风险,投资需谨慎。

Odaily星球日报49 分鐘前

博弈关键周:BTC回抽确认与HYPE支撑争夺 | 特邀分析

Odaily星球日报49 分鐘前

AI Agent 也要查"征信"了:ERC-8126 正在补上链上信任这块空白

AI Agent上链后,其可信度成为关键问题。ERC-8126协议旨在为AI Agent建立一套标准化的验证层,以补充ERC-8004的身份注册功能。它并非提供永久可信认证,而是定义了如何对Agent进行多维度检查、如何表达结果以及如何让其他系统(如钱包、市场)消费这些风险信号。 ERC-8126的核心是引入开放的第三方验证提供商(Verification Providers)市场,对已注册的Agent进行五类标准化检查: 1. **ETV(代币/合约验证)**:检查关联的链上资产或合约的真实性与风险。 2. **MCV(媒体内容验证)**:核查头像、图片等内容是否被伪造或篡改。 3. **SCV(Solidity代码验证)**:检查关联的智能合约代码是否存在常见安全漏洞。 4. **WAV(Web应用验证)**:评估网站、API等链下入口的安全性。 5. **WV(钱包验证)**:分析关联钱包地址的历史交易记录与风险关联。 验证结果会转化为0-100的统一风险评分,并提供可验证的证明(如零知识证明),以便钱包、应用市场等在不公开敏感细节的前提下进行风险决策。该标准与ERC-8004(身份)、ERC-8183(商业与结算)共同构成AI Agent经济的基础设施方向,致力于将信任判断转化为可组合、可消费的标准化信号,降低用户和生态系统的信任成本。目前,ERC-8126是一套已确定的标准框架,其实际效果取决于后续生态的广泛采用。

marsbit1 小時前

AI Agent 也要查"征信"了:ERC-8126 正在补上链上信任这块空白

marsbit1 小時前

交易

現貨
合約

熱門文章

什麼是 ₿O₿

比特幣鮑勃 ($₿o₿):透過混合層-2創新開創以比特幣為中心的去中心化金融 在數字經濟快速演變的時代,比特幣鮑勃 ($₿o₿) 作為一個革命性項目出現,旨在提升比特幣在去中心化金融 (DeFi) 領域的實用性。比特幣鮑勃於2024年5月正式推出,也被稱為「基於比特幣的建設」(Build on Bitcoin, BOB),代表了一種混合層-2區塊鏈解決方案,將比特幣著名的安全性和不可變性與以太坊的可編程性相結合。這一倡議旨在填補比特幣生態系統中的一個關鍵空白,通過促進智能合約和去中心化應用的整合,同時保持比特幣固有的信任和安全核心原則。在著名風險投資家的大力支持下,比特幣鮑勃有望重新定義比特幣在DeFi領域的角色,使其成為全球去中心化金融運作的基石。 比特幣鮑勃是什麼,$₿o₿? 比特幣鮑勃的核心是一種混合區塊鏈解決方案,旨在增強比特幣的功能。該項目的主要目標是使比特幣上的去中心化金融成為可能,促進快速和無縫的交易,同時確保高水平的安全性。 比特幣鮑勃採用了先進技術,特別是一種混合層-2架構,將比特幣的安全屬性與以太坊虛擬機 (EVM) 的可編程性和靈活性相結合。這一務實的做法使項目能夠有效運行,而不妥協比特幣的基本價值,這使其成為彌合傳統比特幣持有者與新興DeFi生態系統之間差距的重大步驟。 比特幣鮑勃的一個突出特點是其通過創新機制提供信任最小化環境的角色,例如最初依賴以太坊的樂觀滾動,最終過渡到完全的比特幣整合。這一混合系統旨在確保比特幣中存在的龐大流動性不僅得以保留,還能有效地在各種DeFi協議中利用。 比特幣鮑勃的創始人是誰,$₿o₿? 比特幣鮑勃的創意力量是聯合創始人兼首席執行官 Alexei Zamyatin,他在加密貨幣領域擁有豐富的經驗和知識。Zamyatin 擁有計算機科學博士學位,自2015年以來一直積極參與比特幣的開發。他對比特幣和以太坊生態系統的深刻理解在塑造比特幣鮑勃的願景和技術基礎方面發揮了關鍵作用。 與Zamyatin一起的是聯合創始人 Dominik Harz,他擔任首席技術官 (CTO)。這對搭檔培養了一支充滿才華的團隊,大家共同熱衷於推動區塊鏈技術的邊界,確保比特幣鮑勃在市場上的創新地位。 比特幣鮑勃的投資者是誰,$₿o₿? 比特幣鮑勃成功獲得了一系列知名投資者和風險投資公司的支持,他們認識到該項目改變比特幣格局的潛力。在2024年3月,該項目完成了一輪強勁的 1000萬美元種子融資,由Castle Island Ventures主導,Coinbase Ventures和Bankless Ventures等公司也有顯著參與。 不久之後,在2024年7月,比特幣鮑勃獲得了額外的 160萬美元戰略資金。這一輪融資由Ledger Ventures共同主導,並有來自BlackRock、Aave和Curve等多家知名公司的天使投資者參與。強大的財務支持反映了整個行業對比特幣鮑勃在解鎖比特幣在DeFi領域潛力的創新方法的認可。 這筆資金對於項目的持續發展至關重要,同時也用於建立一個孵化器,以促進專門滿足不斷增長的用戶基礎需求的比特幣原生去中心化應用 (dApps)。 比特幣鮑勃是如何運作的,$₿o₿? 比特幣鮑勃的運作機制根植於其 混合滾動架構,旨在結合比特幣的安全性和以太坊EVM的多樣性。該項目採用分階段的安全模型,概述其與用戶和開發者的互動方式如下: 第一階段 – 初始階段作為以太坊上的樂觀滾動運行,其中交易以有效性的樂觀預期進行處理,為未來在比特幣上的發展鋪平道路。 第二階段 – 隨著項目的過渡,將通過比特幣質押整合 比特幣最終性,利用巴比倫網絡增強安全性。這一機制要求驗證者鎖定比特幣,從而驗證BOB交易,這不僅增強了安全性,還為參與者創造了收益機會。 第三階段 – 比特幣鮑勃的前瞻性願景是完全整合比特幣,使用創新技術如BitVM和零知識證明來促進鏈下計算,同時保持比特幣的安全完整性。 關鍵創新如 BitVM2,這是一種由Zamyatin共同編寫的信任最小化橋接協議,對項目的功能至關重要,允許比特幣存款和取款而無需依賴廣泛的網絡。這使生態系統能夠有效地與以太坊和其他兼容鏈連接,為用戶和開發者創造一個流暢而有效的互動模型。 比特幣鮑勃的時間表,$₿o₿ 了解比特幣鮑勃的演變需要追蹤其重要里程碑: 2019年:Alexei Zamyatin和Dominik Harz成立了一家專注於區塊鏈解決方案的研究公司,為未來項目奠定基礎。 2024年3月:比特幣鮑勃成功籌集 1000萬美元 的種子融資,標誌著其進入競爭激烈的區塊鏈市場。 2024年5月1日:官方主網啟動,展示項目的能力,並獲得顯著的用戶採用和總鎖倉價值 (TVL)。 2024年7月:該項目吸引了額外的 160萬美元 戰略資金,用於建立其孵化器,旨在促進比特幣驅動的創新。 2024年10月:比特幣鮑勃發布了「願景文件」,詳細說明其混合層-2設計和前瞻性策略。 2025年:預計推出第二階段功能,重點是比特幣最終性和BitVM橋接,旨在增強整體功能性。 結論:重新定義比特幣在去中心化金融中的角色 比特幣鮑勃 ($₿o₿) 不僅僅是另一個區塊鏈項目;它代表了比特幣與更廣泛金融應用互動方式的範式轉變。通過精心結合比特幣的安全性和以太坊的靈活性,比特幣鮑勃旨在重塑DeFi格局,彌合數字貨幣與去中心化應用之間的差距。 憑藉強大的技術框架、卓越的領導力和戰略資金,比特幣鮑勃有望在加密貨幣生態系統中建立起基礎性角色,為比特幣解鎖新的流動性和實用性維度。隨著項目的持續演變和擴展,它承諾將迎來創新的新時代,證明比特幣的潛力遠不止於作為一種單純的價值儲存,而是作為未來金融格局的基石。 隨著項目在預期階段中的推進,所有目光都將集中在比特幣鮑勃身上,特別是關於其致力於融入去中心化原則,確保用戶能夠享受基於比特幣的DeFi的全部好處。

21 人學過發佈於 2025.06.30更新於 2025.06.30

什麼是 ₿O₿

如何購買O

歡迎來到HTX.com!在這裡,購買O1 exchange (O)變得簡單而便捷。跟隨我們的逐步指南,放心開始您的加密貨幣之旅。第一步:創建您的HTX帳戶使用您的 Email、手機號碼在HTX註冊一個免費帳戶。體驗無憂的註冊過程並解鎖所有平台功能。立即註冊第二步:前往買幣頁面,選擇您的支付方式信用卡/金融卡購買:使用您的Visa或Mastercard即時購買O1 exchange (O)。餘額購買:使用您HTX帳戶餘額中的資金進行無縫交易。第三方購買:探索諸如Google Pay或Apple Pay等流行支付方式以增加便利性。C2C購買:在HTX平台上直接與其他用戶交易。HTX 場外交易 (OTC) 購買:為大量交易者提供個性化服務和競爭性匯率。第三步:存儲您的O1 exchange (O)購買O1 exchange (O)後,將其存儲在您的HTX帳戶中。您也可以透過區塊鏈轉帳將其發送到其他地址或者用於交易其他加密貨幣。第四步:交易O1 exchange (O)在HTX的現貨市場輕鬆交易O1 exchange (O)。前往您的帳戶,選擇交易對,執行交易,並即時監控。HTX為初學者和經驗豐富的交易者提供了友好的用戶體驗。

41 人學過發佈於 2026.06.19更新於 2026.06.19

如何購買O

相關討論

歡迎來到 HTX 社群。在這裡,您可以了解最新的平台發展動態並獲得專業的市場意見。 以下是用戶對 O (O)幣價的意見。

活动图片