那个在OpenAI修中文的人

marsbitОпубликовано 2026-05-02Обновлено 2026-05-02

OpenAI研究科学家陈博远在知乎上发了一篇文章,开头非常直接:

“大家好,我是GPT Image团队的研究科学家陈博远。上周发布的GPT生图模型就是我主力训练的!”

他还提到,这次终于修好了模型的中文渲染。如果中文用户有什么反馈,可以直接回复他。

ChatGPT Images 2.0发布之后,很多人的第一反应是:这个模型的中文能力,强得有点不讲道理。

过去的图像模型多少有些“看不懂字”。它们能画风景、画人物,但一旦涉及中文,就很容易变成一团难以辨认的鬼画符。但GPT-image-2不一样,它不仅能写对字,还能排版、分段、生成带逻辑结构的中文信息图。

曾经那种“看文字判断是不是AI生成”的办法,到这一代已经行不通了。

陈博远是GPT Image 2训练和能力展示里真正站到前台的人之一。在发布会上,他和奥特曼一起演示了文字渲染能力。发布后,他又在知乎上解释了官网图片背后的很多花絮:LMArena双盲测试时,GPT Image 2曾用“duct-tape”(布基胶带)作为代号;官网blog里的很多图片,是他亲手用模型做出来的;中文漫画、米粒刻字、多语言文字、视觉证明、自动生成二维码,这些看起来像宣传素材的图片,其实都是一次次有设计目的的能力测试。

对这个“duct-tape”的胶带,他用了一个很有趣的解释:

“至于为啥起名叫布基胶带嘛..当然是因为你可以用布基胶带把香蕉贴在墙上啦!”

01 他在问一个更慢的问题

陈博远并不是那种一眼就能被记住的研究员。没有频繁的公开演讲,也没有刻意经营个人表达。他会写博客、发一些轻松的内容,但这些更像是记录,而不是建立影响力。

相比之下,他的存在感更多来自模型本身。

他现在是OpenAI的一名研究员,参与图像模型的训练。在此之前,他在麻省理工学院完成电子工程与计算机科学博士学位,同时辅修哲学,也曾在谷歌DeepMind参与多模态模型的研究工作。

这些经历已经足够亮眼,但更重要的是他长期关注的问题。

从DeepMind到OpenAI,陈博远的研究方向几乎没有改变。当大多数人还在讨论模型能不能写得更好、画得更像的时候,他关心的是更基础的一层:模型究竟在“理解”什么。

具体可以看作三个问题:模型如何理解图像?图像和语言之间到底是什么关系?当一个模型面对真实世界时,它究竟是在生成结果,还是在模拟世界?

这些问题听起来抽象,但它们几乎决定了今天这一代模型的边界。

在他的个人主页上,他把自己的研究方向写得很直接:世界模型、具身智能、强化学习。

所谓世界模型,可以理解为一件事:让AI在内部形成一个对世界的判断。

它不仅要知道眼前发生了什么,还要能预测接下来会发生什么。

这和今天常见的LLM(大语言模型)有一点区别,LLM更像是在处理语言,而世界模型更接近一种结构:它需要理解空间、时间、因果,以及行为的结果。

用一个很简单的例子来说,AI如果真的“理解”世界,它应该知道塑料杯掉在地上会弹一下,而玻璃杯会碎掉。

具身智能和强化学习,则可以理解为这个问题的延伸——如果一个模型真的理解世界,它就不应该只是回答问题,还应该能够行动,并在行动中不断修正自己的判断。

他参与的工作,往往不是单一任务优化,而是试图把生成模型、视觉理解和决策系统连在一起。

他最有代表性的工作之一,是一项名为Diffusion Forcing的研究。

这项研究试图解决一个很基础的问题:模型到底是一步一步生成,还是一次性生成?

LLM是前者,它擅长灵活生成,但在长内容里容易出错;扩散模型更接近后者,它更稳定,但缺乏结构。

陈博远的做法,则是把这两种方式放在同一个模型里,让模型既能逐步生成,又能对整体进行约束。

如果说Diffusion Forcing是在时间维度上做统一,那么他参与的另一项工作SpatialVLM,则是在空间维度上补齐能力。

这个工作针对一个长期存在的问题:模型虽然能看图说话,但并不真正理解空间关系。它不知道远近、大小,也不清楚物体之间的相对位置。

为了解决这一点,他所在的团队构建了一套三维空间推理体系,让模型不仅能“看见”,还要能“推理”。

类似的思路也出现在其他工作中,比如利用历史信息指导生成的History-Guided方法,或者将视觉、动作与语言统一建模的研究。这些工作看起来分散,但都指向一个方向:让模型不只是输出结果,而是在内部形成一种稳定的表示。

在严肃的研究方向之外,陈博远也会偶尔流露出一种很鲜活的个人趣味。

比如这次在知乎上发表的文章,又比如他在个人主页特别介绍了自己的兴趣是珍珠奶茶(making boba),就连知乎名都是”MIT奶茶店长“。

他还写了一篇博客,给美国计算机科学名校做了一个排名,标准不是科研实力,而是珍珠奶茶。

他把伯克利排在第一位,因为校园周围“几乎被高质量奶茶店包围”,而MIT则被他打了一个不太高的分数,理由是“附近奶茶店太少,而且质量不稳定”。

这类表达很轻松,但可以看出他的研究习惯:把复杂的问题拆开,找到可以比较的维度,再做判断。

他的工作本身也在做类似的事情,只不过对象换成了模型。

02 他避开了更容易的方向

如果只看图像模型的发展路径,过去的逻辑其实很清晰:更大的数据、更高的分辨率、更稳定的生成过程。大多数改进,集中在“画得更像”这件事上。

但随着模型开始处理更复杂的内容,这条路径也走到了瓶颈:当图像里不仅有视觉元素,还包含文字、结构甚至逻辑关系时,问题不再只是像或不像,而是这些信息如何同时成立。

问题从生成质量,转向了结构一致性。

这类问题并不是所有研究者都会去做,它既不直接对应某一个评测指标,也很难在短期内转化成产品效果。相比之下,做分辨率、做风格、做细节,往往更容易看到提升。

而陈博远的路径,恰好避开了那些“更容易”的方向:从他在学术阶段的研究开始,他关注的就不是单一模态的能力,而是不同能力之间如何被连接在一起。

在很长一段时间里,视觉模型、语言模型和决策系统,是各自发展的。它们可以通过接口连接,但在内部往往是分开的。因此,模型虽然可以“调用能力”,却很难表现出一致的理解。

陈博远做的工作,就是试图改变这种状态。

这次模型的很多能力展示,本来就发生在“图像、文字、梗、真实物体和文化语境”的交界处。

陈博远说,官网blog里的很多图片都是他亲手做的。整个blog都是用图片生成的,完全没有普通文本。换句话说,用户在官网上看到的很多示例,不只是宣传物料,而是模型能力本身的一部分。

比如那张中文彩蛋漫画。

他想做一个很搞笑的漫画,于是用到了“接住梗”和“香蕉梗”。为了展示文字能力,他特意让模型在图里加入多国语言文字,又在家乡海报的右下角生成特别特别小的中文,用来测试模型到底能处理多细的细节。

更关键的是,这张图不是拼接出来的——按照他的说法,整张图,包括画中画和画中画中画都是一次性生成的。他担心大家以为这是拼接图,还特意在图底加了备注。

这正好说明GPT Image 2的难点在哪里。过去的图像模型如果能写出几个不出错的大字,已经算很不错了。但GPT Image 2要处理的是一整套层级:它要知道这是一张漫画书照片,漫画书里有图,图里还有图;它要在不同层级里放入不同语言的文字;它还要让这些文字和画面关系成立,而不是随机散落在图里。

再比如米粒刻字。

陈博远说,他一开始觉得普通文字渲染还不够惊艳,于是在队友提示下做了一张4K图:画面里是一堆米粒,其中一颗米粒上刻着字。

这测试了模型在极小尺度里的文字控制能力。

还有那张黑板视觉证明。

陈博远表示:“如果让他解普通数学题方程啥的,似乎就太简单了。nano banana似乎通过思考模式+文字渲染的方式也能做。于是我想到了我非常喜欢的一个视觉证明来真正考验GPT Image 2独特的视觉推理效果。图里提示词说的是,在黑板上用视觉(而不是代数)证明从1开始的奇数之和是一个平方。普通的模型其实很容易推理出代数解,但是图形解只有视觉模型才能做了。”

这也是GPT Image 2这次发布里最值得注意的变化之一:它开始能把一个抽象关系变成图像结构,再把这个结构用视觉方式表达出来。

所以,与其说GPT Image 2在“生图”,不如说它在生成一种带有结构的视觉表达。

漫画、海报、视觉证明......这些东西本质上都不是纯图片,它们同时包含文字、排版、层级、对象关系、任务目标和审美判断。

过去的图像模型容易在这里崩掉,是因为它们把图像当成像素结果。而这一代更强的图像模型,必须把图像当成一种带结构的表达。

03 他不是一个人

在OpenAI内部,真正参与模型训练的人其实不多。GPT-image-2发布之后,研究负责人Gabriel Goh在社交媒体上公开感谢了他们的团队成员。

名单并不长,只有十几个人。

这更像是一支小团队,而不是一个庞大的工程体系。

团队成员分散在不同方向,有人做视觉,有人做生成机制,有人处理系统结构,但最终指向的是同一件事:让模型具备一套可以同时处理图像、语言和结构的能力。

推文里的插图某种程度上也像是一个比喻:一群人围在一起,每个人负责一部分,最后拼成同一张图。

模型的结构、能力边界,甚至“图像应该是什么”,都是在这样的团队里被一点点做出来的。

有个值得注意的地方是,在这十几人的核心团队里,可以看到相当数量的中文名字。

除陈博远之外,还包括做视觉语言模型的王剑锋(Jianfeng Wang)、做模型评估与数据问题的梁伟新(Weixin Liang)、长期从事图像生成的杨宇光(Yuguang Yang)、以及参与图像生成与系统训练的多位研究者。

陈博远也没有把这件事写成一个人的胜利。在知乎文章的最后,他特别感谢了整个团队。他说,每个人都做了很多很多的事情。在发布前的尾声,他除了修一些小东西,就是和市场部门的同事、做艺术的同事一起准备发布会和网站。

也就是说,GPT Image 2是一次研究、产品、审美和传播的共同完成。模型团队要把能力做出来,艺术团队要知道什么样的图能把能力展示出来,市场团队要把这些能力翻译成普通用户看得懂、愿意测试、也愿意传播的画面。

这也是为什么这次发布里的很多示例都很特别。它们并不是随便生成一张漂亮图片就结束,而是在主动制造难题:多国语言、极小文字、画中画、真实物体、视觉证明、搜索生成海报、二维码嵌入。

每一张图都在告诉用户:你以前觉得图像模型做不到的事情,现在可以重新试一遍。

从这个角度看,陈博远的位置很特殊。

他既在模型训练一侧,也站到了发布叙事的一侧;他不仅参与把模型做出来,也亲手设计了很多让外界理解模型能力的图片。

GPT Image 2当然不是陈博远一个人的作品,但从公开信息看,陈博远确实是这次图像模型发布中最值得中文社区关注的名字之一。

一方面,这次发布的GPT生图模型就是他主力训练的;另一方面,他又刚好承担了一个中文用户最容易感知的突破:中文渲染。

当AI终于能把中文写进复杂图像里,背后那个长期研究世界模型、空间理解和生成一致性的研究者,站到了台前。

他说:“希望这次稳稳地接住了大家。”

本文来自微信公众号“字母AI”,作者:袁心玥

Похожее

Высокий суд Австралии одержал крупную победу для ASIC в деле о криптодоходности Block Earner

Высший суд Австралии единогласно поддержал позицию Комиссии по ценным бумагам и инвестициям (ASIC) в деле против компании Block Earner. Суд постановил, что её продукт "Earner" с фиксированной доходностью, предлагавшийся в 2022 году, является финансовым продуктом и деривативом по существующему законодательству. Это означает, что для его предложения требовалась лицензия на предоставление финансовых услуг (AFSL). Дело возвращено в Федеральный суд для определения штрафных санкций. Данное решение создаёт важный прецедент, проясняя применение традиционного финансового регулирования к криптовалютным продуктам, предлагающим структурированную доходность. Оно подтверждает, что экономическая сущность продукта важнее его названия. Регуляторы теперь имеют чёткие правовые основания рассматривать подобные продукты как инвестиционные инструменты, требующие лицензирования. Хотя оспариваемый продукт более не предлагается, это решение затрагивает многие существующие и планируемые криптопродукты в Австралии и отражает глобальный тренд на подчинение крипто-доходных продуктов установленным регуляторным режимам. Для индустрии это означает необходимость переоценки соответствия продуктов законодательству, а для потребителей — напоминание о рисках, связанных с нелицензированными доходными продуктами.

bitcoinist1 ч. назад

Высокий суд Австралии одержал крупную победу для ASIC в деле о криптодоходности Block Earner

bitcoinist1 ч. назад

Blockchain.com расширяет доступ к токенизированным акциям через Ondo Finance

Блокчейн-кошелек Blockchain.com расширяет доступ к токенизированным акциям и ETF США через интеграцию с Ondo Finance. Партнерство позволяет соответствующим критериям пользователям, особенно за пределами США, получать доступ к традиционным финансовым активам напрямую через привычный криптокошелек, минуя традиционные брокерские платформы. Ondo Finance, известный игрок на рынке токенизированных реальных активов (RWA), обеспечивает технологическую и регуляторную основу для этих активов. Эта интеграция является частью общей тенденции, когда криптоплатформы стремятся сделать токенизированные традиционные активы такими же простыми в использовании, как и обычные криптотокены. Однако широкому внедрению все еще могут препятствовать вопросы регулирования, хранения активов и их выкупа.

bitcoinist3 ч. назад

Blockchain.com расширяет доступ к токенизированным акциям через Ondo Finance

bitcoinist3 ч. назад

CPU возвращается за игровой стол: начинается «игра на повышение» стоимостью 170 миллиардов долларов

6 июня 2026 года на выставке Computex NVIDIA анонсировала свой первый процессор Vera CPU, что знаменует серьезный вход компании на рынок серверных процессоров. Это событие подчеркивает растущую ключевую роль CPU в эпоху ИИ-агентов, когда задачи, связанные с выводом (инференсом) и управлением, требуют все большей вычислительной мощности и эффективности процессоров. Рынок серверных процессоров переживает бум. Прогнозы, такие как отчет UBS, предполагают, что его объем может вырасти с примерно 300 млрд долларов в 2025 году до 1700 млрд долларов к 2030 году. Основной драйвер роста — ИИ-агенты, которые выполняют сложные многошаговые задачи, требующие интенсивной работы CPU для управления потоками данных, вызова инструментов и обработки контекста. В таких сценариях нагрузка на CPU может достигать 70-90%, а соотношение CPU к GPU в системах стремится к 1:1, в отличие от 1:8 в эпоху обучения моделей. Это привело к изменению спроса и даже к росту цен на серверные CPU впервые за более чем десятилетие. AMD и Intel столкнулись с дефицитом мощностей. Спрос разделился на высокопроизводительные CPU для работы внутри стоек с GPU и более умеренные, но массовые CPU для развертывания независимых узлов агентов. Новая конкурентная динамика привлекла новых игроков, таких как NVIDIA с ее ARM-архитектурой, и открыла возможности для китайских производителей CPU, таких как Hygon (HaiGuang). Их рост поддерживается как общим рыночным бумом, так и политикой импортозамещения (программа «синьчуан»), требующей замены иностранного оборудования в государственном секторе к 2027 году. Таким образом, в центре следующего этапа развития ИИ находится не только GPU, но и эффективное взаимодействие CPU и GPU, что переопределяет ландшафт полупроводниковой индустрии.

marsbit4 ч. назад

CPU возвращается за игровой стол: начинается «игра на повышение» стоимостью 170 миллиардов долларов

marsbit4 ч. назад

Технологический поток Разведуправления: Директор по ИИ AMD публично раскритиковал Claude Code, заявив, что он «стал глупее и ленивее», Трамп заявил о полном прекращении огня в Ормузском проливе, но в проливе осталось около 80 морских мин

Эксклюзив Wired: SK Telecom, стратегический партнер Anthropic, находится под проверкой экспортного контроля США из-за возможного трансфера технологий модели Mythos. GLM-5.2 от китайской Z.AI: модель, по заявлениям, близкая по производительности к Claude Opus, полностью обходится без чипов Nvidia. В сфере чипов: MIT создает собственную ОС для изучения работы процессоров; ASML опровергает заявления США о поставках передовых EUV-установок в Китай; Amazon планирует продавать свои AI-чипы Trainium/Inferentia сторонним компаниям. Безопасность: обнаружено 10 тыс. репозиториев на GitHub, распространяющих вредоносное ПО; Apple исправила критическую уязвимость прослушки в Beats Studio Buds. На рынке: акции полупроводниковых компаний резко выросли (Intel +10.6%, Micron +8.7%); SpaceX упала на 3.56%. Геополитика и экономика: Несмотря на заявление Трампа о перемирии, в главном фарватере Ормузского пролива остается около 80 необезвреженных мин, что удерживает 80 супертанкеров с 80 млн баррелей нефти. Иран отменил дипломатическую поездку в Швейцарию. Основной контекст: Временная "разрядка" в геополитике контрастирует с глубокой и долгосрочной реструктуризацией глобальных технологических и полупроводниковых цепочек, где независимость от доминирующих игроков становится ключевым трендом.

marsbit4 ч. назад

Технологический поток Разведуправления: Директор по ИИ AMD публично раскритиковал Claude Code, заявив, что он «стал глупее и ленивее», Трамп заявил о полном прекращении огня в Ормузском проливе, но в проливе осталось около 80 морских мин

marsbit4 ч. назад

Южная Корея предпринимает шаги по регулированию трансграничных криптовалютных переводов в рамках новой системы

Южная Корея планирует включить финтех-компании в новую систему лицензирования трансграничных переводов виртуальных активов, которая должна быть введена в декабре. Согласно поправкам в Закон о валютных операциях, компаниям, осуществляющим такие переводы, необходимо будет зарегистрироваться в Министерстве экономики и финансов и отчитываться через национальную систему валютной отчётности. Это сделано для того, чтобы вывести криптовалютные переводы из-под неформального надзора и снизить риски отмывания денег. Изначально ожидалось, что доступ к системе получат в основном криптобиржи, такие как Upbit и Bithumb. Однако регуляторы, включая Банк Кореи, рассматривают возможность расширения круга участников, включив в него нетрадиционные криптоплатформы и финтех-фирмы, если они смогут эффективно осуществлять переводы. Министерство экономики и финансов и Банк Кореи совместно с отраслевыми участниками разрабатывают финальные правила реализации рамок регулирования до их запуска в декабре. Это происходит на фоне усиления надзора за цифровыми активами в стране, включая разработку правил для токенизированных ценных бумаг.

TheNewsCrypto5 ч. назад

Южная Корея предпринимает шаги по регулированию трансграничных криптовалютных переводов в рамках новой системы

TheNewsCrypto5 ч. назад

Торговля

Спот
Фьючерсы
活动图片