颤抖吧人类,AI仍在加速狂奔

marsbit发布于2026-06-13更新于2026-06-13

文章摘要

AI技术仍在加速发展。2026年智源大会显示,行业正推动AI从数字世界迈向物理世界。一方面,Scaling Law(缩放定律)依然有效,持续推动大语言模型和多模态模型进步,模型通过合成数据等方式仍在提升,AI Coding的成熟甚至让AI具备了自我进化的潜力。另一方面,AI发展的重心正在转向追求能理解并预测物理世界的“世界模型”,但目前技术路线多样,数据等问题尚未解决,预计仍需3-5年探索。以语言、像素、三维等为中心的多种技术路径正在并行发展。 同时,智能体(Agent)的突破加速了AI落地。从2025年“智能体元年”到如今,智能体变得更主动、更能处理复杂任务,在医疗、会议等场景开始应用。为了让智能体从“可用”变得“好用”,行业开始重点关注Harness(工程化框架),通过优化任务理解、流程设计和验证反馈等细节来提升其执行能力。尽管面临模型能力、工程细节等挑战,但智能体拥有广阔的进步空间,软硬件协同成为其发展的关键。

没错儿,AI仍然在加速狂奔。


2016年,深度学习爆发了仅一年,就几乎停滞不前。2026年,爆发了4年的大模型依然没有触及上限。


在智源大会2026现场,光锥智能看到,从模型、软硬件到产品,一切都在为了AI从数字世界“跑”进物理世界努力。


一方面,Scaling Law稳定发挥、推动大语言模型和多模态模型依然在发展发展,AI行业已经进入了追逐世界模型的阶段。只是当前技术路线、数据等问题悬而未决,还需要可能至少3-5年时间探索。


另一方面,Agent取得的突破加速了AI在现实场景中的落地。随着Agent达到了可用阶段,行业正在推进其在医疗、会议等场景的应用。为了让Agent从可用走向好用,软硬件协同也成了关键。在智源大会的展台现场,芯片厂商占据了“半壁江山”。几乎头部的国产AI芯片悉数到场。



“我们正站在一个新的历史临界点上。人工智能不再只是改造某个行业的工具,而是正在成为重构世界的底层力量。AI Coding、自主智能体、模型自进化,正在打开AI、创造AI的可能性。世界模型、具身智能和机器人,则让智能从数字世界延伸到物理世界。”智源研究院院长王仲远说。


这场底层力量重构'的浪潮里,到底在发生什么?


智源大会的第一天,在场嘉宾们给出了这个答案:AI正在从“会聊天”走向“会干活”。Scaling Law还在继续,技术方向尚未收敛的世界模型成为下一阶段的重心,而智能体已经从可用开始走向好用,也有诸多问题等待优化。


AI不仅技术没到天花板


还学会了自我进化


过去一年,随着高质量互联网文本数据被消耗殆尽,行业内弥漫着一种“Scaling Law(缩放定律)即将触顶”的悲观情绪。


在智源大会的多场论坛中,“Scaling Law的红利是否缩小”频繁被提及,多位嘉宾均否定了这一说法。


“我还是比较坚信Scaling还远没有到尽头。”银河通用创始人兼CTO王鹤说,“今天回过头来看,Scaling Law没有失效,只是它变得更加多样化。”


在一系列新发布的大语言模型上,Scaling仍然在继续发挥作用。以Anthropic最近发布的Fable 5分析,小米罗福莉表示,这个模型本身就是科学推进Scaling的产物。它是大模型在参数规模、合成数据和强化学习三个维度结合得到的扩展成果。


“我们猜测,Fable 5本身的参数规模应该是目前最大(规模)的开源模型的几倍,其次在Test-Time Scanning(推理时扩展)或强化学习上也投入了强大算力。此外,由人和Agent产生的合成数据,让数据规模达到了新量级。”罗福莉说。


于多模态领域,Scaling带来的模型性能提升同样效果显著。生数科技创始人兼首席科学家朱军表示,数据质量、模型尺寸还有大规模训练,都会给模型带来提升。在基础模型能力提升的基础上,模型学习物理规律、3D场景的理解也会更加高效。


Scaling持续生效的同时,伴随AI Coding逐渐成熟、Agent加速落地,AI自进化趋势明显,从写代码升级到自行完成产品的迭代更新。


“人类大量数字世界底层就是通过代码构成的,AI Coding有了真正实质上的进步并且成为主流,意味着所有在数字世界的东西,AI都有可能逐步接管。”王仲远说。


海内外,用AI完成产品更新已经成为常态。


“如果说模型决定了智能体的能力,那么Harness就决定了智能体能力的上限。”李景秋说。“它的难点在于需要在模型基础上进一步做好问题的澄清、验证和反馈。”


比如,如果只靠模型理解问题,它难免会有局限性。Harness需要做的就是完善和丰富用户简单的一句话指令,让模型能够更好地理解需求,这里面需要Harness发挥意图理解能力,并在拿到任务后,设计好接下来的任务流程,再调度模型执行。这个过程中可能需要结合人工干预和纠偏,再在任务完成前做好检查。


世界模型


大模型的下一个关键战场


沿着数字世界的边界向外突围,世界模型成为了大模型的下一个关键战场。


“当前还没有哪一个世界模型真正能够让人感觉特别惊艳,解决真实物理世界的各种问题。”王仲远说。


对于处在发展初期的世界模型来说,针对世界模型的技术,行业目前没有完全达成共识。且在技术路线尚未收敛的情况下,还有一系列亟待解决的问题。以数据为例,王仲远举例,到底是需要视频数据、仿真数据还是真实物理世界的数据,大家还没有找到方法路径。


以银河通用为例,王鹤在现场介绍了他们对合成数据的应用。


“在WAM(World Action Model,即世界动作模型)范式尚未出现前,我们在VLA范式里,先用合成数据,针对抓取这件事做了大量的尝试。”王鹤说,“我们用仿真数据10亿帧证明了:只要你把数据Scale到这个程度,你就可以完全实现zero-shot(零样本学习),在真实世界随便给我一个东西,就能搞定抓取。”


针对世界模型的发展情况,智源研究院预判“至少还需要好几年时间”,未来三到五年都会是世界模型持续演进和迭代的阶段。


几年内,行业里出现了多种不同技术路线的世界模型,且发展各有千秋。


以多模态世界模型为例,朱军表示,视频模型和世界模型关系紧密,因为世界模型需要具备看懂并理解状态、预测、行动三大能力。而在当前能够接触到的训练数据中,和世界模型最相关的就是视频数据。


在各类技术路线分化、行业尚未形成共识的情况下,智源研究院将世界模型分为四类:


第一类是以语言为中心的世界模型,把其它模态、其它能力映射到语言空间,包括大语言模型、VLM、VLA等;


第二类是以像素为中心的世界模型,视频生成本质上是预测下一个画面帧,但视频生成模型不等于世界模型,它和世界模型是相关的,今年可能会非常火的World Action Model(WAM)都是以像素为中心演进;


第三类是以三维结构为中心的世界模型,包括3D重建就是单纯的三维世界;


第四类是以视觉表征为轴心的世界模型。



目前,智源研究院正在探索“第五类”路径——以语言为中心和以视觉表征为中心的融合,即潜空间表征,相当于把文本、图像等一系列信息压缩到向量空间中,以表征各种真实物理世界的状态。


“将来统一的潜空间建模不仅仅是视觉空间,而是全模态潜空间,很有可能是世界模型真正下一个可能的路径。”王仲远说。


智源研究院在大会上介绍了正在研发中的世界模型——悟界·Physis-v0.1版本,它以物理空间建模,实现下一个物理状态的预测为中心。它的定位是全球首个通用世界基座模型,强调“物理正确、动作因果可溯、长时序一致、通用泛化”四项关键能力。



目前,该模型还在训练阶段,下半年智源将持续分享进展,在训练完成以后开源模型。


从“可用”迈向“好用”


智能体还有更多关要闯


模型侧,世界模型的进展推动物理AI的实现;产品侧,Agent(智能体)成为AI走进大众生活的关键落地产品。


从被称为“智能体元年”的2025年开始,Agent已经出现了一部分让人印象深刻的产品,有了爆发的苗头出现,但“龙虾们”今年的泼天热度,还是出乎意料。


比起去年智能体还处在执行状态,今年的智能体显然变得更主动、更会办事儿,可以帮助用户主动执行更复杂的任务。


今年的智源大会上,智源研究院也发布了四款偏向垂类的智能体:全球首个面向心脏磁共振的辅助诊断智能体BAAI Cardiac Agent,通过融合多模态能力和医生专业知识,辅助医生完成决策;自主研究智能体AREX应用于科研领域;帮助用户实时听会、捕捉要点的智能体SoulAgent;以及面向有害蛋白获取的风险发现智能体。


其中,以听会智能体为例,光锥智能测试了它总结不同会议内容的能力。SoulAgent确实对会议内容做出了简单的总结。虽然不及纪要完整,但核心观点无误。对于这种分论坛时间出现重合的情况比较适合。



不过,当前智能体在技术方面还存在诸多亟待进一步优化的问题。南洋理工大学校长讲席教授安洋提及,要维持智能体能力继续提升,目前最重要的还是和上下文工程相关的部分,比如Memory(记忆)、编排等等。


智能体分论坛现场,去年鲜少被关注、今年热度颇高的Harness(直译为马挽具,指围绕智能体搭建的一整套工程化框架或环境)成为了现场提及的高频关键词之一。


“如果说模型决定了智能体的能力,那么Harness就决定了智能体能力的上限。”李景秋说。“它的难点在于需要在模型基础上进一步做好问题的澄清、验证和反馈。”


比如,如果只靠模型理解问题,它难免会有局限性。Harness需要做的就是完善和丰富用户简单的一句话指令,让模型能够更好地理解需求,这里面需要Harness发挥意图理解能力,并在拿到任务后,设计好接下来的任务流程,再调度模型执行。这个过程中可能需要结合人工干预和纠偏,再在任务完成前做好检查。


简而言之,如同一个真人助理,其中的每一步细节都需要产品针对Harness进行打磨,才能进一步提升Agent的执行效果。


当前,Agent还处在初期发展阶段,能够预见的是,这个行业的进步空间很大,无论是模型能力的提升,还是工程细节的夯实,都将为Agent办事能力进一步添砖加瓦。

本文来自微信公众号: 光锥智能 ,作者:关注前沿科技的

相关问答

Q根据文章内容,智源大会2026上,AI行业在朝着什么方向努力发展?

A根据文章,智源大会2026现场显示,AI行业正在从模型、软硬件到产品等各方面努力,推动AI从数字世界“跑”进物理世界。具体表现为追逐世界模型,以及加速Agent在现实场景中的落地应用。

Q文章提到Scaling Law(缩放定律)的未来前景如何?行业专家的普遍看法是什么?

A文章指出,Scaling Law仍在稳定发挥,并未触及上限。多位行业专家否定了“红利即将缩小”的悲观情绪。他们认为Scaling Law远未到尽头,只是变得更加多样化,在参数规模、合成数据和强化学习等维度上继续推动模型能力提升。

Q文章将“世界模型”分为哪几类?智源研究院正在探索的第“五类”路径是什么?

A文章提到智源研究院将世界模型分为四类:第一类是以语言为中心的世界模型,第二类是以像素为中心的世界模型,第三类是以三维结构为中心的世界模型,第四类是以视觉表征为轴心的世界模型。智源研究院正在探索的“第五类”路径,是以语言和视觉表征为中心的融合,即潜空间表征,目的是构建一个统一的全模态潜空间来表征真实物理世界。

Q智能体(Agent)从“可用”走向“好用”面临哪些关键挑战?文中提到的“Harness”具体指什么,它起什么作用?

A智能体走向“好用”面临的挑战包括提升模型能力,以及完善Memory(记忆)、编排等上下文工程细节。文中高频提到的“Harness”指围绕智能体搭建的一整套工程化框架或环境。它的作用是决定智能体能力的上限,负责在模型基础上做好问题的澄清、任务流程设计、模型调度、人工干预纠偏和最终检查,以弥补模型直接理解指令的局限性,确保任务更好地完成。

Q在智源大会2026上,智源研究院发布了哪几款垂类智能体产品?请至少列举两款。

A在智源大会2026上,智源研究院发布了四款垂类智能体产品,包括:全球首个面向心脏磁共振的辅助诊断智能体BAAI Cardiac Agent;帮助用户实时听会、捕捉要点的智能体SoulAgent;自主研究智能体AREX;以及面向有害蛋白获取的风险发现智能体。

你可能也喜欢

最先进的大模型,开始像浓缩铀一样被出口管制

上周五,美国商务部发布出口管制令,禁止外国公民接触Anthropic公司新发布的Fable 5和Mythos 5大模型。Anthropic被迫将这两款刚上线三天的模型对全球用户全面关闭。这是人类首次将一种以比特形态存在的智能体,纳入与浓缩铀等战略物资类似的出口管制框架。 历史上,出口管制主要针对物理稀缺的硬件和配方,如离心机、光刻机。但大模型作为一组可无限复制的权重参数,其物理边界模糊,传统管制工具失效。此次管制实际瞄准的是模型所凝聚的“能力密度”——高度压缩的代码生成、推理规划和知识调用能力。这正如铀矿石普遍存在,但浓缩到一定丰度便成为受严密监控的战略物资。文章指出,八十年前核技术因其巨大力量被国家严控的逻辑,如今正应用于神经网络的前向传播。 基于浓缩铀管制的历史经验,文章预测未来十年AI领域可能发生三件事:一是能力审查制度化,前沿模型发布前需接受政府授权的合规审查,能力“丰度”超过阈值即触发管制;二是管辖边界模糊化,美国可单方面将其出口管制法延伸至全球用户,迫使非美企业重新评估对美国AI供应链的依赖;三是技术路径走向分裂,形成受管制、有断电风险的美国闭源模型,与更可靠但性能可能稍逊的开源、本地化及非美管辖模型并行的双轨制。 文章最后揭示了更深层的危机:数字文明尚未为“智能”建立清晰的产权制度。当前法律将模型视为服务,用户仅购买其产出,而非资产本身。当企业投入大量资源将特定模型深度整合进自身生产流程后,模型下架将造成难以估量且无法获得法律充分补偿的损失。这暴露了有形财产法律体系与无形数字资产之间的根本性错配。结论指出,在AI管制时代,模型的可靠性与产权清晰度可能比一时的技术领先更为重要,世界或将走向一个数字智能被永久分裂的未来。

marsbit9分钟前

最先进的大模型,开始像浓缩铀一样被出口管制

marsbit9分钟前

从3亿估值到千万「贱卖」,Messari经历了什么?

6月12日,加密数据与资本市场平台Blockworks宣布收购竞争对手Messari,交易对价超过1000万美元。Messari曾在2022年获得约3亿美元估值,此次交易价格大幅折让,反映出熊市下高估值初创企业的生存压力以及数据基础设施领域的整合趋势。 收购完成后,Messari首席执行官Diran Li将加入Blockworks担任高级职务,其核心数据平台及API将并入Blockworks体系。Blockworks此前刚完成Series A延伸融资,估值约1.92亿美元,并表示此次收购旨在整合加密领域碎片化的数据与信息。 Blockworks成立于2018年,早期以媒体和活动业务为主,后转向链上资本市场情报平台,重点发展机构级数据、投资者关系与合规工具。Messari同样成立于2018年,以专业加密研究与数据分析起家,2022年完成3500万美元B轮融资后估值达3亿美元。但随着熊市持续、融资环境收紧,公司面临增长压力,联合创始人亦已离职。 行业数据显示,2026年加密领域并购活跃,总额同比增长。市场分析认为,行业正处于分化阶段,早期基于增长故事的高估值正在被基本面重新校准。此次收购将Messari的数据广度与API能力,与Blockworks在发行方披露、投资者关系及合规工作流方面的优势结合,旨在构建链上市场的“单一记录系统”。 当前,随着机构加速上链、稳定币及RWA等赛道发展,市场对标准化披露、实时数据及可编程访问的需求激增。Blockworks计划以Messari的数据集为基础,结合自身发行方服务能力,打造从数据采集到合规分发的闭环。人工智能的融入也将依赖高质量结构化数据发挥作用。此次整合标志着加密数据与研究领域从百花齐放走向集中,在行业周期波动中,通过整合构建数据与信任的护城河,被认为是穿越周期的路径之一。

marsbit37分钟前

从3亿估值到千万「贱卖」,Messari经历了什么?

marsbit37分钟前

如果 AI 泡沫已经在破了,谁会真正留下?

AI行业存在泡沫已成为市场共识,观点两极分化:达利欧认为泡沫已高,黄仁勋则视其为巨大机遇的开始。文章指出,泡沫类似于2000年互联网泡沫,虽导致市场暴跌和公司倒闭,却沉淀了关键基础设施(如海底光缆、宽带),为后来亚马逊、Netflix等巨头崛起奠定基础。当前AI领域,巨头正投入数千亿美元建设数据中心、电力、GPU等基础设施,而应用层收入尚未完全匹配,形成“基建投入远大于应用收入”的明显落差。 然而,AI推理成本(Token成本)已暴跌超99.7%,这使得企业AI支出不降反升。成本下降解锁了大量长尾需求,AI正从聊天工具深入代码、医疗、金融、制造等行业的真实工作流,进入智能体与多模态应用时代。市场正在自我净化,淘汰缺乏核心竞争力的“套壳”公司,但AI赋能千行百业的大趋势不可逆转。 未来,价值将从资本支出(CapEx)的基础设施层,逐渐转向运营支出(OpEx)的应用层。那些能真正解决垂直行业痛点、重塑业务流程的AI原生企业将获得超额利润。尽管估值存在压力,但企业盈利增长有望逐步消化高估值。最终,泡沫破裂后留下的将是坚实的基础设施和高度优化的技术,推动社会进入一个所有行业均由AI驱动的智能时代。泡沫终会破灭,但底层的生产力革命真实无水分。

marsbit1小时前

如果 AI 泡沫已经在破了,谁会真正留下?

marsbit1小时前

交易

现货
合约

热门文章

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

全球金融市场正经历一场由地缘冲突引发的系统性重估:霍尔木兹海峡封锁导致原油一度暴涨30%,G7紧急释放储备后涨幅收窄,滞胀风险取代通胀成为核心担忧,美元成为“唯一避风港”并逼近100大关,亚太及美股遭遇“黑色星期一”全线重挫;AI领域则冰火两重天,国家发改委提出“十五五”末10万亿规模目标,OpenClaw项目火爆推动概念股狂飙;比特币在宏观风暴中跌破70000美元关键防线。

568人学过发布于 2026.03.12更新于 2026.03.12

加密市场宏观研报:原油飓风、AI巨浪与比特币的十字路口

相关讨论

欢迎来到HTX社区。在这里,您可以了解最新的平台发展动态并获得专业的市场意见。以下是用户对AI(AI)币价的意见。

活动图片