Coinbase研报：稳定币与新支付格局

Odaily星球日报Publicado a 2024-08-10Actualizado a 2024-08-10

Resumen

2023年，稳定币结算了价值10.8万亿美元的交易，其中2.3万亿美元与支付、跨境汇款等有机活动有关，当今的支付巨头面临着重大劣势，包括交易成本高、结算时间慢、透明度有限，尽管稳定币也有其优势。

引言

目前，全球支付基础设施正在现代化和改进，这将为用户提供更快捷、更廉价的支付方式。稳定币正日益被用于构建稳健的加密支付系统，促进汇款支付并简化跨境交易。2023 年，稳定币市场结算的交易总额超过了 10.8 万亿美元——如果排除“非自然”交易，如机器人或自动化交易，则为 2.3 万亿美元。按调整后的基础计算，交易量同比增长 17% ，这意味着稳定币正在迅速赶上当今最大的现有支付网络。

尽管现有支付网络在流动性和网络效应方面享有一些重要优势，但随着竞争的加剧，根据世界银行的数据，过去 15 年间，汇款支付的平均成本已降低了三分之一以上。然而，目前全球范围内汇款 200 美元的平均成本仍为汇款金额的 6.35% ，每年费用总计约 540 亿美元。相比之下，使用稳定币汇款的平均交易成本要低得多，仅为汇款金额的 0.5% 至 3.0% ，并且由于新技术的不断创新，成本还有进一步下降的潜力。

由于技术使得商家和用户更容易采用新型支付方式，现有支付网络变得更容易受到金融科技挑战者的影响。将稳定币整合到现有支付系统中就是加密货币越来越多地应用于现实经济的一个例子。然而，我们认为，要扩大稳定币的作用，需要简化区块链的一些技术复杂性，并需要更清晰的监管来确保消费者保护和促进更广泛的金融包容性。

未来之王？

最近，稳定币成为热门话题，尤其是在《加密资产市场监管条例》（MiCA）于 6 月 30 日在欧洲生效之后。USDC 成为该地区首个符合 MiCA 标准的美元稳定币，而 Circle 的欧元稳定币 EURC 也达到了 MiCA 的合规要求。传统金融机构也在该地区部署稳定币或计划这样做。这包括法国兴业银行的数字资产部门 Forge，其推出了机构版的 EURCV 稳定币，以及管理约 1 万亿欧元（约合 1.09 万亿美元）资产的德意志银行资产管理团队 DWS 计划在 2025 年推出新的欧元稳定币。

这些发展可能对建立欧洲内部数字支付网络的努力产生重大影响。其他司法管辖区也在准备自己的稳定币监管框架，例如香港，在公众咨询期结束后将制定相关立法。与此同时，美国正在努力制定该领域的规则，众议院和参议院都有相关法案。前众议院议长保罗·瑞安在《华尔街日报》的评论文章中指出，稳定币不仅可以帮助维持美元的主导地位，还能解决不断增长的国家债务问题。前货币监理署署长布莱恩·布鲁克斯（曾任 Coinbase 首席法律官）也有类似的观点，他在《华尔街日报》上表示，稳定币有助于保持美元作为世界储备货币的地位。

因此，稳定币已成为增强现有全球支付系统的重要新工具。仅在 2023 年，跨境商业交易、国际商业（零售）和全球汇款涉及的资金流动量就达到了惊人的 45 万亿美元。（见图 1）随着这些市场的不断增长，国际农业发展基金会、FXC Intelligence 和 Statista 按类别的估计表明，到 2030 年，这一金额可能升至 76 万亿美元。如今，处理如此庞大的跨境金融流量的传统基础设施存在许多效率低下的问题，这些问题增加了成本并减缓了资金跨境流动的速度。

Coinbase研报：稳定币与新支付格局

立即联合

现有的支付格局由各类不同的实体组成，但我们大致将它们分为四大类。尽管许多这些参与者代表着现有系统，其中一些正在努力拥抱（或至少尝试）将稳定币纳入其现有工作流程。主要的四大类包括：

自动清算所：代表用于处理银行转账和其他金融交易（主要是国内或主权边界内）的电子网络，
大型信用卡网络：如美国的 Visa、Mastercard 和 American Express，或中国的银联，
国际银行支付网络：如环球同业银行金融电讯协会（SWIFT）和跨境银行间支付系统（CIPS），
移动支付系统：如美国的 PayPal/Venmo，中国的支付宝（和微信支付）以及印度的统一支付接口（UPI），它们提供数字支付解决方案和点对点（P2P）交易。

需要注意的是，尽管 Fedwire 的资金转账系统在 2023 年结算了 1.09 千万亿（quadrillion）美元，我们将其排除在我们的列表之外，因为该网络主要服务于包括大银行、企业和美国政府机构在内的联邦储备系统成员机构。它主要实时结算大额和时间敏感的转账，而不处理小额零售支付或汇款，这也是本报告主要关注的内容。

分析

电子网络，如美国的 ACH（自动清算所）或欧元区的 SEPA（单一欧元支付区），是我们名单上最大的支付系统之一。在许多国家，这类系统帮助促进国内金融机构之间的大规模网络的银行间资金转账。它们通常包括直接存款和账单支付，但近年来，许多系统也增加了点对点（P2P）和企业对企业（B2B）交易。

根据 Nacha（前身为全国自动清算所协会）的数据， 2023 年，美国的 ACH 网络结算了 80.1 万亿美元的交易额，比前一年增长了 4% 。历史上，ACH 交易在 1-2 个工作日内结算，但现在越来越多地提供当天结算的选项。需要注意的是，中国也有一个名为银联的信用卡支付处理系统，该系统还运营着一个大型的中国银行间网络。银联的银行间支付系统在 2023 年处理了 279.5 万亿人民币（约合 39.5 万亿美元）的交易。

同时，信用卡在我们的“支付主导地位”名单中名列前茅，因为它们深深植根于许多消费者的消费习惯中，尤其是在发达国家。许多地方的信用卡借款流程已经简化，并且用户通常会获得吸引人的注册奖励。但是，这些支付巨头可以向零售商收取高达 3.5% 的费用，这些费用越来越多地直接转嫁给消费者。此外，用户可能会因未偿还的信用卡债务支付 20% 的年利率（APR）的平均利息费用（在美国）。

在跨境交易方面，信用卡公司通常还会向用户收取 1% 的国际费用，这使得这些支付实体在海外消费方面非常有利可图。Visa 在其 2023 年年度报告中报告称，去年（截至 2023 年 9 月的财政年度）处理了 12.3 万亿美元的支付交易量（不包括 2.5 万亿美元的现金取款交易），而 Mastercard 在其 2023 年年度报告中报告称，其处理的总美元交易量为 9.0 万亿美元。

Coinbase研报：稳定币与新支付格局

传统的银行支付网络如 SWIFT 和 CIPS 目前在银行间跨境支付领域占据主导地位，汇款通常通过这些网络进行。SWIFT 是一个安全的消息传递平台，连接了超过 11, 000 家分布在 200 多个国家的金融机构。不过，与自动清算所不同，SWIFT 并不进行结算（资金转移）。

这些网络仅用于发送和接收安全消息，向每一方提供需要确认的交易详情，并允许它们更新各自的账本。CIPS 则由中国人民银行于 2015 年推出，以与 SWIFT 竞争并提高跨境人民币交易的效率。多年来，SWIFT 和 CIPS 共同支持了全球金融机构间的大多数跨境支付。

最后，移动支付系统是最新的参与者，提供国内外的点对点（P2P）交易。便利性是它们最大的优势之一，因为它们通常提供比传统银行方法更友好的用户界面，用于转账。一些移动支付系统还集成了社交媒体组件。移动支付通常是实时的，这对发送方和接收方都是一个主要优势，因为它减少了拒付的风险。然而，P2P支付仅看起来是即时的，因为它们通常存在于一个封闭的生态系统中，因此这类交易只是供应商账本的调整。

然而，缺点是这些系统通常需要预先存在的银行关系和/或信用卡才能工作，因此用户仍然依赖于传统金融系统。这对可能无法获得此类服务的低收入人群构成了障碍。移动平台也可能收集大量的个人和财务数据，这引发了隐私方面的担忧。

去中心化的轻盈存在

这些传统系统建立了全球交易量的大部分处理网络和基础设施。然而，它们也存在一些重要的缺点，如高交易成本、较慢的结算时间和透明度有限。例如，银行转账涉及多个中介机构。而稳定币运行在公共区块链上，依赖于透明的流程，通过共识以去中心化的方式防止欺诈和解决争议。这往往更便宜、更快且更易追踪。

当然，使用稳定币也有权衡。例如，稳定币运行在区块链上，提供几乎即时的结算，但这使得欺诈交易很难逆转。多种区块链的泛滥也可能导致稳定币流动性分散，这可能使用户面临从一个链桥接到另一个链的成本和风险。最后，加密货币的用户体验（UX）本身可能繁琐且对普通用户而言过于复杂。好消息是，这种复杂性已开始通过智能钱包和支付者架构（将燃料费从用户转移到去中心化应用）逐步抽象。尽管如此，我们预计用户要完全适应这些系统并端到端使用稳定币可能还需要数年时间。

与此同时，现有系统仍享有巨大优势，如庞大的用户基础带来的可观交易量。即，网络效应非常重要，因为使用已有大量用户的平台更容易进行收付款。麦肯锡公司的一份报告通过调查表明，银行在保持消费者信任方面比金融科技公司更有优势。要使稳定币被广泛接受，不仅需要解决监管问题（见下文“杀手级应用”部分），还需要建立用户信任。

幸运的是，技术已经降低了用户和商家采用新型支付方式的成本。这使得传统支付巨头容易受到金融科技挑战者的冲击。事实上，根据世界银行的数据，过去 15 年间，竞争加剧使汇款支付的平均成本降低了三分之一以上。（见图 3）国际清算银行最近进行的测试表明，利用代币化可以促进更快、更安全的跨境交易。然而，目前跨境汇款 200 美元的平均成本仍为汇款金额的 6.35% ，年费用总计约 540 亿美元。

Coinbase研报：稳定币与新支付格局

相比之下，使用稳定币进行汇款的平均交易成本低得多，仅为汇款金额的 0.5-3.0% 。这个范围的广泛性反映了尽管在一些网络（如以太坊 Layer-2）上转移稳定币的直接费用可能非常低，但可能会有其他成本。例如，将本地法定货币转换为稳定币或反之亦然，可能会产生平台提供服务时的兑换和/或转换费用。然而，随着网络规模和/或采用率的增加，这也可能通过提高交易量和降低提供商的每笔交易成本来降低未来的费用。因此，稳定币交易的总体成本可能会继续优化。

过滤噪音

稳定币常被称为“加密货币的杀手级应用”，因为它们在主流商业应用中的潜力以及相对于传统支付轨道（如速度和成本）的比较优势。这个标签意在表达稳定币吸引更多消费者群体使用区块链技术的承诺。

然而，现实情况是，今天稳定币的主要用例是允许加密投资者在集中和去中心化交易所之间交易数字资产。这也是为什么稳定币的市值常常被用作数字资产市场流动性的代理指标，因为其增长相当于更广泛的加密市场的深度和价格稳定性的增加。在 2023 年所有稳定币结算的 10.8 万亿美元交易中，大多数交易量往往用于交易目的。

Coinbase研报：稳定币与新支付格局

为了采取更保守的方法，我们根据 Visa 在 2024 年 4 月发布的一篇博客文章中列举的标准，对总交易量进行过滤——这篇文章是对 Castle Island Ventures 的 Nic Carter 的回应。他们认为，由于“非有机活动和其他人为的通胀行为”，稳定币交易数据可能存在噪音。因此，他们通过( 1) 去除智能合约活动中重复的交易和( 2) 过滤机器人驱动和自动化交易来“调整”稳定币交易量。为了实现后者，他们仅包括在 30 天内“发起不到 1000 笔稳定币交易且转账金额不到 1000 万美元”的账户所进行的交易。

需要指出的是，Visa 的链上分析仪表板仅发布 30 天的数据，这使得与其他支付系统的比较变得困难。因此，我们进行了繁重的工作，应用他们的标准对过去五年的稳定币交易数据进行过滤，以期获得有价值的洞见。仅在 2023 年，我们发现稳定币仍然每年结算超过 2.3 万亿美元的“有机”交易，这些交易可能仍包括交易，但更集中于支付、P2P转账和汇款。例如，在这个调整后的金额中，区块链上的跨境B2B交易虽然仅占 8.43 亿美元，但据 Statista 预测， 2024 年将增至 12 亿美元。

这些调整后的交易量在 2022 年增长了 18% ，在 2023 年增长了 17% 。这个增长速度比上述任何支付系统都要快，并且在绝对值上超过了 PayPal 的支付量。事实上，即使经过“非有机活动”调整，去年稳定币处理的交易量约占 Visa 支付量的五分之一，超过了 Mastercard 的四分之一，这代表了自稳定币问世以来的巨大增长。值得注意的是，截至目前，调整后的稳定币交易量约为 1.7 万亿美元（约占总稳定币交易量的 10% ），而去年前七个月为 1.3 万亿美元——有机活动已经增加了 28% ，随着增长继续加速。

Coinbase研报：稳定币与新支付格局

杀手级应用

尽管稳定币相关的交易量巨大，但这一领域的市值仍相对适中，为 1640 亿美元，尽管自年初以来已增长了 26% 。（见图 6 。）尽管如此，稳定币目前只占 2.3 万亿美元加密市场市值的 7% 。一些市场分析师推测，稳定币市场在未来五年内可能增长到近 3 万亿美元。虽然这个数字看起来很高，因为这个估计接近当前整个加密市场的规模，但如果考虑到这一数字仅相当于美国 M 2 货币供应量（21 万亿美元）的 14% （目前为 0.8% ），我们认为这仍然在可能范围内。

Coinbase研报：稳定币与新支付格局

实现这些预测的最大障碍仍然是监管。早在 2020 年，金融稳定委员会（FSB）就发布了一套“全球稳定币安排的监管、监督和监控的高级别建议”（最终报告于 2023 年 7 月发布），这是在G20的授权下进行的。这些建议正在许多司法管辖区塑造稳定币监管的发展。事实上，MiCA 已经使稳定币在欧洲的发行合法化，基于其严格的规则和操作指南。在亚洲，几个地方要么已经有了稳定币框架，如新加坡和日本，要么计划很快推出，如香港。尽管如此，跨境一致的监管可能会增加用户信心，并导致整体市场环境更可预测。

在美国，目前众议院和参议院分别有两项尚未通过的法案：《 2023 年支付稳定币明确法案》（CPSA 23）和《卢米斯-吉利布兰德支付稳定币法案》（LGPSA）。虽然这两项法案都规定了稳定币发行人的具体储备要求，并包括广泛的客户保护条款，但它们在具体的监管方法上有所不同。CPSA 23 规定稳定币发行人应由适当的联邦或州监管机构监管，而 LGPSA 则提供了一个全面的联邦监管制度。更具体地说，LGPSA 对非存款信托公司发行的稳定币设定了最高 10 亿美元的上限，超过这一金额的实体需要注册并获得存款机构的批准，其监管将更类似于银行。

结论

随着支付格局的不断演变，传统银行系统、信用卡甚至移动支付都面临着适应客户需求变化的更大压力。稳定币旨在通过保持价格稳定（主要与美元挂钩）将波动的加密货币世界与传统金融连接起来。然而，这些代币实际上只有在过去的 2-3 年内才开始大规模用于低成本的资金转移，尽管这一领域正式推出于 2015 年。尽管在速度和成本方面与现有系统相比有一些关键的比较优势，但稳定币仍需与现有金融系统整合，以促进其在日常交易中的使用。

我们相信稳定币代表了支付和资本流动的下一次重大飞跃，特别是随着商家和其他实体越来越容易将这项技术整合到他们的经济工作流中——即使相比几年前也是如此。最近，Coinbase 宣布与支付提供商 Stripe 合作，提供 USDC 用于 Base 上的加密货币支付和法币到加密货币的转换，此外，Visa、Mastercard 和 PayPal 近年来也推出了各自的稳定币计划。其他值得一提的包括 Shift 4、Nuvei、Worldpay 和 Checkout.com。话虽如此，稳定币需要更清晰的监管和更流畅的加密货币用户体验，才能更牢固地奠定其潜力的基础。

Lecturas Relacionadas

Informe de Ethereum del primer trimestre de 2026: caen las tarifas, usuarios y volumen de transacciones alcanzan máximos históricos

Resumen del informe del primer trimestre de 2026 sobre Ethereum, por Token Terminal. El reporte destaca una tendencia clave: la cantidad de usuarios activos mensuales (13.2 millones, +53.5%), las transacciones (200.4 millones, +38%) y el rendimiento de la red (25.78 TPS) alcanzaron máximos históricos, mientras que las tarifas de transacción en la capa principal cayeron un 47.9% intertrimestral. Este fenómeno, denominado la "Paradoja de Jevons", sugiere que Ethereum está priorizando deliberadamente la expansión a corto plazo sobre la captura de ingresos inmediatos. La actualización Fusaka, que aumenta la capacidad de datos y reduce el costo del espacio de bloque, es un factor clave. La narrativa central de Ethereum se está desplazando de una cadena de bloques DeFi a una capa de liquidación financiera global. Ethereum mantiene una posición dominante en activos tokenizados, con una capitalización total de $2 billones (-0.7% intertrimestral). Destacan el crecimiento de los fondos tokenizados ($194 mil millones, +4.9%) y las materias primas tokenizadas ($47 mil millones, +60%), reflejando una mayor adopción institucional por parte de entidades como BlackRock y JPMorgan. A pesar de una caída del 30.3% en su capitalización de mercado totalmente diluida, la base de titulares de ETH creció a 292.8 millones. En resumen, Ethereum está sacrificando ingresos a corto plazo para impulsar la adopción, consolidándose como la infraestructura de liquidación preferida para las finanzas tokenizadas, con el objetivo de que una mayor demanda de red compense las tarifas más bajas a largo plazo.

marsbitHace 42 min(s)

Informe de Ethereum del primer trimestre de 2026: caen las tarifas, usuarios y volumen de transacciones alcanzan máximos históricos

marsbitHace 42 min(s)

Entrevista inaugural en podcast del CEO de Intel, Tan Lip Bu: Nuestro objetivo es '10 veces en 5-10 años', apostamos por empaquetado avanzado, sustratos de vidrio y diamantes artificiales

El CEO de Intel, Chen Lifu, expresó en una entrevista en un podcast su objetivo de multiplicar por diez el valor de la empresa en un plazo de 5 a 10 años. Para lograrlo, está centrando la estrategia en la superación de los límites físicos de la miniaturización de los semiconductores, invirtiendo en tres áreas clave: tecnologías avanzadas de empaquetado como EMIB, nuevos materiales como el nitruro de galio (GaN), carburo de silicio (SiC), fosfuro de indio (InP) y diamante sintético, y sustratos innovadores como el de vidrio. Destacó que la explosión de la IA, especialmente los agentes autónomos y la inferencia, está impulsando una fuerte demanda de CPUs, cambiando la proporción CPU/GPU en servidores. Chen Lifu también defendió la apuesta de Intel por el negocio de fundición (foundry), subrayando que es crucial para la seguridad de la cadena de suministro en EE.UU. y que se basa en generar confianza a través de altos rendimientos y fiabilidad. Reveló detalles de la colaboración Terafab con Elon Musk para construir fábricas de chips y abordar la escasez de capacidad. Reconoció que Intel aún está en una fase de transformación ("gatear"), reconstruyendo equipos y capacidades fundamentales, pero proyecta que su verdadero potencial en mercados como la informática de borde, la IA física y la de agentes comenzará a materializarse hacia 2030-2032. Con una mentalidad de capitalista de riesgo, su meta clara es entregar un retorno de 10x a los accionistas en la próxima década.

marsbitHace 44 min(s)

Entrevista inaugural en podcast del CEO de Intel, Tan Lip Bu: Nuestro objetivo es '10 veces en 5-10 años', apostamos por empaquetado avanzado, sustratos de vidrio y diamantes artificiales

marsbitHace 44 min(s)

Acaba de recaudar 2.700 millones, y Li Feifei también invirtió

En la actualidad, el mercado de inversión está obsesionado con los "Modelos del Mundo". Sin embargo, Pete Florence, ex científico de DeepMind y co-creador de la arquitectura Vision-Language-Action (VLA), fundó Generalist AI y rechaza esta etiqueta. Para él, el objetivo concreto es más importante: crear robots que realicen cualquier tarea con alta tasa de éxito sin datos específicos. Recientemente, Generalist AI recaudó 400 millones de dólares (unos 2.700 millones de RMB) en una ronda de financiación, alcanzando una valoración de 2.000 millones de dólares. Inversores incluyen NVentures de Nvidia, Bezos Expeditions, NFDG, y figuras como el cofundador de Xiaomi Lin Bin, el fundador de Zoom Eric Yuan, y la renombrada científica Fei-Fei Li. Florence, influenciado por su mentor en el MIT Russ Tedrake, prioriza comprender el mundo físico. Su enfoque comienza estableciendo una meta clara, luego diseña la ruta técnica. Tras dejar Google, lanzó Generalist AI en 2025. La compañía presentó su primer modelo de IA incorporada, GEN-0, en noviembre de 2025, demostrando que las leyes de escalado de los LLMs también se aplican al movimiento físico. En abril de 2026, presentaron GEN-1, entrenado con más de 50.000 horas de datos de interacción física recogidos por un dispositivo portátil. GEN-1 logra un 99% de éxito en tareas como plegar cajas y empaquetar teléfonos, siendo tres veces más rápido que GEN-0. Este avance acerca el modelo a un punto de inflexión similar al GPT-3, mostrando un rendimiento apto para despliegues comerciales en ciertas tareas. La inversión récord respalda la visión de Florence: robots universales que sean lo suficientemente expertos en tareas reales como para ser útiles, avanzando hacia la reducción del coste marginal del trabajo físico a cero. La etiqueta "Modelo del Mundo" queda así en segundo plano frente a los resultados tangibles.

marsbitHace 51 min(s)

Acaba de recaudar 2.700 millones, y Li Feifei también invirtió

marsbitHace 51 min(s)

Perdiendo a dos leyendas en tres días: ¿Se está resquebrajando el dique de talento de IA de Google?

En solo tres días, Google ha perdido a dos leyendas de la IA. El 18 de junio, Noam Shazeer, coautor del seminal trabajo "Attention is All You Need" y copresponsable de Gemini, anunció su salida para unirse a OpenAI. Dos días después, John Jumper, ganador del Nobel de Química 2024 y líder de AlphaFold, dejó Google DeepMind para incorporarse a Anthropic. Estas partidas no son incidentes aislados, sino parte de una tendencia clara de fuga de talento de Google hacia OpenAI y Anthropic, como lo confirma también la reciente incorporación a Anthropic del exmiembro fundador de OpenAI, Andrej Karpathy. El trasfondo de este éxodo es fundamentalmente una cuestión de misión y enfoque. El modelo de negocio central de Google, basado en la publicidad, impone una lógica orientada a productos y métricas comerciales que, en última instancia, restringe la investigación pura. En contraste, tanto OpenAI (con su misión de AGI) como Anthropic (centrada en la seguridad y la ciencia) ofrecen un entorno de trabajo enfocado únicamente en empujar los límites de las capacidades de los modelos. A esto se suma la fuerte atracción financiera: OpenAI y Anthropic están en camino a una OPI, lo que promete una recompensa económica masiva a través de capital para sus empleados, algo que la ya gigantesca Google difícilmente puede igualar. La fusión de Google Brain y DeepMind en 2023, destinada a consolidar esfuerzos, ha generado en cambio tensiones culturales y ha hecho más evidente la presión por alinear la investigación con los objetivos de los equipos de productos. El resultado es una reorganización estructural del mapa del talento en IA. Google, a pesar de sus vastos recursos en computación y datos, está perdiendo a las personas que definen el futuro del campo. La verdadera ventaja competitiva en IA reside en retener a las mentes más brillantes, y Google está descubriendo que esa es quizás su batalla más difícil.

marsbitHace 2 hora(s)

Perdiendo a dos leyendas en tres días: ¿Se está resquebrajando el dique de talento de IA de Google?

marsbitHace 2 hora(s)

Tras las notas de la IA, se esconde un "creador de exámenes" chino

Cada vez que se lanza un modelo de IA de vanguardia, la comunidad fija su atención en ciertas "hojas de resultados" familiares: MMLU-Pro, MMMU, MMMU-Pro. Estos puntos de referencia se han convertido en exámenes estándar para evaluar y comparar modelos como GPT, Claude, Gemini, Llama, Qwen y DeepSeek. Detrás de estas influyentes evaluaciones está el investigador chino Wenhu Chen, profesor asistente en la Universidad de Waterloo y fundador del TIGERLab (apodado "虎头帮"). Su trabajo surge de una necesidad crítica: a medida que los modelos avanzaban, las pruebas antiguas como MMLU se saturaban con puntuaciones casi perfectas, dejando de ser útiles para discernir diferencias reales. En 2024, Chen y su equipo presentaron MMLU-Pro, una renovación exhaustiva del original. Con 12,032 preguntas de 14 disciplinas, aumenta las opciones de respuesta de 4 a 10 para reducir las conjeturas e incorpora problemas más complejos que requieren razonamiento. El resultado fue una caída del 16% al 33% en la precisión de los modelos y una evaluación más estable y discriminatoria, rápidamente adoptada por la industria. Su contribución se extiende al ámbito multimodal con MMMU, un conjunto de 11,500 preguntas que combinan imágenes (gráficos, mapas, fórmulas) con conocimientos académicos para probar una comprensión integrada. Incluso los mejores modelos como GPT-4V inicialmente solo alcanzaron un 56% de precisión, revelando un largo camino por recorrer. Su sucesor, MMMU-Pro, cierra aún más las brechas, obligando a los modelos a utilizar la información visual y no solo el texto. La experiencia de Chen, que incluye investigación doctoral en preguntas complejas y una etapa en Google DeepMind trabajando en Gemini, le permite anticipar cómo los modelos pueden "aparentar" competencia. Su laboratorio no solo diseña evaluaciones, sino que también desarrolla modelos (como UniVideo para video o MoCha para avatares), asegurando que sus "exámenes" reflejen desafíos reales y los límites actuales de la tecnología. Actualmente, Chen continúa este trabajo en el laboratorio de superinteligencia de Meta, enfocado en datos y evaluación multimodal. Su historia destaca el papel fundamental, aunque a menudo menos visible, de los investigadores que construyen las herramientas para medir el verdadero progreso de la IA.

marsbitHace 3 hora(s)