发布 ChatGPT 健康 6 天后,OpenAI 在自家医疗健康 Benchmark 上被反超
OpenAI于1月7日发布ChatGPT健康功能后,医疗健康领域成为AI竞争新焦点。1月13日,百川智能发布医疗大模型Baichuan-M3,在OpenAI的医疗评测集HealthBench上以65.1分超越GPT-5.2 High,获得综合排名第一,并在幻觉率测试中以3.5%创全球最低纪录。其关键突破在于引入Fact Aware RL(事实感知强化学习)技术,平衡模型准确性与安全性。
百川还自研SCAN-bench评测集,模拟真实问诊流程,结果显示M3模型在问诊维度上超越人类医生,尤其在跨学科知识整合和耐心追问方面表现突出。目前,M3模型已应用于百小应平台,分设医生版和用户版,提供差异化回答。
百川智能强调聚焦严肃医疗,优先攻克肿瘤等复杂专科,而非心理疗愈等轻量场景,旨在通过AI填补基层医疗供给缺口,推动分级诊疗。长远目标是构建生命数学模型,推动AGI发展。王小川认为,解决高难度医疗问题才能建立用户信任,形成商业闭环。
marsbit01/14 02:31