Tác giả: Li Yuan
Bạn đã bao giờ hỏi trợ lý AI về vấn đề sức khỏe của mình chưa?
Nếu bạn là một người dùng sâu của AI giống như tôi, có lẽ bạn cũng đã thử.
Số liệu do chính OpenAI đưa ra là, sức khỏe đã trở thành một trong những tình huống sử dụng phổ biến nhất của ChatGPT, với hơn 230 triệu người trên toàn cầu đặt các câu hỏi liên quan đến sức khỏe và chăm sóc sức khỏe mỗi tuần.
Chính vì vậy, bước vào năm 2026, lĩnh vực y tế cũng có dấu hiệu trở thành vùng đất tranh chấp trong lĩnh vực AI.
Ngày 7 tháng 1, OpenAI đã phát hành ChatGPT Sức khỏe, cho phép người dùng kết nối hồ sơ y tế điện tử và các ứng dụng sức khỏe khác nhau, giúp người dùng nhận được phản hồi y tế có mục tiêu hơn; và vào ngày 12 tháng 1, Anthropic cũng ngay lập tức ra mắt Claude for Healthcare, đồng thời nhấn mạnh khả năng của mô hình mới trong các tình huống y tế.
Tuy nhiên, điều thú vị là lần này, công ty Trung Quốc không bị tụt lại phía sau, thậm chí còn tỏ ra dẫn đầu.
Ngày 13 tháng 1, Baichuan Intelligence thông báo phát hành mô hình Baichuan M3, và trên bộ dữ liệu đánh giá HealthBench trong lĩnh vực chăm sóc sức khỏe do OpenAI phát hành, đã vượt qua GPT-5.2 High của OpenAI, đạt được SOTA.
Sau khi tuyên bố All-in vào lĩnh vực y tế và nhận nhiều nghi ngờ, Baichuan Intelligence dường như cuối cùng đã chứng minh được bản thân. Công viên Geek lần này cũng đã trò chuyện chuyên biệt với Wang Xiaochuan về cách Baichuan Intelligence nhìn nhận khả năng của mô hình M3 lần này, cũng như cục diện cuối cùng của AI trong y tế.
01 Lần đầu tiên vượt qua OpenAI trên tập kiểm tra lĩnh vực y tế
Một trong những thành tích nổi bật nhất của mô hình M3 được phát hành lần này là lần đầu tiên mô hình vượt qua GPT-5.2 High của OpenAI trên bộ dữ liệu đánh giá lĩnh vực chăm sóc sức khỏe HealthBench do OpenAI phát hành, đạt được SOTA.
SOTA On Healthbench、Healthbench Hard and Hallucination Evaluation
Healthbench là bộ dữ liệu đánh giá lĩnh vực chăm sóc sức khỏe do OpenAI phát hành vào tháng 5 năm 2025, được xây dựng bởi 262 bác sĩ từ 60 quốc gia, thu thập 5000 cuộc đối thoại y tế đa vòng có độ chân thực cao, là một trong những bộ đánh giá y tế có thẩm quyền nhất toàn cầu và gần với các tình huống lâm sàng thực tế nhất.
Sau khi phát hành, các mô hình của OpenAI luôn dẫn đầu bảng xếp hạng.
Và lần này, mô hình y tế mã nguồn mở thế hệ mới Baichuan-M3 của Baichuan Intelligence đã đạt được điểm tổng hợp 65.1, đứng đầu toàn cầu, thậm chí trên HealthBench Hard vốn thử thách khả năng ra quyết định phức tạp, M3 cũng giành chức vô địch, làm mới điểm số cao nhất.
Baichuan cũng đồng thời công bố kết quả kiểm tra tỷ lệ ảo giác, tỷ lệ ảo giác của mô hình M3 đạt 3.5%, thuộc loại thấp nhất toàn cầu.
Đáng chú ý là tỷ lệ ảo giác này là tỷ lệ ảo giác y tế trong cài đặt mô hình thuần túy, không phụ thuộc vào các công cụ truy xuất bên ngoài.
Baichuan Intelligence cho biết, để đạt được hai điểm này, điểm nâng cấp mô hình then chốt nằm ở việc giới thiệu thuật toán học tăng cường phù hợp với y tế cho y tế.
Baichuan lần đầu tiên sử dụng công nghệ Fact Aware RL (Học tăng cường nhận thức sự thật) trên mô hình M3, đạt được hiệu quả vừa không để mô hình nói lời sáo rỗng, vừa không để mô hình nói bừa.
Điều này thực sự rất quan trọng trong lĩnh vực y tế.
Khi đặt câu hỏi y tế trong mô hình chưa được tối ưu hóa, vấn đề dễ xảy ra nhất là hai loại: một là mô hình trực tiếp bịa đặt triệu chứng của bạn, suy đoán ra một bệnh; và loại khác là ngữ nghĩa mơ hồ, cuối cùng nhắc bạn vẫn phải đi gặp bác sĩ, và điều này dù là đối với bác sĩ hay bệnh nhân đều không có tác dụng gì lớn.
Điều này là do nhiều mô hình lấy tỷ lệ ảo giác thuần túy làm mục tiêu tối ưu hóa, lúc này mô hình có thể thông qua việc chất đống các sự thật đúng đắn đơn giản để làm loãng tỷ lệ ảo giác tổng thể. Và Baichuan giới thiệu cơ chế phân cụm ngữ nghĩa và trọng số quan trọng - phân cụm loại bỏ sự can thiệp của diễn đạt dư thừa, trọng số đảm bảo các luận đoán y học cốt lõi nhận được trọng số cao hơn.
Đồng thời, nếu chỉ đơn thuần đưa vào hình phạt ảo giác trọng số cao, rất dễ ép mô hình rơi vào chiến lược bảo thủ "nói ít sai ít", do đó thuật toán Fact Aware RL còn thiết kế cơ chế điều chỉnh trọng số động, cân bằng hai mục tiêu này một cách thích ứng dựa trên trình độ năng lực hiện tại của mô hình - trong giai đoạn xây dựng năng lực, tập trung vào việc học và biểu đạt kiến thức y tế (Task Weight cao); sau khi năng lực trưởng thành, dần siết chặt ràng buộc tính thực tế (tăng Hallucination Weight).
Khi có thể tìm kiếm trực tuyến, Baichuan còn bổ sung mô module kiểm tra trực tuyến dựa trên tìm kiếm đa vòng, đồng thời giới thiệu hệ thống bộ nhớ đệm hiệu quả, để đối chiếu khối lượng kiến thức y tế khổng lồ.
02 Trình độ chẩn đoán vượt qua bác sĩ con người, bước vào giai đoạn khả dụng
Tuy nhiên, vượt qua OpenAI trên Healthbench không phải là điểm sáng duy nhất lần này.
Một điểm thú vị hơn nữa lần này, Baichuan tự mình xây dựng một bộ đánh giá SCAN-benche. So với việc lên top bảng xếp hạng của bộ đánh giá OpenAI, bộ đánh giá do Baichuan tự xây dựng có lẽ càng thể hiện rõ hơn hướng mà Baichuan Intelligence muốn tối ưu hóa trong y tế.
Bộ đánh giá do Baichuan xây dựng lần này, điểm then chốt nằm ở việc tối ưu hóa "khả năng chẩn đoán end-to-end". Điều này bắt nguồn từ sự洞察 thực nghiệm do Baichuan tự làm: độ chính xác chẩn đoán cứ tăng 2% thì độ chính xác kết quả điều trị sẽ tăng 1%.
Nghĩa là so với HealthBench của OpenAI, vẫn chủ yếu quan tâm "AI có biết trả lời câu hỏi không", SCAN-benche của Baichuan hy vọng đánh giá được: AI có thể trong một hỏi một đáp, thu thập thông tin hiệu quả, đồng thời đưa ra kết quả chẩn đoán và ý kiến y tế chính xác hay không.
Thông thường, khi chúng ta hỏi trợ lý AI, nếu chỉ đề cập "bạn là một bác sĩ giàu kinh nghiệm", thường sẽ không nhận được hiệu quả mô hình quá tốt. Bởi vì bác sĩ thực sự, quy trình chẩn đoán là rất quy phạm - Baichuan quy nạp nó thành nguyên tắc SCAN bốn góc phần tư: Safety Stratification (Phân tầng an toàn), Clarity Matters (Làm rõ thông tin), Association & Inquiry (Hỏi đáp liên kết) và Normative Protocol (Đầu ra chuẩn hóa).
Xoay quanh nguyên tắc SCAN, Baichuan tham khảo phương pháp OSCE được sử dụng lâu dài trong giáo dục y khoa, phối hợp với hơn 150 bác sĩ tuyến đầu, xây dựng hệ thống đánh giá SCAN-bench, phân giải quá trình chẩn đoán thành ba giai đoạn: thu thập tiền sử bệnh, kiểm tra hỗ trợ, chẩn đoán chính xác, thông qua cách thức động, đa vòng để kiểm tra, mô phỏng hoàn chỉnh toàn bộ quá trình từ tiếp nhận đến chẩn đoán xác định của bác sĩ, cũng như trong các quy trình này, đều đạt được kết quả tốt hơn, để tối ưu hóa mô hình.
Lần này Baichuan cũng công bố kết quả đánh giá của mô hình M3 trên SCAN-benche.
Kết quả rất thú vị. Baichuan lần này không chỉ so sánh với các mô hình, mà còn tìm đến bác sĩ thực để so sánh. Và trong bốn góc phần tư, bác sĩ thực tế đều đã tụt lại phía sau so với trình độ mà mô hình có thể đạt được.
Công viên Geek đặc biệt đặt câu hỏi này với đội ngũ Baichuan, câu trả lời nhận được là: toàn bộ đánh giá lần này, đều là các bác sĩ chuyên khoa thực so sánh với mô hình trên các case chuyên khoa. Mô hình có thể chiến thắng, thứ nhất, là do mô hình kiên nhẫn hơn, nhưng quan trọng hơn là mô hình sở hữu khả năng nắm bắt kiến thức liên ngành tốt hơn.
Ví dụ trong một case, đề cập trẻ 10 tuổi sốt tái phát, mà sốt là một hiện tượng y tế rất tổng hợp, nếu chỉ hỏi tình trạng ho và các tình trạng phổi, dễ bỏ sót các vấn đề nghiêm trọng trong khớp và hệ tiết niệu, chẩn đoán nhầm thành nhiễm trùng thông thường.
Bác sĩ con người thường chỉ giỏi về tình trạng bệnh của phân khoa, đây cũng là lý do tại sao triệu chứng phức tạp thường cần hội chẩn chuyên gia, hoặc chuyên gia bệnh khó chẩn đoán cũng thường phải lật sách tìm tài liệu.
Còn các mô hình thông thường chưa được đào tạo chuyên biệt, chỉ đóng vai bác sĩ, thường cũng khó trả lời tốt loại vấn đề này.
03 Bước tiếp theo: Dần bắt đầu làm sản phẩm C端, thúc đẩy y tế nghiêm túc hơn
Đối với Baichuan Intelligence mà nói, mốc vượt qua bác sĩ con người này, ý nghĩa vô cùng trọng đại: Điều này có nghĩa là AI bắt đầu vượt qua ngưỡng khả dụng, bắt đầu có thể được triển khai vào các tình huống sử dụng.
Từ ngày 13 tháng 1, người dùng đã có thể bắt đầu trải nghiệm câu trả lời do mô hình M3 cung cấp trên website và app của Baixiaoying.
Thiết kế website hiện tại rất thú vị, mặc dù đều sử dụng mô hình M3 để trả lời, nhưng phân biệt phiên bản bác sĩ và phiên bản người dùng. Ở phiên bản bác sĩ, câu trả lời ngắn gọn hơn, trích dẫn nhiều tài liệu tham khảo hơn, và cũng "không nói tiếng người" hơn. Còn ở phiên bản bệnh nhân thông thường, mô hình hầu như không đưa ra câu trả lời một lần, đều sẽ truy vấn thêm nhiều hơn, để chẩn đoán rõ ràng hơn.
Baichuan Intelligence đề cập, suy nghĩ của mô hình ở backend rất thú vị. "Chúng tôi thường thấy mô hình này trong chuỗi suy nghĩ đề cập, 'Bệnh nhân này không để ý đến câu hỏi của tôi, nhưng câu hỏi này tôi bắt buộc phải hỏi.' Thậm chí chúng tôi đã từng thấy trường hợp cực đoan, nói rằng tôi đã hỏi bệnh nhân 20 vòng rồi, điều này đã vượt quá số vòng tối đa đã thiết lập, nhưng câu hỏi này tôi vẫn phải hỏi. Đây là bởi vì trong quá trình training, mô hình nói lời khéo léo, là không nhận được phần thưởng, nó phải thực sự thu thập đủ thông tin then chốt, đưa ra chẩn đoán chính xác, mới có thể nhận được phần thưởng. Đây là điểm khác biệt rõ ràng của chúng tôi so với những người khác khi training mô hình."
Gần đây nhiều công ty AI đã bắt đầu can thiệp vào lĩnh vực y tế. Đây cũng là điểm khác biệt lớn nhất mà Baichuan Intelligence cho là của mình - muốn làm y tế nghiêm túc hơn.
"Điều này có nghĩa là khi Baichuan lựa chọn tình huống, không phải nhìn tình huống nào dễ làm nhất thì làm tình huống đó. Ngược lại, Baichuan kiên trì không ngừng nâng cao năng lực công nghệ, thách thức những vấn đề khó hơn." Wang Xiaochuan nói.
Một ví dụ điển hình là trong tương lai Baichuan sẽ ưu tiên làm các tình huống giải quyết chuyên khoa ung thư, còn chữa lành tâm lý được xếp ở vị trí ưu tiên khá thấp của Baichuan.
Trong quan điểm phổ thông, phổ biến cho rằng AI cung cấp chữa lành tâm lý sẽ đơn giản hơn, cũng là một tình huống dễ triển khai hơn. Logic đánh giá của Baichuan thì khác. Họ cho rằng lĩnh vực ung thư có cơ sở khoa học chặt chẽ hơn. Ở đây, AI có nhiều khả năng tạo ra hiệu quả y tế nghiêm túc, từ đó đạt đến hoặc vượt qua trình độ của bác sĩ con người. Ngược lại, lĩnh vực tâm lý học thiếu điểm neo khoa học xác định như vậy.
Lại ví dụ như có công ty chọn làm bản sao cho bác sĩ, Wang Xiaochuan thì cho rằng hướng đi như vậy không phải là hướng Baichuan muốn làm. Bản thân bản sao của bác sĩ không thể tái sử dụng hoàn chỉnh trình độ của bác sĩ, càng không thể vượt qua trình độ của bác sĩ. AI như vậy cuối cùng chỉ có thể trở thành bình phong và công cụ thu hút khách hàng, không thể thực sự thúc đẩy y tế nghiêm túc.
Sự kiên trì với tính nghiêm túc này, đã ảnh hưởng sâu sắc đến nhiều lựa chọn thương mại của Baichuan.
Điều này liên quan trực tiếp đến suy nghĩ của Wang Xiaochuan về vấn đề cơ bản của giai đoạn tiếp theo của AI y tế. Ông cho rằng, nhiệm vụ quan trọng nhất ở giai đoạn hiện tại là trên cơ sở tăng cường năng lực AI, dần cung cấp nhiều nguồn cung y tế hơn.
Trung Quốc nhiều năm nay đã thử thực hiện chế chẩn đoán phân cấp và chế độ bác sĩ đa khoa. Mục đích ban đầu là hy vọng người dân khám bệnh ở cơ sở trước, giải quyết tình trạng khó khám, xếp hàng dài, tắc nghẽn ở các bệnh viện lớn.
Chế độ này khó thực hiện, về bản chất là do nguồn cung tài nguyên y tế không đủ. Các cơ sở y tế cơ sở thiếu bác sĩ trình độ cao. Mọi người dù chỉ cảm cúm cũng sẵn sàng xếp hàng ở bệnh viện hạng ba, là vì không yên tâm về trình độ chẩn đoán ở cơ sở.
Đây chính là điểm then chốt mà AI y tế phát huy tác dụng. Mô hình lớn có thể phân phối quy mô hóa kiến thức y học đỉnh cao. Nó lấp đầy khoảng trống nguồn cung ở cơ sở, để mọi cộng đồng, mọi gia đình đều có thể sở hữu năng lực chẩn đoán như chuyên gia bệnh viện hạng ba.
Và về lâu dài, điều này còn có thể có ảnh hưởng rộng rãi hơn, có thể khiến quyền quyết định y tế dần chuyển từ tay bác sĩ sang người dùng. Trong các tình huống y tế truyền thống, bệnh nhân là bên hưởng lợi, nhưng thường không có quyền quyết định. Quyền quyết định tập trung trong tay bác sĩ. Sự bất đối xứng quyền lực này thường mang lại chi phí giao tiếp và đau khổ trong điều trị.
Và Baichuan hy vọng thông qua AI, để bệnh nhân có thể dễ dàng hơn tiếp cận nguồn cung tài nguyên y tế chất lượng. "Nhiều người cho rằng y tế quá phức tạp, bệnh nhân mãi mãi không thể hiểu được. Nhưng chúng tôi nghĩ trong hệ thống tư pháp Mỹ có một chế độ gọi là bồi thẩm đoàn. Pháp luật cũng là một việc rất chuyên môn, người trong bồi thẩm đoàn không hiểu, thì yêu cầu thẩm phán, luật sư và công tố viên có thể dẫn dắt, tranh luận đầy đủ, nói rõ ràng, nói đến mức người bình thường có thể phán đoán có tội hay không, để người bình thường có thể phán đoán bình thường dựa trên logic." Wang Xiaochuan nói.
Đây cũng là lý do tại sao Baichuan Intelligence không muốn chỉ làm các tình huống đơn giản, mà hy vọng không ngừng thúc đẩy hướng đến chẩn đoán nghiêm túc với độ khó cao.
Khi được hỏi liệu giải quyết vấn đề khó có phải là có回报 thương mại nhất hay không, Wang Xiaochuan đã đưa ra câu trả lời sâu sắc.
Ông cho rằng, giải quyết các vấn đề nhỏ như cảm sốt, rất khó xây dựng đủ sự tin tưởng trong lòng người dùng. Y tế là một ngành phụ thuộc cao vào sự tin tưởng. Chỉ khi AI có thể giải quyết các vấn đề khó như bệnh nặng, mới thực sự xây dựng được nền tảng tin tưởng.
Về logic thương mại, khi bệnh nhân đối mặt với các vấn đề sức khỏe nghiêm túc, cũng có nguyện vọng chi trả nhiều hơn cho dịch vụ AI chất lượng cao. Sự tin tưởng này không chỉ là tiền đề cho回报 thương mại, mà còn là cốt lõi để AI y tế có thể ứng dụng quy mô hóa.
Và từ ý nghĩa cơ bản hơn mà nói, y tế đối với Baichuan Intelligence và bản thân Wang Xiaochuan, vẫn có nghĩa là một con đường tiếp cận trí tuệ nhân tạo phổ quát (AGI).
Wang Xiaochuan cho rằng, AI hiện tại trong các lĩnh vực văn, lý, công, nghệ đều đã tìm được giải pháp thực tế, y tế thì là một lĩnh vực cực kỳ độc đáo. Sự khám phá y học của con người vẫn chưa cạn kiệt, AI trong lĩnh vực này cũng đang ở giai đoạn mò mẫm.
Lộ trình của Baichuan rất rõ ràng. Đầu tiên thông qua AI nâng cao hiệu suất chẩn bệnh, giải quyết vấn đề thiếu hụt nguồn cung y tế hiện tại. Trên cơ sở này, Baichuan致力于 thiết lập sự tin tưởng sâu sắc với bệnh nhân. Khi bệnh nhân sẵn sàng sử dụng công cụ AI, tư vấn y tế lâu dài, AI có thể trong quá trình đồng hành lâu dài tích lũy dữ liệu y tế chất lượng cao và chân thực.
Mục tiêu cuối cùng của những dữ liệu này là xây dựng mô hình toán học của sự sống. Đây là một con đường mà bác sĩ con người cho đến nay vẫn chưa hoàn toàn thông suốt, tương lai rất có thể do AI thực hiện trước. Nếu có thể hoàn thành mô hình hóa bản chất sự sống, đây sẽ trở thành bước then chốt thúc đẩy trí tuệ nhân tạo phổ quát tiến bước lên trình độ cao hơn.









