# Bài viết Liên quan LLM

Trung tâm Tin tức HTX cung cấp những bài viết mới nhất và phân tích chuyên sâu về "LLM", bao gồm xu hướng thị trường, cập nhật dự án, phát triển công nghệ và chính sách quản lý trong ngành tiền kỹ thuật số.

Claude Code Xoá Kịch Liệt 80% Prompt, Opus 5 Lại Bổ Sung Ngược Trở Lại

Claude Code vừa thông báo cắt giảm hơn 80% prompt hệ thống cho các mô hình mới như Opus 5, nhưng một nhà phát triển (@chenchengpro) đã phát hiện ra điều trái ngược khi kiểm tra thực tế: so với Opus 4.8, prompt hệ thống thực tế của Opus 5 lại dài hơn tới 72% (từ 4467 lên 7694 ký tự). Lý do cho sự "trái khoáy" này nằm ở chiến lược tối ưu prompt của Anthropic. Họ đã thực sự xóa bỏ phần lớn các quy tắc chi tiết, cứng nhắc dành cho các mô hình cũ (từ Opus 4.7 sang 4.8 đã cắt mạnh). Tuy nhiên, với Opus 5 - một mô hình mạnh hơn và chủ động hơn - Anthropic phải bổ sung thêm khoảng 3755 ký tự prompt mới. Những prompt này chủ yếu để định hướng các hành vi "tự ý" của Opus 5, như: cách báo cáo tiến độ, khi nào nên dừng nhiệm vụ, kiểm soát việc gọi các agent phụ và hạn chế việc tự sửa lỗi lặp đi lặp lại. Tóm lại, Claude Code đã "giảm cân" thành công bằng cách loại bỏ các chỉ dẫn thủ công chi tiết, thay vào đó là các nguyên tắc chung linh hoạt. Việc Opus 5 "dài thêm" prompt là để quản lý những khả năng mới và tính chủ động cao hơn của chính nó, đảm bảo hiệu quả và tiết kiệm token khi thực hiện nhiệm vụ.

marsbit2 ngày trước 11:39

Claude Code Xoá Kịch Liệt 80% Prompt, Opus 5 Lại Bổ Sung Ngược Trở Lại

marsbit2 ngày trước 11:39

Một phần ba arXiv bị 'thất thủ', 65% bài báo khoa học máy tính bị đánh giá 'có mùi AI', toán học chỉ 0.7%

Một nghiên cứu của Unslop gần đây gây chú ý khi phân tích 12.750 bài báo trên arXiv từ tháng 1/2023 đến tháng 7/2026, cho thấy sự thâm nhập mạnh mẽ của văn bản do AI tạo ra hoặc chỉnh sửa trong học thuật. Kể từ khi ChatGPT ra mắt, tỷ lệ bài báo bị công cụ phát hiện đánh dấu đã tăng vọt từ mức ổn định 0,4% (2021-2022) lên 32% trong quý gần nhất, đỉnh điểm gần 39% đầu năm 2026. Sự khác biệt lớn giữa các ngành học: Khoa học Máy tính dẫn đầu với 65% bài báo bị đánh dấu, tiếp theo là Sinh học Định lượng (56,3%), Kỹ thuật Điện (51,3%), Kinh tế & Tài chính (47%). Ngược lại, Toán học chỉ ở mức 0,7%. Sự chênh lệch này một phần do hạn chế của công cụ phát hiện, vốn chỉ phân tích cấu trúc câu và từ vựng trong văn bản thuần, trong khi bài báo toán học chứa chủ yếu là ký hiệu, công thức và lập luận logic. Do đó, con số 0,7% có thể phản ánh việc các nhà toán học ít sử dụng AI, hoặc công cụ không thể "đọc" hiệu quả các bài toán. Nghiên cứu của Đại học Stanford bổ sung rằng việc sử dụng AI phổ biến nhất trong các lĩnh vực cạnh tranh cao, nơi nó trở thành một loại "vũ khí" để tăng tốc độ công bố. Tuy nhiên, công cụ phát hiện chỉ đo lường "hương vị AI" (cách viết giống máy) chứ không xác định được văn bản do AI viết toàn bộ. Ngay cả bài báo cũ từ trước thời ChatGPT cũng có thể bị đánh dấu, vì văn phong học thuật chuẩn mực vốn là dữ liệu huấn luyện của chính các mô hình AI. Hiện tượng này dẫn đến một tình thế hoài nghi mới: mọi văn bản được viết trôi chảy đều có thể bị nghi ngờ là do AI tạo ra, làm xói mòn sự tin cậy vốn có vào chữ viết.

marsbit2 ngày trước 11:37

Một phần ba arXiv bị 'thất thủ', 65% bài báo khoa học máy tính bị đánh giá 'có mùi AI', toán học chỉ 0.7%

marsbit2 ngày trước 11:37

Giá trị gia tăng từ 88 tỷ lên 680 tỷ chỉ sau 2 tháng! OpenRouter, trạm trung chuyển AI lớn nhất sắp được mua lại

Theo tờ Wall Street Journal và The Information, Stripe - nền tảng thanh toán hàng đầu - đang đàm phán mua lại startup AI OpenRouter với giá khoảng 10 tỷ USD. Chỉ hai tháng trước, định giá của OpenRouter là 1,3 tỷ USD, tức giá chào mua cao hơn gần 7 lần. Thương vụ có thể được công bố trong vòng một tháng nhưng vẫn có nguy cơ đổ vỡ. OpenRouter hoạt động như một "trung tâm chuyển tiếp" AI, cung cấp một API duy nhất để các nhà phát triển truy cập vào hơn 400 mô hình lớn (như GPT, Claude). Nó tự động lựa chọn mô hình phù hợp dựa trên độ phức tạp, chi phí và tốc độ, giúp các ứng dụng AI tối ưu hóa hiệu quả chi phí. Được đồng sáng lập bởi Alex Atallah (cựu đồng sáng lập OpenSea), OpenRouter hiện có hơn 1 triệu nhà phát triển và doanh thu hàng năm đạt 50 triệu USD, tăng gấp 5 lần trong nửa năm. Đây là bước đi chiến lược tiếp theo của Stripe trong việc mở rộng sang hạ tầng AI, sau khi họ mua lại nền tảng định giá theo lượng sử dụng Metronome vào cuối năm 2025. Mục tiêu của Stripe là kết hợp khả năng định tuyến mô hình của OpenRouter với hệ thống thanh toán và đo lường sử dụng hiện có, để trở thành "trung tâm điều phối và thu ngân" toàn diện cho nền kinh tế AI. Điều này cho phép doanh nghiệp quản lý toàn bộ việc sử dụng và hóa đơn AI qua một nhà cung cấp duy nhất.

链捕手07/24 09:02

Giá trị gia tăng từ 88 tỷ lên 680 tỷ chỉ sau 2 tháng! OpenRouter, trạm trung chuyển AI lớn nhất sắp được mua lại

链捕手07/24 09:02

Claude Opus 5 rò rỉ, đợt thử nghiệm đầu tiên từ cư dân mạng đã đến

Claude Opus 5 đã bị rò rỉ sớm và được cộng đồng mạng nhiệt tình thử nghiệm. Các bản demo cho thấy khả năng tạo 3D, UI và đồ họa ấn tượng của mô hình này. Người dùng @chetaslua chia sẻ cảnh tượng một cỗ máy bắn đá 3D chi tiết với thông số kỹ thuật, cùng các giao diện thời tiết có ánh sáng thay đổi và cảnh bếp sống động. Nhiều người dùng khác cũng đăng tải kết quả thử nghiệm, từ việc tái tạo Minecraft với hiệu ứng vật lý và ánh sáng chân thực đến tạo hình ảnh SVG tay cầm PS5 chất lượng cao. Một số so sánh trực tiếp cho thấy Opus 5 tạo ra nhiều chi tiết hơn so với Fable 5 ở cùng một cảnh. Dấu vết rò rỉ của Opus 5 bắt đầu xuất hiện từ ngày 9/7 với một mô hình bí ẩn tên "Honeycomb EAP" trên Cursor, sau đó là các mục trong Google Vertex AI. Đến giữa tháng 7, nhiều báo cáo cho biết một số người dùng đã có thể truy cập Opus 5 (dù giao diện vẫn hiển thị 4.8), và tên "claude-opus-5-thinking-high" đã xuất hiện trong thông báo lỗi của Cursor. Cộng đồng đang bàn tán về việc liệu Opus 5 có trở thành giải pháp thay thế rẻ hơn cho Fable 5 hay không, vì giá của Opus chỉ bằng một nửa. Tuy nhiên, cũng có lo ngại rằng Opus 5 có thể tiêu thụ token nhiều hơn đáng kể, làm giảm lợi thế về chi phí. Vẫn chưa có điểm chuẩn chính thức nào được công bố. Dự kiến Opus 5 sẽ sớm được phát hành chính thức, và câu trả lời cuối cùng sẽ sớm được hé lộ.

marsbit07/24 07:55

Claude Opus 5 rò rỉ, đợt thử nghiệm đầu tiên từ cư dân mạng đã đến

marsbit07/24 07:55

Khi Sự Đồng Thuận Diễn Ra Ngày Càng Nhanh, Các Nhà Đầu Tư Trẻ Đang Đánh Cược Vào Điều Gì?

Khi sự đồng thuận thị trường ngày càng nhanh, các nhà đầu tư trẻ đang tập trung vào đâu? Đầu tư công nghệ hiện nay đang trải qua sự chuyển dịch rõ rệt, với bốn xu hướng chính được các nhà đầu tư trẻ hàng đầu quan tâm. **Xu hướng 1: AI rời màn hình, bước vào thế giới vật lý.** Trọng tâm đầu tư đang chuyển từ mô hình lớn và ứng dụng sinh dữ liệu sang robot, thiết bị AI, xe tự lái và hệ thống công nghiệp. Thách thức lớn không còn là khả năng của mô hình, mà là năng lực triển khai, độ tin cậy và hiệu quả chi phí khi tích hợp vào môi trường vật lý. Ngành giao hàng tự động (ví dụ: Bạch Tê Ngưu với hơn 2000 xe) là minh chứng cho xu hướng này. **Xu hướng 2: Lợi nhuận từ mô hình lớn chưa hết, cạnh tranh chuyển sang "Bánh xe thông minh".** Thay vì chỉ tìm kiếm kiến trúc kế tiếp, các nhà đầu tư tập trung vào các công ty có thể nhúng khả năng AI hiện có vào quy trình làm việc thực tế, tạo ra vòng lặp phản hồi "bánh xe thông minh": dữ liệu người dùng -> cải thiện mô hình -> trải nghiệm tốt hơn -> nhiều người dùng hơn. Sự thành công của Zhipu AI và Kling AI của Kuaishou cho thấy giá trị của việc xây dựng hệ thống tự củng cố này. **Xu hướng 3: Nghẽn dữ liệu thúc đẩy công nghệ nền tảng mới, mô hình cơ bản khoa học trở thành hướng đi không đồng thuận.** Khi dữ liệu chất lượng cao từ internet trở nên khan hiếm, việc đào tạo AI cần các nguồn kiến thức mới. Các phương pháp như học tăng cường, tự đối kháng và đặc biệt là **Mô hình Cơ bản Khoa học** (Scientific Foundation Models) hứa hẹn sử dụng dữ liệu và quy luật từ các lĩnh vực chuyên sâu (sinh học, vật liệu) để mở rộng biên giới của AI, mặc dù đây vẫn là một lĩnh vực đầy thách thức. **Xu hướng 4: Càng tiến vào vùng nước sâu của công nghệ cứng, càng cần vốn kiên nhẫn.** Trong các lĩnh vực như hàng không vũ trụ thương mại, máy tính lượng tử và năng lượng tiên tiến, chu kỳ xác minh dài hơn và con đường thương mại hóa không rõ ràng. Các nhà đầu tư cần xây dựng phán đoán sớm, tập trung vào năng lực nghiên cứu cốt lõi, khả năng kỹ thuật và sự kiên cường của đội ngũ, thay vì kỳ vọng lợi nhuận ngắn hạn. Sự quan tâm đến robot không gian, điện toán không gian và vật liệu năng lượng không gian phản ánh tầm nhìn dài hạn này. Tóm lại, các nhà đầu tư trẻ ngày nay không chỉ theo đuổi các khái niệm nóng, mà đang chuyển sang phân tích sâu sắc con đường tích hợp công nghệ vào ngành công nghiệp, tìm kiếm các hệ thống tạo ra vòng lặp phản hồi bền vững và sẵn sàng đồng hành cùng các dự án công nghệ cứng trong hành trình dài hạn.

marsbit07/22 03:37

Khi Sự Đồng Thuận Diễn Ra Ngày Càng Nhanh, Các Nhà Đầu Tư Trẻ Đang Đánh Cược Vào Điều Gì?

marsbit07/22 03:37

"Bản sao của "Khoảnh khắc DeepSeek"? Phố Wall đồng thanh: Kimi K3 ngược lại củng cố nhu cầu về sức mạnh tính toán

Thị trường ban đầu lo ngại việc ra mắt mô hình lớn mã nguồn mở Kimi K3 từ Mặt tối của Mặt trăng (Moonshot AI) sẽ lặp lại "khoảnh khắc DeepSeek", gây áp lực giảm giá lên cổ phiếu hạ tầng AI. Tuy nhiên, nhiều phân tích gia từ các ngân hàng lớn như UBS, Nomura, BofA và Citi đưa ra nhận định trái ngược: K3 không phải là tác nhân làm suy yếu mà là chất xúc tác thúc đẩy nhu cầu điện toán. Kimi K3 là mô hình tham số khổng lồ (2.8 nghìn tỷ), với cửa sổ ngữ cảnh 1 triệu token, kiến trúc MoE và khả năng đa phương thức. Nó đạt hiệu suất ngang hàng với các mô hình tiên tiến đóng như GPT hay Claude nhưng với chi phí thấp hơn. Điều này không dẫn đến cắt giảm đầu tư vào phần cứng. Ngược lại, các nhà phân tích cho rằng nó sẽ kích hoạt "Nghịch lý Jevons" trong AI: mô hình tốt hơn và rẻ hơn sẽ mở rộng ứng dụng, làm tăng tổng lượng token được xử lý và từ đó đẩy mạnh nhu cầu về năng lực tính toán. Các yếu tố chính của K3 như ngữ cảnh dài, bộ nhớ KV cache lớn và kiến trúc phức tạp thực tế làm tăng áp lực lên bộ nhớ (HBM, DDR5, SSD), năng lực suy luận và mạng lưới. Hơn nữa, sự cạnh tranh từ các mô hình mã nguồn mở mạnh mẽ như K3 có thể buộc các phòng thí nghiệm AI hàng đầu (OpenAI, Anthropic, Google) phải đẩy mạnh đầu tư vào quy mô huấn luyện và tốc độ lặp để duy trì lợi thế. Do đó, chuỗi cung ứng hạ tầng AI – từ chip bán dẫn (TSMC, NVIDIA), bộ nhớ (Samsung, Micron), mạng lưới (các nhà cung cấp module quang) đến nền tảng đám mây và trung tâm dữ liệu – được dự báo sẽ tiếp tục hưởng lợi từ làn sóng nhu cầu mới này, được thúc đẩy bởi sự phổ biến của các mô hình hiệu năng cao và việc áp dụng AI ngày càng tăng.

链捕手07/21 06:17

"Bản sao của "Khoảnh khắc DeepSeek"? Phố Wall đồng thanh: Kimi K3 ngược lại củng cố nhu cầu về sức mạnh tính toán

链捕手07/21 06:17

AI Nhận Giải Thưởng 100 Đô La Của Erdős, Vấn Đề 44 Trang Trên Tạp Chí Hàng Đầu Không Giải Được, Nó Trả Lời Bằng Một Trang Giấy

Một mô hình AI đã chứng minh một vấn đề toán học tồn tại từ thời Paul Erdős chỉ trong một trang giấy, trong khi một chứng minh trước đó trên tạp chí Annals of Mathematics năm 1991 cần tới 44 trang. Vấn đề Erdős số 119 liên quan đến đa thức có nghiệm trên đường tròn đơn vị. Năm 1991, nhà toán học József Beck đã chứng minh một phần của vấn đề trong một bài báo dài 44 trang. Phần thứ ba, với giải thưởng 100 USD từ chính Erdős, vẫn bỏ ngỏ. 35 năm sau, GPT-5.6 Sol, với sự cộng tác của nhà toán học Korsky, đã đưa ra chứng minh cho phần này chỉ trong một trang, sử dụng các kỹ thuật phân tích điều hòa cơ bản. Thomas Bloom, người quản lý trang web erdosproblems.com, đánh giá cao kết quả này. Ông chỉ ra rằng chứng minh của AI không sử dụng công cụ mới mà tìm ra một cách tiếp cận đơn giản hơn mà con người đã bỏ qua, có lẽ do trực giác thường dẫn họ đi theo hướng phức tạp hơn. Bloom từng chỉ trích một tuyên bố trước đó của OpenAI khi họ nói rằng AI "giải quyết" các vấn đề nhưng thực chất chỉ tìm thấy lời giải có sẵn trong tài liệu. Tuy nhiên, lần này ông công nhận đây là một chứng minh thực sự, sáng tạo và chính xác. Sự kiện này làm dấy lên tranh luận về khả năng của AI trong nghiên cứu toán học. Một số cho rằng mô hình chỉ là bộ tạo token tĩnh và đã chạm trần. Số khác, dựa trên các cải thiện trong bài kiểm tra ARC (đo lường trí thông minh linh hoạt), tin rằng AI đang phát triển khả năng lập luận thực sự. Điểm mấu chốt được nêu ra: nhiều vấn đề "khó" trong lịch sử có thể không khó về mặt lý thuyết, mà chỉ đơn giản là vượt quá giới hạn kiên nhẫn của con người trong việc thử nghiệm các hướng tiếp cận khác nhau. AI, với sự kiên trì vô hạn, có thể lấp đầy khoảng trống đó.

marsbit07/20 12:36

AI Nhận Giải Thưởng 100 Đô La Của Erdős, Vấn Đề 44 Trang Trên Tạp Chí Hàng Đầu Không Giải Được, Nó Trả Lời Bằng Một Trang Giấy

marsbit07/20 12:36

Nỗi lo bộ nhớ của mô hình lớn, giải pháp được nghĩ tới từ ổ USB

Nỗi lo về bộ nhớ của các mô hình lớn (AI) có thể tìm thấy giải pháp từ một công nghệ quen thuộc: NAND Flash trong USB. Thông thường, Flash bị coi là chậm, nhưng SanDisk và SK Hynix đang phát triển một hướng tiếp cận mới gọi là **High Bandwidth Flash (HBF)**. Ý tưởng là áp dụng kỹ thuật đóng gói tiên tiến và xếp chồng chip từ bộ nhớ HBM (High Bandwidth Memory) vào NAND Flash, biến nó thành một bộ nhớ đọc có dung lượng lớn và băng thông cao. HBF hướng đến mục tiêu đạt **dung lượng 512GB và băng thông đọc 1.6TB/s** cho một chồng chip, với lộ trình nâng lên 3.2TB/s. Điểm mấu chốt là HBF không nhằm thay thế HBM siêu nhanh. Thay vào đó, nó tìm thấy vị trí lý tưởng trong **giai đoạn suy luận (inference) của AI**. Ở giai đoạn này, các tham số mô hình đã được đào tạo xong và chủ yếu chỉ cần đọc ra, phù hợp với ưu điểm đọc nhanh và chi phí thấp của Flash. HBM vẫn đảm nhận xử lý dữ liệu nóng cần tốc độ cực cao, trong khi HBF đóng vai trò như một "bể chứa" dung lượng lớn cho các trọng số mô hình tĩnh. Cách tiếp cận phân tầng bộ nhớ này (HBM cho tốc độ, HBF cho dung lượng đọc lớn, SSD cho lưu trữ rẻ) hứa hẹn giúp giảm nghẽn cổ chai dung lượng HBM, giảm số lượng card gia tốc cần thiết, từ đó hạ chi phí và mức tiêu thụ năng lượng cho hệ thống suy luận AI. Mặc dù HBF vẫn cần vài năm nữa để hoàn thiện và triển khai, nó báo hiệu một sự điều chỉnh trong kiến trúc bộ nhớ, hướng tới các giải pháp thiết thực hơn cho bài toán mở rộng quy mô mô hình lớn.

marsbit07/20 00:21

Nỗi lo bộ nhớ của mô hình lớn, giải pháp được nghĩ tới từ ổ USB

marsbit07/20 00:21

Phiên bản ‘đầy đủ máu’ DeepSeek V4 đã lộ diện, có thể ra mắt sớm nhất vào ngày mai

DeepSeek V4 phiên bản đầy đủ (“Full Blood”) đã lộ diện và có thể được ra mắt sớm nhất vào ngày mai. Bài viết cho biết sau gần ba tháng chờ đợi, phiên bản chính thức của DeepSeek V4 (GA) sắp được phát hành, với hai biến thể: V4 Flash và V4 Pro. Hiện một số người dùng đã có quyền truy cập thử nghiệm. Một mẹo kiểm tra là xem lập luận (CoT) của mô hình bắt đầu bằng “I’m” thay vì “Let me” như phiên bản cũ. Theo đánh giá ban đầu từ các nhà phát triển, hiệu năng tổng thể của V4 tiếp cận mức Claude Opus 4.8, khả năng lập trình ngang ngửa GPT-5.6 Sol, và kỹ năng Agent, tạo 3D/SVG được cải thiện rõ rệt. Tuy nhiên, nó vẫn có thể không vượt mặt Kimi K3 mới ra mắt. Điểm đáng chú ý là chiến lược định giá. DeepSeek lần đầu giới thiệu cơ chế tính phí theo giờ cao điểm/thấp điểm. Cụ thể, V4 Pro có giá 0.87 USD cho triệu token xuất (cao điểm: 1.74 USD), còn V4 Flash chỉ 0.28 USD (cao điểm: 0.56 USD). Dù có tăng giá so với trước, mức giá này vẫn cạnh tranh mạnh so với các đối thủ như Fable 5 (50 USD/triệu token xuất). Như vậy, DeepSeek V4 có thể không phải là mô hình mạnh nhất mọi mặt, nhưng tiếp tục duy trì chiến lược “kẻ hủy diệt giá” bằng cách cung cấp hiệu năng cao với mức giá thấp đáng kể, tạo ra một cú hích lớn trong cộng đồng AI.

marsbit07/19 05:33

Phiên bản ‘đầy đủ máu’ DeepSeek V4 đã lộ diện, có thể ra mắt sớm nhất vào ngày mai

marsbit07/19 05:33

GPT-5.6 Lần Đầu Vượt Ngưỡng IQ 130 - Đường Ranh Giới Thiên Tài, Thông Minh Hơn 99% Nhân Loại

Hiện nay, 99% dân số toàn cầu có chỉ số IQ thấp hơn một AI. Trong bài kiểm tra IQ ngoại tuyến mới nhất của Tracking AI, nhiều phiên bản của GPT-5.6 đều đạt điểm số ấn tượng: 136 điểm. Đây là lần đầu tiên một mô hình ngôn ngữ lớn (LLM) vượt qua ngưỡng 130 điểm - "vạch xuất phát của thiên tài" trong thang đo IQ của con người, mà chỉ khoảng 1% dân số đạt được. Điều này có nghĩa là GPT-5.6 được đánh giá là thông minh hơn 99% nhân loại. Điểm số này có được từ bộ đề "ngoại tuyến" khó và chống gian lận của Tracking AI, không phải từ các bài test công khai. Trên bảng xếp hạng này, các biến thể của GPT-5.6 (bao gồm cả phiên bản thị giác) đồng loạt đạt 136 điểm, dẫn trước đối thủ gần nhất là Claude-5 Fable (130 điểm) một khoảng cách lớn. GPT-5.6 là mô hình đầu tiên phá vỡ rào cản 130 điểm sau một thời gian dài nhiều mô hình hàng đầu khác đều bị kẹt lại. Không chỉ dừng ở điểm số, khi được đưa vào thực tế công việc, GPT-5.6 thể hiện khả năng thực hành ấn tượng. Các nhà phát triển chia sẻ rằng nó có thể tạo ra một mô phỏng vật lý hoàn chỉnh, xây dựng hệ thống hỗ trợ khách hàng dựa trên RAG, hay sửa lỗi mã hiệu quả chỉ với một gợi ý đơn giản. So với một số mô hình tập trung quá mức vào độ chính xác kỹ thuật, cách tiếp cận thực tế và thiết thực của GPT-5.6 giúp hoàn thành công việc tốt hơn. Tuy nhiên, cần lưu ý rằng điểm IQ 136 này đến từ một bài kiểm tra cụ thể, tập trung vào nhận thức tiêu chuẩn hóa như nhận diện mẫu và lý luận logic. Nó không đo lường được độ tin cậy, khả năng sử dụng công cụ hay hiệu quả trong các tình huống nghề nghiệp thực tế của AI. Bài kiểm tra IQ chỉ là một lát cắt hẹp của "trí thông minh". Nhưng trải nghiệm thực tế từ người dùng cho thấy GPT-5.6 dường như đang kết hợp ngày càng tốt hơn giữa "biết làm bài kiểm tra" và "biết làm việc thực tế". Thách thức thực sự nằm ở việc giải quyết các vấn đề mới, chưa từng gặp, và không có đáp án để sao chép.

marsbit07/16 08:24

GPT-5.6 Lần Đầu Vượt Ngưỡng IQ 130 - Đường Ranh Giới Thiên Tài, Thông Minh Hơn 99% Nhân Loại

marsbit07/16 08:24

# Bài viết Liên quan LLM

Claude Code Xoá Kịch Liệt 80% Prompt, Opus 5 Lại Bổ Sung Ngược Trở Lại

Một phần ba arXiv bị 'thất thủ', 65% bài báo khoa học máy tính bị đánh giá 'có mùi AI', toán học chỉ 0.7%

Giá trị gia tăng từ 88 tỷ lên 680 tỷ chỉ sau 2 tháng! OpenRouter, trạm trung chuyển AI lớn nhất sắp được mua lại

Claude Opus 5 rò rỉ, đợt thử nghiệm đầu tiên từ cư dân mạng đã đến

Khi Sự Đồng Thuận Diễn Ra Ngày Càng Nhanh, Các Nhà Đầu Tư Trẻ Đang Đánh Cược Vào Điều Gì?

"Bản sao của "Khoảnh khắc DeepSeek"? Phố Wall đồng thanh: Kimi K3 ngược lại củng cố nhu cầu về sức mạnh tính toán

AI Nhận Giải Thưởng 100 Đô La Của Erdős, Vấn Đề 44 Trang Trên Tạp Chí Hàng Đầu Không Giải Được, Nó Trả Lời Bằng Một Trang Giấy

Nỗi lo bộ nhớ của mô hình lớn, giải pháp được nghĩ tới từ ổ USB

Phiên bản ‘đầy đủ máu’ DeepSeek V4 đã lộ diện, có thể ra mắt sớm nhất vào ngày mai

GPT-5.6 Lần Đầu Vượt Ngưỡng IQ 130 - Đường Ranh Giới Thiên Tài, Thông Minh Hơn 99% Nhân Loại

Danh mục Phổ biến

Thẻ Nổi bật