# Bài viết Liên quan Chuẩn mực

Trung tâm Tin tức HTX cung cấp những bài viết mới nhất và phân tích chuyên sâu về "Chuẩn mực", bao gồm xu hướng thị trường, cập nhật dự án, phát triển công nghệ và chính sách quản lý trong ngành tiền kỹ thuật số.

TRON được đưa vào Chỉ số Tài sản Kỹ thuật số S&P Pantera khi việc đánh giá chuẩn thể chế mở rộng sang các mạng blockchain

Geneva, Thụy Sĩ, ngày 23 tháng 7 năm 2026 — TRON DAO hoan nghênh việc ra mắt Chỉ số Tài sản Kỹ thuật số S&P Pantera và việc mạng lưới blockchain TRON được đưa vào danh mục các giao thức hàng đầu trong chỉ số chuẩn này. Chỉ số do S&P Dow Jones Indices và Pantera Capital phát triển áp dụng phương pháp luận tập trung vào tính hữu ích của giao thức, thanh khoản trên chuỗi và hoạt động mạng. Sự kiện đánh dấu một bước tiến rõ rệt trong việc áp dụng các khuôn khổ thị trường tài chính truyền thống vào tài sản kỹ thuật số. Việc TRON được đưa vào chỉ số diễn ra khi mạng lưới này không ngừng mở rộng quy mô và vai trò trong hệ sinh thái tài sản số. Hiện tại, blockchain TRON hỗ trợ hơn 394 triệu tài khoản người dùng và hơn 90 tỷ USD USDT, trở thành một trong những mạng lưới giải quyết thanh toán chính cho hoạt động stablecoin toàn cầu. TRON cũng dẫn đầu về khối lượng chuyển USDT tính đến nay, với khoảng 4,5 nghìn tỷ USD. Các tích hợp gần đây với Anchorage Digital, Securitize và Bitnomial đã mở rộng hơn nữa khả năng tiếp cận thể chế đối với hệ sinh thái TRON. Ông Justin Sun, Nhà sáng lập TRON, nhấn mạnh tầm quan trọng của các chuẩn mực minh bạch khi tài sản kỹ thuật số trở thành một phần của thị trường tài chính chính thống. Chỉ số mới này thể hiện bước tiến tiếp theo trong việc áp dụng các khuôn khổ thị trường tài chính truyền thống, cung cấp cho người tham gia một cách tiếp cận chuẩn hóa để đánh giá giá trị thực tế và mức độ ứng dụng của mạng lưới blockchain.

cointelegraphHôm qua 09:39

TRON được đưa vào Chỉ số Tài sản Kỹ thuật số S&P Pantera khi việc đánh giá chuẩn thể chế mở rộng sang các mạng blockchain

cointelegraphHôm qua 09:39

Claude Opus 5 rò rỉ, đợt thử nghiệm đầu tiên từ cư dân mạng đã đến

Claude Opus 5 đã bị rò rỉ sớm và được cộng đồng mạng nhiệt tình thử nghiệm. Các bản demo cho thấy khả năng tạo 3D, UI và đồ họa ấn tượng của mô hình này. Người dùng @chetaslua chia sẻ cảnh tượng một cỗ máy bắn đá 3D chi tiết với thông số kỹ thuật, cùng các giao diện thời tiết có ánh sáng thay đổi và cảnh bếp sống động. Nhiều người dùng khác cũng đăng tải kết quả thử nghiệm, từ việc tái tạo Minecraft với hiệu ứng vật lý và ánh sáng chân thực đến tạo hình ảnh SVG tay cầm PS5 chất lượng cao. Một số so sánh trực tiếp cho thấy Opus 5 tạo ra nhiều chi tiết hơn so với Fable 5 ở cùng một cảnh. Dấu vết rò rỉ của Opus 5 bắt đầu xuất hiện từ ngày 9/7 với một mô hình bí ẩn tên "Honeycomb EAP" trên Cursor, sau đó là các mục trong Google Vertex AI. Đến giữa tháng 7, nhiều báo cáo cho biết một số người dùng đã có thể truy cập Opus 5 (dù giao diện vẫn hiển thị 4.8), và tên "claude-opus-5-thinking-high" đã xuất hiện trong thông báo lỗi của Cursor. Cộng đồng đang bàn tán về việc liệu Opus 5 có trở thành giải pháp thay thế rẻ hơn cho Fable 5 hay không, vì giá của Opus chỉ bằng một nửa. Tuy nhiên, cũng có lo ngại rằng Opus 5 có thể tiêu thụ token nhiều hơn đáng kể, làm giảm lợi thế về chi phí. Vẫn chưa có điểm chuẩn chính thức nào được công bố. Dự kiến Opus 5 sẽ sớm được phát hành chính thức, và câu trả lời cuối cùng sẽ sớm được hé lộ.

marsbit07/24 07:55

Claude Opus 5 rò rỉ, đợt thử nghiệm đầu tiên từ cư dân mạng đã đến

marsbit07/24 07:55

Mô Hình Lớn Không Còn “Nói Suông” Khi Chấm Điểm Ảnh, Sử Dụng “Bằng Chứng Hình Ảnh” Như Biểu Đồ Cấu Trúc, Phổ Tần Để Chấm Điểm

Các mô hình đa phương thức lớn (MLLM) thường gặp khó khăn khi đánh giá chính xác chất lượng hình ảnh, do phụ thuộc vào đặc trưng thị giác thiên về ngữ nghĩa và kém nhạy với các suy giảm cấp thấp như nhiễu, mờ hay nén. Để giải quyết vấn đề này, nhóm nghiên cứu từ Đại học Công nghệ Tây Bắc và Đại học Khoa học và Công nghệ Hồng Kông đã đề xuất **IQA-T1**, một framework mới giúp MLLM đánh giá chất lượng hình ảnh dựa trên bằng chứng thị giác có cấu trúc. Thay vì chỉ dựa vào "cảm giác", IQA-T1 được trang bị một **bộ công cụ phân tích** chuyên dụng, có thể tự động gọi để tạo ra các **bằng chứng hình ảnh** như bản đồ nhiễu dư, phổ Fourier, hoặc bản đồ nhất quán định hướng gradient. Những bằng chứng này làm lộ rõ các khiếm khuyết, trở thành cơ sở minh bạch cho quá trình suy luận từng bước của mô hình. Phương pháp được huấn luyện qua hai giai đoạn: **Vi chỉnh có giám sát (SFT)** để học cách sử dụng công cụ và liên kết bằng chứng với đánh giá, sau đó là **Học tăng cường (RL)** với hàm thưởng tối ưu hóa chiến lược gọi công cụ, khuyến khích sử dụng ít nhưng đúng công cụ. Nhóm cũng xây dựng bộ dữ liệu **Q-Tool** chứa 11k chuỗi suy luận đa phương thức kết hợp bằng chứng hình ảnh và phân tích văn bản. Kết quả thử nghiệm trên 7 bộ dữ liệu chuẩn cho thấy IQA-T1 đạt hiệu suất tổng hợp tốt nhất (SOTA) với PLCC/SRCC trung bình lần lượt là 0.795/0.784, vượt trội cả trên dữ liệu méo mó tổng hợp và suy giảm thuật toán. Quan trọng hơn, phương pháp này cung cấp quá trình đánh giá **có thể giải thích và truy nguyên được**, mở ra hướng tiếp cận mới cho việc xây dựng các hệ thống đa phương thức đáng tin cậy.

marsbit07/20 07:49

Mô Hình Lớn Không Còn “Nói Suông” Khi Chấm Điểm Ảnh, Sử Dụng “Bằng Chứng Hình Ảnh” Như Biểu Đồ Cấu Trúc, Phổ Tần Để Chấm Điểm

marsbit07/20 07:49

Trò lừa đảo khổng lồ, "Phòng thí nghiệm bí ẩn" lọt top toàn cầu chỉ sau một đêm, hóa ra lại là giả mạo

Ngày 18/7, một phòng thí nghiệm AI Trung Quốc bí ẩn tên "Basalt Labs" bất ngờ công bố mô hình Monolith-1.0, tuyên bố đạt top 1 thế giới với các chỉ số khủng: 1.6 nghìn tỷ tham số, điểm số 99.44% trên HLE, GPQA Diamond 95.9%, MMLU-Pro 96.2%, AIME 2025 trên 90%, và cửa sổ ngữ cảnh 1 triệu token. Thông tin này gây chấn động, nhưng chỉ vài giờ sau, sự thật được phơi bày: tất cả chỉ là một "thí nghiệm xã hội" được dàn dựng. Mô hình 1.6T thực chất là bản sao chép trọng số của Qwen2.5-7B-Instruct, được "thổi phồng" lên 3TB. Demo trên web thực chất là gọi API của DeepSeek và bị ép phải tự xưng là Monolith-1.0. Các điểm benchmark cao ngất là kết quả của việc "học tủ" đáp án từ bộ dữ liệu công khai. Người đứng sau, Max Scherf, trong một video đã thừa nhận toàn bộ chi tiết từ thông số, đội ngũ đến bài báo học thuật đều là giả mạo. Anh ta đã tạo một trang web chuyên nghiệp, viết một bài báo đầy thuật ngữ kỹ thuật, và tung tin lên mạng xã hội. Kết quả, tin tức lan truyền nhanh chóng, thu hút sự chú ý của nhiều chuyên gia trong ngành, với khoảng 150.000 lượt xem trước khi bị vạch trần. Mục đích của Scherf là phơi bày những điểm yếu trong ngành AI: văn hóa chạy đua điểm số mù quáng, sùng bái tham số khổng lồ, và sự thiếu vắng kiểm chứng thực chất. Điều trớ trêu là, để mô phỏng một "mô hình số 1 thế giới", kẻ lừa đảo lại phải dựa vào nền tảng thực sự mạnh mẽ của AI Trung Quốc - Qwen và DeepSeek - để đánh lừa người dùng.

marsbit07/20 02:51

Trò lừa đảo khổng lồ, "Phòng thí nghiệm bí ẩn" lọt top toàn cầu chỉ sau một đêm, hóa ra lại là giả mạo

marsbit07/20 02:51

Phiên bản ‘đầy đủ máu’ DeepSeek V4 đã lộ diện, có thể ra mắt sớm nhất vào ngày mai

DeepSeek V4 phiên bản đầy đủ (“Full Blood”) đã lộ diện và có thể được ra mắt sớm nhất vào ngày mai. Bài viết cho biết sau gần ba tháng chờ đợi, phiên bản chính thức của DeepSeek V4 (GA) sắp được phát hành, với hai biến thể: V4 Flash và V4 Pro. Hiện một số người dùng đã có quyền truy cập thử nghiệm. Một mẹo kiểm tra là xem lập luận (CoT) của mô hình bắt đầu bằng “I’m” thay vì “Let me” như phiên bản cũ. Theo đánh giá ban đầu từ các nhà phát triển, hiệu năng tổng thể của V4 tiếp cận mức Claude Opus 4.8, khả năng lập trình ngang ngửa GPT-5.6 Sol, và kỹ năng Agent, tạo 3D/SVG được cải thiện rõ rệt. Tuy nhiên, nó vẫn có thể không vượt mặt Kimi K3 mới ra mắt. Điểm đáng chú ý là chiến lược định giá. DeepSeek lần đầu giới thiệu cơ chế tính phí theo giờ cao điểm/thấp điểm. Cụ thể, V4 Pro có giá 0.87 USD cho triệu token xuất (cao điểm: 1.74 USD), còn V4 Flash chỉ 0.28 USD (cao điểm: 0.56 USD). Dù có tăng giá so với trước, mức giá này vẫn cạnh tranh mạnh so với các đối thủ như Fable 5 (50 USD/triệu token xuất). Như vậy, DeepSeek V4 có thể không phải là mô hình mạnh nhất mọi mặt, nhưng tiếp tục duy trì chiến lược “kẻ hủy diệt giá” bằng cách cung cấp hiệu năng cao với mức giá thấp đáng kể, tạo ra một cú hích lớn trong cộng đồng AI.

marsbit07/19 05:33

Phiên bản ‘đầy đủ máu’ DeepSeek V4 đã lộ diện, có thể ra mắt sớm nhất vào ngày mai

marsbit07/19 05:33

GPT-5.6 Lần Đầu Vượt Ngưỡng IQ 130 - Đường Ranh Giới Thiên Tài, Thông Minh Hơn 99% Nhân Loại

Hiện nay, 99% dân số toàn cầu có chỉ số IQ thấp hơn một AI. Trong bài kiểm tra IQ ngoại tuyến mới nhất của Tracking AI, nhiều phiên bản của GPT-5.6 đều đạt điểm số ấn tượng: 136 điểm. Đây là lần đầu tiên một mô hình ngôn ngữ lớn (LLM) vượt qua ngưỡng 130 điểm - "vạch xuất phát của thiên tài" trong thang đo IQ của con người, mà chỉ khoảng 1% dân số đạt được. Điều này có nghĩa là GPT-5.6 được đánh giá là thông minh hơn 99% nhân loại. Điểm số này có được từ bộ đề "ngoại tuyến" khó và chống gian lận của Tracking AI, không phải từ các bài test công khai. Trên bảng xếp hạng này, các biến thể của GPT-5.6 (bao gồm cả phiên bản thị giác) đồng loạt đạt 136 điểm, dẫn trước đối thủ gần nhất là Claude-5 Fable (130 điểm) một khoảng cách lớn. GPT-5.6 là mô hình đầu tiên phá vỡ rào cản 130 điểm sau một thời gian dài nhiều mô hình hàng đầu khác đều bị kẹt lại. Không chỉ dừng ở điểm số, khi được đưa vào thực tế công việc, GPT-5.6 thể hiện khả năng thực hành ấn tượng. Các nhà phát triển chia sẻ rằng nó có thể tạo ra một mô phỏng vật lý hoàn chỉnh, xây dựng hệ thống hỗ trợ khách hàng dựa trên RAG, hay sửa lỗi mã hiệu quả chỉ với một gợi ý đơn giản. So với một số mô hình tập trung quá mức vào độ chính xác kỹ thuật, cách tiếp cận thực tế và thiết thực của GPT-5.6 giúp hoàn thành công việc tốt hơn. Tuy nhiên, cần lưu ý rằng điểm IQ 136 này đến từ một bài kiểm tra cụ thể, tập trung vào nhận thức tiêu chuẩn hóa như nhận diện mẫu và lý luận logic. Nó không đo lường được độ tin cậy, khả năng sử dụng công cụ hay hiệu quả trong các tình huống nghề nghiệp thực tế của AI. Bài kiểm tra IQ chỉ là một lát cắt hẹp của "trí thông minh". Nhưng trải nghiệm thực tế từ người dùng cho thấy GPT-5.6 dường như đang kết hợp ngày càng tốt hơn giữa "biết làm bài kiểm tra" và "biết làm việc thực tế". Thách thức thực sự nằm ở việc giải quyết các vấn đề mới, chưa từng gặp, và không có đáp án để sao chép.

marsbit07/16 08:24

GPT-5.6 Lần Đầu Vượt Ngưỡng IQ 130 - Đường Ranh Giới Thiên Tài, Thông Minh Hơn 99% Nhân Loại

marsbit07/16 08:24

Scaling Law có phải là một phương pháp vạn năng? Tiêu chuẩn đánh giá đầu tiên về thao tác cấu trúc tinh thể, các mô hình lớn hàng đầu đều gặp thất bại

Mô hình lớn gặp hạn chế trong các nhiệm vụ thao tác nguyên tử. Mặc dù có thể phân tích kiến thức vật liệu, chúng lại khó thao tác chính xác cấu trúc nguyên tử. Nghiên cứu chỉ ra rằng Scaling Law (Định luật Mở rộng Quy mô) có hiệu quả hạn chế trong các nhiệm vụ logic không gian, nhấn mạnh rằng AI for Science (AI cho Khoa học) cần chuyển hướng sang Action Scaling (Mở rộng Quy mô Hành động) để nâng cao khả năng của mô hình trong các thao tác nghiên cứu thực tế. AtomWorld, một tiêu chuẩn đánh giá mới trong khoa học vật liệu, kết luận rằng Scaling Law, hiệu quả trong các tác vụ hiểu văn bản và tổng hợp kiến thức, thường không đạt kỳ vọng khi áp dụng vào các nhiệm vụ thao tác nguyên tử bị ràng buộc bởi các quy luật vật lý. Tiêu chuẩn này tập trung đánh giá khả năng thao tác không gian 3D cơ bản của mô hình, như điều chỉnh vị trí nguyên tử theo chỉ dẫn. Kết quả thử nghiệm trên nhiều mô hình lớn như Claude Opus, GPT, Gemini, Qwen cho thấy việc tăng quy mô mô hình chỉ cải thiện rõ rệt các tác vụ có quy tắc rõ ràng (như thay thế, xóa, di chuyển nguyên tử). Tuy nhiên, với các tác vụ đòi hỏi hiểu biết và lập kế hoạch hình học không gian 3D phức tạp hơn (như xoay quanh một nguyên tử, xóa nguyên tử phía dưới, mở rộng siêu ô mạng), hiệu suất không ổn định và cải thiện rất ít dù mô hình có lớn hơn. Điều này cho thấy năng lực suy luận ngôn ngữ và kiến thức văn bản không tự động đồng nghĩa với khả năng hành động ở cấp độ cấu trúc nguyên tử. AtomWorld đề xuất một hướng phát triển mới: bên cạnh Language Scaling dựa trên dữ liệu văn bản, AI for Science cần chú trọng Action Scaling. Điều này bao gồm việc mở rộng quy mô dữ liệu về các hành động có thể thực thi, phân tích nguyên thủy hành động, phản hồi từ mô phỏng, xác minh ràng buộc vật lý và sửa lỗi gọi công cụ, giúp mô hình mạnh lên không chỉ trong ngôn ngữ mà còn trong các hành động nghiên cứu có thể kiểm chứng. Vấn đề này không chỉ giới hạn trong mô hình hóa vật liệu. Để AI thực sự tham gia vào nghiên cứu khoa học, nó không thể chỉ "giải thích kiến thức" mà phải học cách "thực hiện hành động" trong một quy trình bao gồm giả thuyết, thí nghiệm, công cụ và điều chỉnh.

marsbit07/15 04:01

Scaling Law có phải là một phương pháp vạn năng? Tiêu chuẩn đánh giá đầu tiên về thao tác cấu trúc tinh thể, các mô hình lớn hàng đầu đều gặp thất bại

marsbit07/15 04:01

Bảng xếp hạng AI làm việc: Năng lực kiếm tiền tự động của Claude Fable 5 gấp 2.5 lần GPT-5.5

Chỉ số Lao động Từ xa (RLI) đo lường khả năng AI tự động hoàn thành các dự án freelance thực tế. Trong đánh giá mới nhất, Claude Fable 5 dẫn đầu với tỷ lệ tự động hóa 16.1%, gấp khoảng 2.5 lần GPT-5.5 (6.3%) và gần gấp đôi Opus 4.8 (8.3%). Cả ba mô hình này đều vượt xa kỷ lục 2.5% được thiết lập 8 tháng trước, cho thấy tốc độ tiến bộ nhanh chóng. RLI bao gồm 240 dự án từ Upwork, thuộc 23 lĩnh vực như thiết kế 3D, phát triển web. Tiêu chí đánh giá là liệu sản phẩm do AI giao có được một khách hàng hợp lý chấp nhận thanh toán hay không. Sự thành công của Fable 5 được cho là nhờ cơ chế "Worker-critic Loop", nơi một Agent độc lập kiểm tra và yêu cầu sửa đổi công việc. Nghiên cứu cũng chỉ ra rằng việc sử dụng AI làm giám khảo để đánh giá kết quả là không đáng tin cậy, vì chúng thường đánh giá quá cao chất lượng và có thể bỏ qua các lỗi tinh vi, như hình ảnh 3D được làm giả. Mặc dù có bước nhảy vọt, 84% công việc freelance vẫn nằm ngoài khả năng hiện tại của AI. Tỷ lệ 16.1% cho thấy AI vẫn chưa đạt đến tiêu chuẩn chuyên nghiệp hoàn chỉnh trong nhiều tác vụ. Tuy nhiên, việc tỷ lệ tự động hóa tăng hơn 4 lần trong chưa đầy một năm là một tín hiệu đáng chú ý cho thấy khả năng thay thế lao động số từ xa của AI đang tăng tốc.

marsbit07/13 09:50

Bảng xếp hạng AI làm việc: Năng lực kiếm tiền tự động của Claude Fable 5 gấp 2.5 lần GPT-5.5

marsbit07/13 09:50

Mô hình lớn có thể viết được thuật toán tối ưu cấp công nghiệp không? MIT đề xuất FrontierOR đặt ra một kỳ thi cho AI

Trong hai năm qua, các LLM đã có bước tiến nhanh chóng trong việc chuyển đổi "ngôn ngữ tự nhiên sang mô hình toán học" và "ngôn ngữ tự nhiên sang mã trình giải". Chúng có thể đọc hiểu vấn đề, viết công thức MIP, gọi các trình giải như Gurobi, cho thấy khả năng mô hình hóa tối ưu ban đầu. Tuy nhiên, điều này vẫn chưa đủ cho các bài toán quy mô công nghiệp thực tế. Thách thức thực sự không nằm ở việc dịch các ràng buộc thành biểu thức toán học, mà là thiết kế các thuật toán có khả năng mở rộng, chính xác và hiệu quả cho các trường hợp quy mô lớn. Ngay cả khi một mô hình MIP hoàn toàn chính xác, việc sử dụng trình giải tổng quát đôi khi không đem lại giải pháp chất lượng cao trong vòng một giờ. Đó là lý do các kỹ sư vận trù học (OR) vẫn cần viết các thuật toán phân rã, sinh cột, Benders, tìm kiếm cục bộ, siêu heuristic và các thuật toán lai. Gần đây, các nhà nghiên cứu từ MIT và các tổ chức khác đã đề xuất FrontierOR: một tiêu chuẩn đánh giá LLM tập trung vào khả năng thiết kế thuật toán tối ưu quy mô lớn. Khác với các benchmark truyền thống chỉ đánh giá "khả năng mô hình hóa" hoặc "khả năng gọi trình giải", FrontierOR tập trung vào việc LLM có thể thiết kế các thuật toán có thể mở rộng, chất lượng cao và hiệu quả cho các cấu trúc vấn đề phức tạp, giống như các nhà nghiên cứu và kỹ sư OR thực thụ. FrontierOR được xây dựng từ 180 bài báo khoa học OR từ năm 1992–2025, chuyển đổi thành các nhiệm vụ tiêu chuẩn với mô tả ngôn ngữ tự nhiên, mô hình toán học, mã tham chiếu, lời giải tham chiếu và bộ kiểm tra tính khả thi. Một tập hợp con 50 nhiệm vụ "Khó" được lựa chọn, nơi Gurobi không thể chứng minh tính tối ưu trong vòng một giờ. Quy trình đánh giá hai giai đoạn: đầu tiên lọc trước trên các ví dụ nhỏ để kiểm tra tính khả thi và chất lượng cơ bản, sau đó đánh giá trên các ví dụ lớn với bốn chỉ số: Tỷ lệ thực thi, Tính khả thi, Chất lượng giải pháp và Hiệu quả Chất lượng-Thời gian (QTE). Kết quả thử nghiệm cho thấy, trong cài đặt one-shot, các mô hình tiên tiến (như GPT-5.3-Codex, Claude Opus 4.6) có tỷ lệ thực thi rất cao (~0.98) nhưng các chỉ số về tính khả thi và chất lượng (đặc biệt là QTE) thấp hơn đáng kể, cho thấy viết mã chạy được không đồng nghĩa với việc giải quyết hiệu quả bài toán. Tập con "Khó" làm nổi bật sự khác biệt về năng lực thuật toán thực sự giữa các mô hình. Phân tích cho thấy các mô hình mạnh hơn có xu hướng sử dụng đa dạng phương pháp hơn (phân rã, heuristic, tìm kiếm cục bộ, phương pháp lai) thay vì chỉ gọi trình giải thuần túy, và điều này tương quan với hiệu suất QTE tốt hơn. Các lỗi của mô hình mạnh cũng chuyển từ sai sót trong mô hình hóa cơ bản sang các vấn đề về chiều sâu và chất lượng của chiến lược tìm kiếm. Đặc biệt, khi áp dụng các khuôn khổ tự tiến hóa trong quá trình kiểm tra (như CORAL, OpenEvolve), hiệu suất của các chương trình do LLM tạo ra được cải thiện đáng kể. QTE trên các nhiệm vụ khó nhất có thể tăng từ 0.15 (one-shot) lên 0.50, cho thấy tiềm năng lớn của việc LLM lặp lại và cải thiện thiết kế thuật toán dựa trên phản hồi. FrontierOR chỉ ra rằng tương lai của LLM trong OR không chỉ dừng lại ở việc tạo mã, mà hướng tới vai trò của một tác nhân thiết kế thuật toán thông minh, có thể hiểu cấu trúc vấn đề, lựa chọn và kết hợp các kỹ thuật, đồng thời tự cải tiến thông qua vòng lặp thử nghiệm và phản hồi, mở ra triển vọng cho các hệ thống hỗ trợ ra quyết định công nghiệp tự động.

marsbit07/10 09:12

Mô hình lớn có thể viết được thuật toán tối ưu cấp công nghiệp không? MIT đề xuất FrontierOR đặt ra một kỳ thi cho AI

marsbit07/10 09:12

Tin Tức Nóng: Elon Musk Đưa Ra Grok 4.5 Mạnh Nhất, Giá Đỉnh Cấp Opus Giảm Sâu Như "Gãy Xương"

SpaceXAI vừa ra mắt Grok 4.5, mô hình mạnh nhất của họ, hợp tác với Cursor. Nó được huấn luyện trên hàng chục nghìn GPU GB300 với dữ liệu lập trình chất lượng cao từ Cursor, tập trung vào "độ thông minh trên mỗi token". **Hiệu suất nổi bật:** - SWE Bench Pro: 64.7%, vượt Opus 4.7 (64.3%). - Terminal Bench 2.1: 83.3%, gần bằng GPT-5.5. - DeepSWE 1.0: 62.0%, vượt Opus 4.8. Xếp hạng 4 trên AAAI, đứng đầu về luật. **Ưu điểm chính: Tốc độ & Hiệu quả chi phí** - Tốc độ suy luận: 80 token/giây. - Hiệu quả: Giải quyết nhiệm vụ với số token ít hơn 4.2 lần so với Opus 4.8. - Giá cả: Nhập $2/triệu token, xuất $6/triệu token - rất cạnh tranh. **Thử nghiệm thực tế:** Grok 4.5 có thể tạo ứng dụng web, trò chơi 3D (như mô phỏng hệ mặt trời) chỉ từ mô tả ngắn, mặc dù một số bài kiểm tra cho kết quả chưa nhất quán. Elon Musk tuyên bố Grok 4.5 tương đương Opus 4.7 nhưng nhanh hơn nhiều, và hứa hẹn một bản nâng cấp đột phá vào tháng tới. Mục tiêu là cung cấp trí tuệ AI nhanh, rẻ và hiệu quả.

marsbit07/09 03:14

Tin Tức Nóng: Elon Musk Đưa Ra Grok 4.5 Mạnh Nhất, Giá Đỉnh Cấp Opus Giảm Sâu Như "Gãy Xương"

marsbit07/09 03:14

Danh mục Phổ biến

Project Updates2,112 tin tức

# Bài viết Liên quan Chuẩn mực

TRON được đưa vào Chỉ số Tài sản Kỹ thuật số S&P Pantera khi việc đánh giá chuẩn thể chế mở rộng sang các mạng blockchain

Claude Opus 5 rò rỉ, đợt thử nghiệm đầu tiên từ cư dân mạng đã đến

Mô Hình Lớn Không Còn “Nói Suông” Khi Chấm Điểm Ảnh, Sử Dụng “Bằng Chứng Hình Ảnh” Như Biểu Đồ Cấu Trúc, Phổ Tần Để Chấm Điểm

Trò lừa đảo khổng lồ, "Phòng thí nghiệm bí ẩn" lọt top toàn cầu chỉ sau một đêm, hóa ra lại là giả mạo

Phiên bản ‘đầy đủ máu’ DeepSeek V4 đã lộ diện, có thể ra mắt sớm nhất vào ngày mai

GPT-5.6 Lần Đầu Vượt Ngưỡng IQ 130 - Đường Ranh Giới Thiên Tài, Thông Minh Hơn 99% Nhân Loại

Scaling Law có phải là một phương pháp vạn năng? Tiêu chuẩn đánh giá đầu tiên về thao tác cấu trúc tinh thể, các mô hình lớn hàng đầu đều gặp thất bại

Bảng xếp hạng AI làm việc: Năng lực kiếm tiền tự động của Claude Fable 5 gấp 2.5 lần GPT-5.5

Mô hình lớn có thể viết được thuật toán tối ưu cấp công nghiệp không? MIT đề xuất FrontierOR đặt ra một kỳ thi cho AI

Tin Tức Nóng: Elon Musk Đưa Ra Grok 4.5 Mạnh Nhất, Giá Đỉnh Cấp Opus Giảm Sâu Như "Gãy Xương"

Danh mục Phổ biến

Thẻ Nổi bật