Nhà đạt giải Turing Sutton và tác phẩm mới: Sử dụng một công thức từ năm 1967 để giải quyết một khuyết điểm lớn trong học tăng cường dạng luồng

marsbitXuất bản vào 2026-05-10Cập nhật gần nhất vào 2026-05-10

Tóm tắt

Vào cuối năm 2024, một nhóm nghiên cứu tại Đại học Alberta đã chỉ ra một nghịch lý: học tăng cường (RL) vốn được thiết kế để học “trên đường chạy” (streaming), lại gần như không thể hoạt động trong môi trường deep learning nếu không có bộ đệm dữ liệu (replay buffer) hoặc batch size lớn. Hiện tượng này được gọi là “stream barrier”. Một năm rưỡi sau, nghiên cứu mới với sự tham gia của Richard Sutton (Giải Turing 2024) đã đưa ra giải pháp cốt lõi: nguyên nhân không phải do thiếu dữ liệu, mà do **đơn vị của learning rate (bước học) đã bị chọn sai**. Các phương pháp truyền thống quy định tham số thay đổi bao nhiêu, dẫn đến đầu ra hàm mục tiêu thay đổi không kiểm soát, gây ra hiện tượng dao động mạnh và sụp đổ khi học online (batch size=1). Nghiên cứu đề xuất **“Cập nhật Có Chủ Đích” (Intentional Updates)**, lấy ý tưởng từ thuật toán NLMS năm 1967. Thay vì định trước kích thước bước cho tham số, họ xác định trước **lượng thay đổi mong muốn ở đầu ra** (ví dụ: giảm 5% sai số dự đoán giá trị), rồi tính ngược ra learning rate phù hợp. Cách tiếp cận này đảm bảo mỗi bước cập nhật tác động một cách nhất quán lên hàm mục tiêu. Phương pháp được áp dụng cho học giá trị (Intentional TD) và học chính sách (Intentional Policy Gradient), kết hợp với RMSProp và eligibility traces. Kết quả thử nghiệm trên các nhiệm vụ MuJoCo và Atari cho thấy, trong chế độ streaming, các thuật toán mới đạt hiệu suất ngang bằng với các phương pháp tiêu chuẩn như SAC hay DQN (vốn dùng replay buffer lớn), trong kh...

Cuối năm 2024, một bài báo có tiêu đề "Học tăng cường sâu dạng luồng cuối cùng đã chạy thông suốt" (arXiv:2410.14606) đã gây ra cuộc thảo luận sôi nổi trong giới học thuật. Tác giả đến từ nhóm Mahmood tại Đại học Alberta, họ đã dành nhiều trang để mô tả một thực tế đáng ngượng: Học tăng cường vốn là một phương pháp "học trong khi làm", nhưng trong thời đại mạng nơ-ron sâu, nó hầu như không thể làm được điều đó. Chỉ cần loại bỏ bộ đệm phát lại, chỉ cần đặt kích thước lô là 1, quá trình huấn luyện sẽ sụp đổ. Họ gọi đây là "rào cản luồng" (stream barrier).

Thuật toán StreamX được đề xuất trong bài báo đó, dựa vào các siêu tham số được điều chỉnh tinh vi, khởi tạo thưa thớt và các kỹ thuật ổn định hóa khác nhau, đã may mắn vượt qua bức tường này.

Tuy nhiên, chưa đầy một năm rưỡi sau, một thành viên của cùng nhóm nghiên cứu đó, cùng với các cộng tác viên từ Viện Openmind, đã đưa ra một câu trả lời hoàn toàn khác: Nguồn gốc của rào cản luồng không phải là "dữ liệu không đủ nhiều", mà là "bước học đã chọn sai đơn vị".

Tiêu đề bài báo: Intentional Updates for Streaming Reinforcement Learning

Địa chỉ bài báo: https://arxiv.org/pdf/2604.19033v1

Kho mã nguồn: https://github.com/sharifnassab/Intentional_RL

Một lần đạp ga, tạo ra hố lớn thế nào

Hãy tưởng tượng bạn đang học lái xe và đỗ xe. Người hướng dẫn nói với bạn mỗi lần "đạp ga 0.1 giây". Vấn đề là, cùng đạp ga 0.1 giây, lên dốc, xuống dốc, không tải, đầy tải, quãng đường xe tiến lên có thể khác nhau một trời một vực. Đôi khi chỉ thiếu một centimet là đỗ vừa khít, đôi khi thiếu 30 centimet và đâm thẳng vào tường.

Bước học (learning rate) truyền thống trong học dựa trên gradient, làm chính xác điều này: nó quy định tham số di chuyển bao nhiêu mỗi lần, nhưng không kiểm soát được đầu ra của hàm số thực sự thay đổi bao nhiêu. Trong huấn luyện theo lô, lỗi trung bình từ hàng trăm, hàng nghìn mẫu làm loãng các trường hợp cực đoan, vấn đề không quá rõ ràng. Nhưng trong môi trường "luồng", mỗi bước chỉ có một mẫu, không có sự trung bình nào. Một khi hướng gradient không ổn định, biên độ cập nhật sẽ lúc lớn lúc nhỏ — hôm nay tiến 30 centimet, ngày mai lùi 50 centimet, quá trình học sụp đổ trong dao động dữ dội.

Hiện tượng "vượt quá và không đủ" (overshooting and undershooting) này đặc biệt nghiêm trọng trong học tăng cường, vì gradient ở mỗi bước thời gian không chỉ khác nhau về độ lớn mà hướng cũng thay đổi cực nhanh.

Định nghĩa lại "một bước nên làm bao nhiêu"

Arsalan Sharifnassab từ Viện Openmind cùng Mohamed Elsayed, A. Rupam Mahmood và Richard Sutton từ Đại học Alberta, trong bài báo gần đây, đã đề xuất một giải pháp suy nghĩ từ một góc độ khác: Thay vì chỉ định tham số di chuyển bao nhiêu, hãy trực tiếp chỉ định đầu ra hàm số nên thay đổi bao nhiêu.

Ý tưởng này không phải xuất hiện từ hư không. Năm 1967, học giả Nhật Bản Nagumo và Noda trong bài báo "A learning method for system identification" đã đề xuất thuật toán "Bình phương sai số trung bình tối thiểu chuẩn hóa" (NLMS) trong lĩnh vực lọc thích ứng; về bản chất cũng là sử dụng sự thay đổi đầu ra mong muốn để suy ngược bước học, chứ không phải ngược lại. Chỉ có điều thuật toán đó chỉ áp dụng được cho các tình huống tuyến tính đơn giản.

Các nhà nghiên cứu đã mở rộng ý tưởng này cho học tăng cường sâu. Họ gọi nó là "Cập nhật có chủ đích" (Intentional Updates): Trước mỗi lần cập nhật, đầu tiên xác định rõ "tôi hy vọng bước này đạt được điều gì", sau đó suy ra nên sử dụng bước học lớn bao nhiêu.

Đối với học giá trị (tức dự đoán phần thưởng tương lai), chủ đích họ định nghĩa là: Sau mỗi lần cập nhật, lỗi dự đoán giá trị của trạng thái hiện tại nên thu nhỏ một tỷ lệ cố định — ví dụ thu nhỏ 5%, không nhiều cũng không ít. Đối với học chính sách (tức tối ưu hóa hành vi quyết định), chủ đích họ định nghĩa là: Xác suất lựa chọn hành động hiện tại, mỗi bước chỉ cho phép thay đổi một lượng "vừa phải".

Dùng phép ẩn dụ lái xe: Điều này giống như tài xế trước mỗi thao tác quyết định trước "tôi muốn xe tiến lên 20 centimet", sau đó tự động tính toán nên đạp ga sâu bao nhiêu dựa trên tình trạng đường (độ dốc, tải trọng), thay vì mỗi lần đều đạp cùng một độ sâu và phó mặc cho số phận.

Nhà đạt giải Turing và mảnh ghép của ông

Một trong những tác giả của bài báo, là Richard S. Sutton — người đạt giải Turing năm 2024, được mệnh danh rộng rãi là "cha đẻ của học tăng cường hiện đại".

Vị thế của Sutton trong giới học thuật có lẽ tương đương với Feynman trong vật lý: Ông không chỉ đề xuất hai khuôn khổ nền tảng của học tăng cường hiện đại là Học sai phân thời gian (TD learning) và Gradient chính sách (policy gradient), mà còn đồng tác giả với Andrew Barto cuốn sách giáo khoa có thẩm quyền nhất trong lĩnh vực này "Reinforcement Learning: An Introduction" (hiện đã xuất bản đến ấn bản thứ hai, có thể đọc trực tuyến miễn phí). Ông và Barto đã cùng chia sẻ giải Turing năm 2024, lời bình của giải thưởng là "đặt nền móng khái niệm và thuật toán cho học tăng cường".

Sau khi nhận giải, Sutton không chọn nghỉ hưu, mà đầu tư tiền thưởng vào Viện Openmind do ông sáng lập, chuyên tài trợ cho những nhà nghiên cứu trẻ sẵn sàng khám phá các vấn đề cơ bản trong "môi trường không bị áp lực thương mại". Bài báo mới này, chính là xuất phát từ tổ chức phi lợi nhuận này.

Còn tác giả chính Sharifnassab, trước đó vừa công bố tại ICML 2025 khung MetaOptimize, nghiên cứu cách tự động điều chỉnh tốc độ học trực tuyến. Hai chủ đề có sự tập trung rất trùng khớp: Làm thế nào để bản thân bước học trở nên thông minh hơn.

Chi tiết thuật toán: Đơn giản hơn tưởng tượng

Việc suy luận toán học của "Cập nhật có chủ đích" không phức tạp, công thức cốt lõi của nó có thể mô tả trong một câu: Bước học bằng "lượng thay đổi đầu ra mong muốn" chia cho "ảnh hưởng thực tế của hướng gradient lên đầu ra".

Trong học giá trị, "ảnh hưởng thực tế" này là chuẩn (norm) của vector gradient (tương đương với đo độ "dốc" của vùng tham số hiện tại): Càng dốc thì bước học càng nhỏ, càng bằng phẳng thì bước học càng lớn, nhờ đó đảm bảo mỗi lần cập nhật tác động nhất quán lên hàm giá trị.

Trong học chính sách, "lượng thay đổi mong muốn" được định nghĩa tỷ lệ với hàm lợi thế: Hành động hiện tại tốt hơn mức trung bình bao nhiêu, chính sách sẽ di chuyển về hướng đó bấy nhiêu — thông qua một trung bình động để chuẩn hóa cấp độ, đảm bảo về lâu dài biên độ thay đổi chính sách ổn định trong một phạm vi có thể giải thích được.

Các nhà nghiên cứu còn kết hợp ý tưởng cốt lõi này với hai thực hành kỹ thuật: Thu nhỏ theo đường chéo kiểu RMSProp (xử lý sự khác biệt cấp độ giữa các chiều tham số) và vết đủ tư cách (eligibility traces, giúp tín hiệu phần thưởng lan truyền về các bước thời gian trước đó).

Cuối cùng hình thành ba thuật toán hoàn chỉnh: Intentional TD (λ) dùng cho dự đoán giá trị, Intentional Q (λ) dùng cho điều khiển hành động rời rạc, và Intentional Policy Gradient dùng cho điều khiển liên tục.

Kết quả thí nghiệm: Không cần GPU vẫn ngang bằng SAC

Bài báo đánh giá phương pháp này trên nhiều chuẩn tiêu chuẩn, kết quả gây ấn tượng mạnh.

Trên nhiệm vụ điều khiển liên tục MuJoCo (bao gồm các robot mô phỏng phức tạp như Ant, Humanoid, HalfCheetah), phương pháp mới Intentional AC trong thiết lập luồng (kích thước lô = 1, không có bộ đệm phát lại) có hiệu suất cuối cùng, nhiều lần tiệm cận hoặc thậm chí ngang bằng SAC — một thuật toán sử dụng bộ đệm phát lại lớn và gần như là tiêu chuẩn vàng hiện tại cho nhiệm vụ điều khiển liên tục. Về lượng tính toán, số phép toán dấu phẩy động cần thiết cho mỗi lần cập nhật Intentional AC, chỉ bằng khoảng 1/140 một lần cập nhật SAC.

Trên các trò chơi hành động rời rạc Atari và MinAtar, Intentional Q-learning cũng có biểu hiện tương đương với DQN sử dụng bộ đệm phát lại, và chạy thông suốt tất cả nhiệm vụ với cùng một bộ siêu tham số, không cần điều chỉnh tham số cho từng cái.

Các nhà nghiên cứu còn chuyên kiểm tra xem "chủ đích" có thực sự được thực hiện không: Họ đo tỷ lệ giữa lượng cập nhật thực tế và lượng cập nhật dự kiến. Trong thiết lập đơn giản vô hiệu hóa vết đủ tư cách, độ lệch chuẩn của tỷ lệ này chỉ từ 0.016 đến 0.029, phân vị 99 đều trong vòng 1.07; có nghĩa là trong hầu hết thời gian, cập nhật thực sự đã làm được "nói làm bao nhiêu thì làm bấy nhiêu".

Ngoài ra, một nhóm thí nghiệm loại bỏ (ablation) cho thấy, sau khi loại bỏ chuẩn hóa RMSProp hoặc thành phần σ, hiệu suất có giảm nhưng vẫn có sức cạnh tranh, và bản thân "tỉ lệ theo chủ đích" này là đóng góp chính, các thành phần khác đều là hỗ trợ.

Vẫn còn vấn đề

Khung "Cập nhật có chủ đích" cũng thể hiện ưu thế rõ ràng về tính mạnh mẽ (robustness). Khi các nhà nghiên cứu lần lượt loại bỏ các kỹ thuật hỗ trợ ổn định hóa mà phương pháp StreamX phụ thuộc vào (khởi tạo thưa, tỉ lệ phần thưởng, chuẩn hóa đầu vào, LayerNorm), sự suy giảm hiệu suất của Intentional AC rõ ràng ít hơn so với StreamAC nguyên bản, cho thấy tỉ lệ theo chủ đích đã từ gốc rễ giảm sự phụ thuộc vào các "chiếc nạng" bên ngoài.

Nhưng bài báo cũng thẳng thắn chỉ ra một vấn đề chưa được giải quyết hoàn toàn: Trong học chính sách, bước học phụ thuộc vào hành động được lấy mẫu hiện tại, điều này sẽ khiến các hành động khác nhau được ngầm gán những "trọng số" khác nhau, có thể làm thay đổi hướng kỳ vọng của gradient chính sách. Trong nhiệm vụ Humanoid và HumanoidStandup, bằng cách đo độ tương đồng cosin của hướng cập nhật kỳ vọng, các nhà nghiên cứu thấy sự lệch này ở giai đoạn học then chốt tiệm cận 0.96 (hầu như không ảnh hưởng); nhưng trong Ant-v4, mức độ thẳng hàng giảm xuống trung vị 0.63, cho thấy vấn đề không phải lúc nào cũng có thể bỏ qua.

Tác giả chỉ ra rằng, nghiên cứu tương lai nên tìm kiếm chiến lược chọn bước học không phụ thuộc vào hành động, để "chủ đích" về mặt kỳ vọng cũng giữ được không thiên lệch. Đây là bài tập rõ ràng để lại cho những người tiếp bước theo hướng này.

Kết luận: Để AI học trong khi làm như con người

Mô hình huấn luyện chủ đạo hiện tại của các mô hình lớn, phụ thuộc vào việc tiêu hóa theo lô lượng dữ liệu khổng lồ: Đưa toàn bộ văn bản và mã code từ Internet vào, lặp đi lặp lại, cuối cùng xuất hiện khả năng đáng kinh ngạc. Lộ trình này đã được chứng minh là hiệu quả, nhưng về cơ bản nó là "học trước, dùng sau": Một khi huấn luyện hoàn thành, mô hình sẽ đóng băng, không thể cập nhật liên tục từ mọi lần tương tác thực tế tiếp theo.

Học tăng cường dạng luồng theo đuổi, là một chế độ học hoàn toàn khác: Không phụ thuộc vào phát lại khối lượng lớn, không phụ thuộc vào cụm GPU đồ sộ, mỗi bước trải nghiệm ngay lập tức chuyển hóa thành cập nhật tham số, liên tục, rẻ tiền, tự thích ứng. Điều này gần với cách học thực tế của con người và động vật hơn.

Từ bước đột phá ban đầu "cuối cùng đã chạy thông suốt" của Elsayed và cộng sự năm 2024, đến nguyên tắc "Cập nhật có chủ đích" được đề xuất trong bài báo này, học tăng cường sâu dạng luồng đang trưởng thành với tốc độ bất ngờ. Nó sẽ không thay thế các mô hình lớn được huấn luyện theo lô, nhưng đối với robot cần thích ứng trực tuyến lâu dài, thiết bị biên, và bất kỳ kịch bản ứng dụng nào không thể chịu đựng bộ đệm phát lại quy mô lớn và cụm GPU, con đường này đang ngày càng trở nên thuyết phục.

Bước học không chỉ là một siêu tham số, nó là cam kết "muốn làm bao nhiêu" ở mỗi bước của AI. Khi cam kết này cuối cùng trở nên có thể kiểm soát, bản thân việc học đã ổn định.

Bài viết này từ tài khoản công chúng WeChat "机器之心" (ID:almosthuman2014), tác giả: 关注RL的

Câu hỏi Liên quan

QTrở ngại chính trong học tăng cường luồng (streaming reinforcement learning) là gì theo bài viết?

ATrở ngại chính, được gọi là "stream barrier" (rào cản luồng), là việc học tăng cường với mạng nơ-ron sâu hầu như không thể học "vừa làm vừa học" trong chế độ luồng thuần túy (kích thước batch = 1, không có bộ đệm phát lại). Việc học sẽ sụp đổ do hiện tượng cập nhật tham số bất ổn, dao động mạnh (overshooting and undershooting).

QPhương pháp "Intentional Updates" (Cập nhật có chủ đích) giải quyết vấn đề trên bằng cách nào?

APhương pháp "Intentional Updates" thay đổi cách xác định bước học (step-size/learning rate). Thay vì quy định tham số thay đổi bao nhiêu, nó xác định trước "mong muốn đầu ra của hàm thay đổi bao nhiêu" (ví dụ: giá trị dự đoán giảm sai số 5%), sau đó suy ngược ra kích thước bước học cần thiết. Cách tiếp cận này giúp kiểm soát được tác động của mỗi lần cập nhật, giữ cho quá trình học ổn định.

QÝ tưởng cốt lõi của "Intentional Updates" bắt nguồn từ đâu?

AÝ tưởng cốt lõi bắt nguồn từ một công thức năm 1967 trong lĩnh vực lọc thích nghi (adaptive filtering), cụ thể là thuật toán "Normalized Least Mean Squares" (NLMS) của Nagumo và Noda. Thuật toán này cũng sử dụng sự thay đổi đầu ra mong muốn để điều chỉnh bước học, thay vì điều chỉnh ngược lại.

QKết quả thí nghiệm cho thấy phương pháp mới có những ưu điểm gì nổi bật?

AKết quả thí nghiệm cho thấy: 1) Hiệu suất cuối cùng trên các nhiệm vụ điều khiển liên tục (MuJoCo) ngang bằng hoặc gần bằng SAC - một thuật toán hàng đầu sử dụng bộ đệm phát lại lớn, trong khi chỉ sử dụng kích thước batch = 1. 2) Lượng tính toán (FLOPs) mỗi lần cập nhật ít hơn khoảng 140 lần so với SAC. 3) Phương pháp có tính mạnh mẽ cao hơn, ít phụ thuộc vào các kỹ thuật ổn định hóa bổ trợ so với phương pháp StreamX trước đó.

QHạn chế hoặc vấn đề còn tồn tại của phương pháp "Intentional Updates" được đề cập là gì?

AMột hạn chế được chỉ ra là trong học chính sách (policy learning), bước học phụ thuộc vào hành động được lấy mẫu tại thời điểm đó. Điều này có thể tạo ra sự thiên lệch (bias) không mong muốn trong hướng kỳ vọng của gradient chính sách. Mặc dù trong nhiều nhiệm vụ ảnh hưởng không đáng kể, nhưng trong một số nhiệm vụ (ví dụ Ant-v4), sự sai lệch có thể rõ rệt hơn. Các tác giả cho rằng cần nghiên cứu thêm để tìm cách chọn bước học độc lập với hành động.

Nội dung Liên quan

Đạo Luật CLARITY Là Tâm Điểm Của Cuộc Chạm Trán Chính Trị Mới Nhất: Thượng Nghị Sĩ Lummis Đáp Trả Giám Đốc Điều Hành JPMorgan

Thượng nghị sĩ ủng hộ tiền điện tử Cynthia Lummis và CEO JPMorgan Jamie Dimon đã trở thành những nhân vật chính trong cuộc tranh luận mới nhất về Đạo luật CLARITY khi dự luật này được đưa ra thảo luận tại Thượng viện. Trong một cuộc phỏng vấn với CNBC, Lummis đã phản bác trực tiếp những chỉ trích của Dimon về dự luật và về CEO Coinbase Brian Armstrong. Bà cho rằng Dimon "hoàn toàn sai" và thậm chí có thể chưa đọc kỹ dự luật. Dimon, người vốn hoài nghi về tiền điện tử, đã chỉ trích rằng Đạo luật CLARITY và các stablecoin không cung cấp đủ các biện pháp bảo vệ chống rửa tiền (AML) theo Đạo luật Bảo mật Ngân hàng (BSA), và cho rằng các công ty crypto nên tuân theo tiêu chuẩn giống như ngân hàng truyền thống. Tuy nhiên, Lummis nhấn mạnh rằng dự luật này thực chất được xây dựng dựa trên các quy định hiện hành đã áp dụng cho ngân hàng, với hơn 1.600 tham chiếu đến các điều khoản AML/BSA sẽ tiếp tục được áp dụng cho các hoạt động tài sản kỹ thuật số. Về các bước tiếp theo, Lummis tiết lộ Thượng viện đang làm việc để kết hợp các thành phần khác nhau của gói dự luật, bao gồm việc sáp nhập các điều khoản liên quan đến SEC trong Đạo luật CLARITY với các yếu tố thị trường hàng hóa từ Ủy ban Nông nghiệp Thượng viện. Các nhà lập pháp cũng đang lên kế hoạch sửa đổi Đạo luật GENIUS về stablecoin và các điều khoản về đạo đức để trình một dự luật thống nhất lên nghị trường. Bà đang phối hợp với các thượng nghị sĩ khác như Bill Hagerty, Angela Alsobrooks và Thom Tillis để hoàn thiện gói dự luật cuối cùng.

bitcoinist42 phút trước

Đạo Luật CLARITY Là Tâm Điểm Của Cuộc Chạm Trán Chính Trị Mới Nhất: Thượng Nghị Sĩ Lummis Đáp Trả Giám Đốc Điều Hành JPMorgan

bitcoinist42 phút trước

TIN VỠ: Mastercard Vừa Mở Cổng Mạng Thanh Toán Toàn Cầu Cho Tiền Mã Hóa — Những Altcoin Nào Được Lựa Chọn?

Vào ngày 3/6, Mastercard thông báo sẽ mở rộng cơ sở hạ tầng thanh toán toàn cầu của mình để hỗ trợ thanh toán trên chuỗi bằng cách sử dụng tiền điện tử thông qua các stablecoin được quản lý. Điều này cho phép các giao dịch thẻ được thanh toán 24/7, kể cả cuối tuần và ngày lễ, lần đầu tiên trong lịch sử mạng lưới. Sáu stablecoin được quản lý được hỗ trợ trong đợt triển khai đầu tiên: USDC của Circle, PYUSD của PayPal, USDG và USDP của Paxos, RLUSD của Ripple và SoFiUSD của SoFi. Việc thanh toán sẽ hoạt động trên tám mạng blockchain: Ethereum, Solana, Polygon, Base, Arbitrum, XRP Ledger, Canton và Tempo. Đây là một bước phát triển ở lớp thanh toán hậu kỳ, không phải là sự thay đổi sản phẩm hướng đến người tiêu dùng. Các đơn vị phát hành và ngân hàng trên mạng Mastercard giờ đây có thể chọn thanh toán các giao dịch thẻ bằng stablecoin trên chuỗi, thay vì thông qua các kênh ngân hàng truyền thống. Cả hai tùy chọn chạy song song. Người dùng thẻ không cần thay đổi cách thanh toán. Sự thay đổi nằm ở cơ sở hạ tầng phụ trợ, giờ có thể hoạt động trên mạng blockchain suốt ngày đêm, loại bỏ các điểm tắc nghẽn do giờ ngân hàng và ngày nghỉ gây ra trong nhiều thập kỷ. Sự kiện này được coi là sự xác nhận thể chế rõ ràng nhất cho nền kinh tế stablecoin cho đến nay.

bitcoinist4 giờ trước

TIN VỠ: Mastercard Vừa Mở Cổng Mạng Thanh Toán Toàn Cầu Cho Tiền Mã Hóa — Những Altcoin Nào Được Lựa Chọn?

bitcoinist4 giờ trước

Nhà Phân Tích Từng Dự Đoán Đúng Đợt Sụt Giảm Bitcoin Từ $82,000 Tiết Lộ Điều Gì Sắp Tới

Nhà phân tích Tony, người đã dự đoán đúng đợt giảm giá Bitcoin từ mốc 82.000 USD, tiết lộ quan điểm về diễn biến sắp tới. Ông cho rằng Bitcoin có khả năng cao tiếp tục giảm và thiết lập đáy mới trong năm nay, có thể xuống dưới 40.000 USD, trước khi kết thúc chu kỳ giá xuống. Lý do là BTC đã phá vỡ kênh tăng và giao dịch dưới Đám mây Ichimoku - tín hiệu giảm giá. Dù có thể có đợt phục hồi ngắn hạn từ vùng 67.000 USD lên 74.000 USD, xu hướng chính vẫn được xác định là giảm. Một nhà phân tích khác, Colin, đồng ý rằng vùng hỗ trợ 65.000-66.000 USD có thể tạo đà bật ngắn hạn, nhưng việc Bitcoin kiểm tra lại mức 60.000 USD hoặc thậm chí phá đáy trong năm là rất khả thi. Ông nhận định mức đáy 60.000 USD hồi tháng 2 khó là đáy cuối cùng, vì các chu kỳ bear trước thường chứng kiến mức giảm hơn 70% từ đỉnh, trong khi mức giảm từ đỉnh 126.000 USD (tháng 10) hiện vẫn chưa đạt ngưỡng đó. Tại thời điểm viết bài, giá Bitcoin giao dịch quanh 66.300 USD, giảm hơn 6% trong 24 giờ qua.

bitcoinist4 giờ trước

Nhà Phân Tích Từng Dự Đoán Đúng Đợt Sụt Giảm Bitcoin Từ $82,000 Tiết Lộ Điều Gì Sắp Tới

bitcoinist4 giờ trước

Hoskinson Cảnh Báo Về 'Làn Sóng Thất Bại' Ở Cardano Sau Khi TapTools Đóng Cửa

Charles Hoskinson, người sáng lập Cardano, đã cảnh báo về một "làn sóng thất bại" có thể xảy ra trong hệ sinh thái Cardano sau khi nền tảng phân tích dữ liệu TapTools thông báo sẽ ngừng hoạt động trong hai tuần tới. Nguyên nhân được nêu ra là do sự ra đi của nhiều lãnh đạo chủ chốt và mô hình kinh tế nền tảng gặp khó khăn. Trong buổi phát trực tiếp ngày 2/6, Hoskinson nhấn mạnh đây không phải là một thất bại riêng lẻ mà là triệu chứng của những vấn đề sâu xa hơn về tài trợ, phối hợp và động lực trong hệ sinh thái. Ông tiên đoán sẽ có thêm nhiều dự án gặp khó khăn trong nửa cuối năm nay, dẫn JPEG Store và TapTools làm ví dụ. Hoskinson cho biết ông đã đề xuất nhiều cơ chế để giải quyết vấn đề, chẳng hạn như quỹ đầu tư của Cardano hoặc mua lại chiến lược, nhưng các ý tưởng này không nhận được đủ sự ủng hộ hoặc bị chỉ trích là tập trung quyền lực. Ông bày tỏ thất vọng khi cơ chế quản trị hiện tại chưa tạo ra cách hiệu quả để sử dụng nguồn lực từ kho bạc nhằm hỗ trợ cơ sở hạ tầng thương mại. Đồng thời, Hoskinson phủ nhận việc ông có quyền kiểm soát đơn phương đối với Cardano, nói rằng ông không có khóa quản trị, không thể khởi xướng một hard fork, và không kiểm soát kho bạc hay thương hiệu. Ông kêu gọi cộng đồng bỏ phiếu (DReps và delegators) cần lựa chọn rõ ràng về lãnh đạo và tầm nhìn để thúc đẩy tăng trưởng, thậm chí đưa ra các lựa chọn cực đoan như cải cách hiến pháp hoặc khởi động một Cardano mới nếu cần thiết.

bitcoinist5 giờ trước

Hoskinson Cảnh Báo Về 'Làn Sóng Thất Bại' Ở Cardano Sau Khi TapTools Đóng Cửa

bitcoinist5 giờ trước

Đợt Tăng Giá Không Thành

Tình hình thị trường Bitcoin hiện tại cho thấy các dấu hiệu yếu kém rõ rệt sau đợt giảm giá gần đây. Giá đã giảm khoảng 13% xuống vùng 67.000 USD, phá vỡ dưới mức trung bình thị trường thực (True Market Mean) ở 77,8k USD, củng cố nhận định rằng thị trường gấu vẫn đang chiếm ưu thế. Phân tích on-chain cho thấy cấu trúc đang xấu đi. Giá hiện giao dịch gần điểm giữa của vùng giá trị thị trường gấu. Lợi nhuận thực tế từ các giao dịch đang bị áp đảo bởi các khoản lỗ, một mô hình thường thấy ở các đỉnh cục bộ trong thị trường gấu. Các nhà đầu tư mới mua ở vùng đỉnh gần 78k-82k USD đang chịu áp lực lớn, và hành động của họ sẽ quyết định liệu mức giá hiện tại có đủ sức hấp thụ áp lực bán hay không. Tổng lỗ thực tế hàng ngày đã tăng mạnh lên 1,35 tỷ USD, cho thấy cả nhà đầu tư dài hạn và ngắn hạn đều đang chốt lỗ. Về off-chain, dòng tiền từ ETF Mỹ đã chứng kiến ba tuần rút vốn liên tiếp, với áp lực bán gia tăng khi giá bị từ chối ở mức giá trung bình của các nhà đầu tư ETF (khoảng 83k USD). Lực mua trên thị trường giao ngay (spot) đã biến mất, và một sự kiện thanh lý lớn đã xóa sổ hơn 400 triệu USD vị thế mua ký quỹ. Thị trường quyền chọn phản ánh tâm lý thận trọng, với nhu cầu bảo vệ trước rủi ro giảm giá (put options) vẫn ở mức cao và phí biến động (volatility premium) gần mức cao nhất trong ba tháng. Tóm lại, thị trường Bitcoin đang trong vị thế mong manh với áp lực bán từ nhiều phía. Một sự phục hồi bền vững cần có sự trở lại của lực mua giao ngay mạnh mẽ, việc giá vượt lại mức trung bình của ETF, và dấu hiệu áp lực bán giảm bớt. Cho đến khi đó, rủi ro tiếp tục điều chỉnh hoặc củng cố trong cấu trúc thị trường gấu vẫn còn hiện hữu.

insights.glassnode6 giờ trước

insights.glassnode6 giờ trước

Giao dịch

Giao ngay

Hợp đồng Tương lai

Nhà đạt giải Turing Sutton và tác phẩm mới: Sử dụng một công thức từ năm 1967 để giải quyết một khuyết điểm lớn trong học tăng cường dạng luồng

Tóm tắt

Một lần đạp ga, tạo ra hố lớn thế nào

Nhà đạt giải Turing và mảnh ghép của ông

Chi tiết thuật toán: Đơn giản hơn tưởng tượng

Kết quả thí nghiệm: Không cần GPU vẫn ngang bằng SAC

Vẫn còn vấn đề

Kết luận: Để AI học trong khi làm như con người

Câu hỏi Liên quan

Nội dung Liên quan

Đạo Luật CLARITY Là Tâm Điểm Của Cuộc Chạm Trán Chính Trị Mới Nhất: Thượng Nghị Sĩ Lummis Đáp Trả Giám Đốc Điều Hành JPMorgan

TIN VỠ: Mastercard Vừa Mở Cổng Mạng Thanh Toán Toàn Cầu Cho Tiền Mã Hóa — Những Altcoin Nào Được Lựa Chọn?

Nhà Phân Tích Từng Dự Đoán Đúng Đợt Sụt Giảm Bitcoin Từ $82,000 Tiết Lộ Điều Gì Sắp Tới

Hoskinson Cảnh Báo Về 'Làn Sóng Thất Bại' Ở Cardano Sau Khi TapTools Đóng Cửa

Đợt Tăng Giá Không Thành

Giao dịch

Danh mục Phổ biến

Thẻ Nổi bật