Nhà đạt giải Turing Sutton và tác phẩm mới: Sử dụng một công thức từ năm 1967 để giải quyết một khuyết điểm lớn trong học tăng cường dạng luồng

marsbitXuất bản vào 2026-05-10Cập nhật gần nhất vào 2026-05-10

Tóm tắt

Vào cuối năm 2024, một nhóm nghiên cứu tại Đại học Alberta đã chỉ ra một nghịch lý: học tăng cường (RL) vốn được thiết kế để học “trên đường chạy” (streaming), lại gần như không thể hoạt động trong môi trường deep learning nếu không có bộ đệm dữ liệu (replay buffer) hoặc batch size lớn. Hiện tượng này được gọi là “stream barrier”. Một năm rưỡi sau, nghiên cứu mới với sự tham gia của Richard Sutton (Giải Turing 2024) đã đưa ra giải pháp cốt lõi: nguyên nhân không phải do thiếu dữ liệu, mà do **đơn vị của learning rate (bước học) đã bị chọn sai**. Các phương pháp truyền thống quy định tham số thay đổi bao nhiêu, dẫn đến đầu ra hàm mục tiêu thay đổi không kiểm soát, gây ra hiện tượng dao động mạnh và sụp đổ khi học online (batch size=1). Nghiên cứu đề xuất **“Cập nhật Có Chủ Đích” (Intentional Updates)**, lấy ý tưởng từ thuật toán NLMS năm 1967. Thay vì định trước kích thước bước cho tham số, họ xác định trước **lượng thay đổi mong muốn ở đầu ra** (ví dụ: giảm 5% sai số dự đoán giá trị), rồi tính ngược ra learning rate phù hợp. Cách tiếp cận này đảm bảo mỗi bước cập nhật tác động một cách nhất quán lên hàm mục tiêu. Phương pháp được áp dụng cho học giá trị (Intentional TD) và học chính sách (Intentional Policy Gradient), kết hợp với RMSProp và eligibility traces. Kết quả thử nghiệm trên các nhiệm vụ MuJoCo và Atari cho thấy, trong chế độ streaming, các thuật toán mới đạt hiệu suất ngang bằng với các phương pháp tiêu chuẩn như SAC hay DQN (vốn dùng replay buffer lớn), trong kh...

Cuối năm 2024, một bài báo có tiêu đề "Học tăng cường sâu dạng luồng cuối cùng đã chạy thông suốt" (arXiv:2410.14606) đã gây ra cuộc thảo luận sôi nổi trong giới học thuật. Tác giả đến từ nhóm Mahmood tại Đại học Alberta, họ đã dành nhiều trang để mô tả một thực tế đáng ngượng: Học tăng cường vốn là một phương pháp "học trong khi làm", nhưng trong thời đại mạng nơ-ron sâu, nó hầu như không thể làm được điều đó. Chỉ cần loại bỏ bộ đệm phát lại, chỉ cần đặt kích thước lô là 1, quá trình huấn luyện sẽ sụp đổ. Họ gọi đây là "rào cản luồng" (stream barrier).

Thuật toán StreamX được đề xuất trong bài báo đó, dựa vào các siêu tham số được điều chỉnh tinh vi, khởi tạo thưa thớt và các kỹ thuật ổn định hóa khác nhau, đã may mắn vượt qua bức tường này.

Tuy nhiên, chưa đầy một năm rưỡi sau, một thành viên của cùng nhóm nghiên cứu đó, cùng với các cộng tác viên từ Viện Openmind, đã đưa ra một câu trả lời hoàn toàn khác: Nguồn gốc của rào cản luồng không phải là "dữ liệu không đủ nhiều", mà là "bước học đã chọn sai đơn vị".

Tiêu đề bài báo: Intentional Updates for Streaming Reinforcement Learning

Địa chỉ bài báo: https://arxiv.org/pdf/2604.19033v1

Kho mã nguồn: https://github.com/sharifnassab/Intentional_RL

Một lần đạp ga, tạo ra hố lớn thế nào

Hãy tưởng tượng bạn đang học lái xe và đỗ xe. Người hướng dẫn nói với bạn mỗi lần "đạp ga 0.1 giây". Vấn đề là, cùng đạp ga 0.1 giây, lên dốc, xuống dốc, không tải, đầy tải, quãng đường xe tiến lên có thể khác nhau một trời một vực. Đôi khi chỉ thiếu một centimet là đỗ vừa khít, đôi khi thiếu 30 centimet và đâm thẳng vào tường.

Bước học (learning rate) truyền thống trong học dựa trên gradient, làm chính xác điều này: nó quy định tham số di chuyển bao nhiêu mỗi lần, nhưng không kiểm soát được đầu ra của hàm số thực sự thay đổi bao nhiêu. Trong huấn luyện theo lô, lỗi trung bình từ hàng trăm, hàng nghìn mẫu làm loãng các trường hợp cực đoan, vấn đề không quá rõ ràng. Nhưng trong môi trường "luồng", mỗi bước chỉ có một mẫu, không có sự trung bình nào. Một khi hướng gradient không ổn định, biên độ cập nhật sẽ lúc lớn lúc nhỏ — hôm nay tiến 30 centimet, ngày mai lùi 50 centimet, quá trình học sụp đổ trong dao động dữ dội.

Hiện tượng "vượt quá và không đủ" (overshooting and undershooting) này đặc biệt nghiêm trọng trong học tăng cường, vì gradient ở mỗi bước thời gian không chỉ khác nhau về độ lớn mà hướng cũng thay đổi cực nhanh.

Định nghĩa lại "một bước nên làm bao nhiêu"

Arsalan Sharifnassab từ Viện Openmind cùng Mohamed Elsayed, A. Rupam Mahmood và Richard Sutton từ Đại học Alberta, trong bài báo gần đây, đã đề xuất một giải pháp suy nghĩ từ một góc độ khác: Thay vì chỉ định tham số di chuyển bao nhiêu, hãy trực tiếp chỉ định đầu ra hàm số nên thay đổi bao nhiêu.

Ý tưởng này không phải xuất hiện từ hư không. Năm 1967, học giả Nhật Bản Nagumo và Noda trong bài báo "A learning method for system identification" đã đề xuất thuật toán "Bình phương sai số trung bình tối thiểu chuẩn hóa" (NLMS) trong lĩnh vực lọc thích ứng; về bản chất cũng là sử dụng sự thay đổi đầu ra mong muốn để suy ngược bước học, chứ không phải ngược lại. Chỉ có điều thuật toán đó chỉ áp dụng được cho các tình huống tuyến tính đơn giản.

Các nhà nghiên cứu đã mở rộng ý tưởng này cho học tăng cường sâu. Họ gọi nó là "Cập nhật có chủ đích" (Intentional Updates): Trước mỗi lần cập nhật, đầu tiên xác định rõ "tôi hy vọng bước này đạt được điều gì", sau đó suy ra nên sử dụng bước học lớn bao nhiêu.

Đối với học giá trị (tức dự đoán phần thưởng tương lai), chủ đích họ định nghĩa là: Sau mỗi lần cập nhật, lỗi dự đoán giá trị của trạng thái hiện tại nên thu nhỏ một tỷ lệ cố định — ví dụ thu nhỏ 5%, không nhiều cũng không ít. Đối với học chính sách (tức tối ưu hóa hành vi quyết định), chủ đích họ định nghĩa là: Xác suất lựa chọn hành động hiện tại, mỗi bước chỉ cho phép thay đổi một lượng "vừa phải".

Dùng phép ẩn dụ lái xe: Điều này giống như tài xế trước mỗi thao tác quyết định trước "tôi muốn xe tiến lên 20 centimet", sau đó tự động tính toán nên đạp ga sâu bao nhiêu dựa trên tình trạng đường (độ dốc, tải trọng), thay vì mỗi lần đều đạp cùng một độ sâu và phó mặc cho số phận.

Nhà đạt giải Turing và mảnh ghép của ông

Một trong những tác giả của bài báo, là Richard S. Sutton — người đạt giải Turing năm 2024, được mệnh danh rộng rãi là "cha đẻ của học tăng cường hiện đại".

Vị thế của Sutton trong giới học thuật có lẽ tương đương với Feynman trong vật lý: Ông không chỉ đề xuất hai khuôn khổ nền tảng của học tăng cường hiện đại là Học sai phân thời gian (TD learning) và Gradient chính sách (policy gradient), mà còn đồng tác giả với Andrew Barto cuốn sách giáo khoa có thẩm quyền nhất trong lĩnh vực này "Reinforcement Learning: An Introduction" (hiện đã xuất bản đến ấn bản thứ hai, có thể đọc trực tuyến miễn phí). Ông và Barto đã cùng chia sẻ giải Turing năm 2024, lời bình của giải thưởng là "đặt nền móng khái niệm và thuật toán cho học tăng cường".

Sau khi nhận giải, Sutton không chọn nghỉ hưu, mà đầu tư tiền thưởng vào Viện Openmind do ông sáng lập, chuyên tài trợ cho những nhà nghiên cứu trẻ sẵn sàng khám phá các vấn đề cơ bản trong "môi trường không bị áp lực thương mại". Bài báo mới này, chính là xuất phát từ tổ chức phi lợi nhuận này.

Còn tác giả chính Sharifnassab, trước đó vừa công bố tại ICML 2025 khung MetaOptimize, nghiên cứu cách tự động điều chỉnh tốc độ học trực tuyến. Hai chủ đề có sự tập trung rất trùng khớp: Làm thế nào để bản thân bước học trở nên thông minh hơn.

Chi tiết thuật toán: Đơn giản hơn tưởng tượng

Việc suy luận toán học của "Cập nhật có chủ đích" không phức tạp, công thức cốt lõi của nó có thể mô tả trong một câu: Bước học bằng "lượng thay đổi đầu ra mong muốn" chia cho "ảnh hưởng thực tế của hướng gradient lên đầu ra".

Trong học giá trị, "ảnh hưởng thực tế" này là chuẩn (norm) của vector gradient (tương đương với đo độ "dốc" của vùng tham số hiện tại): Càng dốc thì bước học càng nhỏ, càng bằng phẳng thì bước học càng lớn, nhờ đó đảm bảo mỗi lần cập nhật tác động nhất quán lên hàm giá trị.

Trong học chính sách, "lượng thay đổi mong muốn" được định nghĩa tỷ lệ với hàm lợi thế: Hành động hiện tại tốt hơn mức trung bình bao nhiêu, chính sách sẽ di chuyển về hướng đó bấy nhiêu — thông qua một trung bình động để chuẩn hóa cấp độ, đảm bảo về lâu dài biên độ thay đổi chính sách ổn định trong một phạm vi có thể giải thích được.

Các nhà nghiên cứu còn kết hợp ý tưởng cốt lõi này với hai thực hành kỹ thuật: Thu nhỏ theo đường chéo kiểu RMSProp (xử lý sự khác biệt cấp độ giữa các chiều tham số) và vết đủ tư cách (eligibility traces, giúp tín hiệu phần thưởng lan truyền về các bước thời gian trước đó).

Cuối cùng hình thành ba thuật toán hoàn chỉnh: Intentional TD (λ) dùng cho dự đoán giá trị, Intentional Q (λ) dùng cho điều khiển hành động rời rạc, và Intentional Policy Gradient dùng cho điều khiển liên tục.

Kết quả thí nghiệm: Không cần GPU vẫn ngang bằng SAC

Bài báo đánh giá phương pháp này trên nhiều chuẩn tiêu chuẩn, kết quả gây ấn tượng mạnh.

Trên nhiệm vụ điều khiển liên tục MuJoCo (bao gồm các robot mô phỏng phức tạp như Ant, Humanoid, HalfCheetah), phương pháp mới Intentional AC trong thiết lập luồng (kích thước lô = 1, không có bộ đệm phát lại) có hiệu suất cuối cùng, nhiều lần tiệm cận hoặc thậm chí ngang bằng SAC — một thuật toán sử dụng bộ đệm phát lại lớn và gần như là tiêu chuẩn vàng hiện tại cho nhiệm vụ điều khiển liên tục. Về lượng tính toán, số phép toán dấu phẩy động cần thiết cho mỗi lần cập nhật Intentional AC, chỉ bằng khoảng 1/140 một lần cập nhật SAC.

Trên các trò chơi hành động rời rạc Atari và MinAtar, Intentional Q-learning cũng có biểu hiện tương đương với DQN sử dụng bộ đệm phát lại, và chạy thông suốt tất cả nhiệm vụ với cùng một bộ siêu tham số, không cần điều chỉnh tham số cho từng cái.

Các nhà nghiên cứu còn chuyên kiểm tra xem "chủ đích" có thực sự được thực hiện không: Họ đo tỷ lệ giữa lượng cập nhật thực tế và lượng cập nhật dự kiến. Trong thiết lập đơn giản vô hiệu hóa vết đủ tư cách, độ lệch chuẩn của tỷ lệ này chỉ từ 0.016 đến 0.029, phân vị 99 đều trong vòng 1.07; có nghĩa là trong hầu hết thời gian, cập nhật thực sự đã làm được "nói làm bao nhiêu thì làm bấy nhiêu".

Ngoài ra, một nhóm thí nghiệm loại bỏ (ablation) cho thấy, sau khi loại bỏ chuẩn hóa RMSProp hoặc thành phần σ, hiệu suất có giảm nhưng vẫn có sức cạnh tranh, và bản thân "tỉ lệ theo chủ đích" này là đóng góp chính, các thành phần khác đều là hỗ trợ.

Vẫn còn vấn đề

Khung "Cập nhật có chủ đích" cũng thể hiện ưu thế rõ ràng về tính mạnh mẽ (robustness). Khi các nhà nghiên cứu lần lượt loại bỏ các kỹ thuật hỗ trợ ổn định hóa mà phương pháp StreamX phụ thuộc vào (khởi tạo thưa, tỉ lệ phần thưởng, chuẩn hóa đầu vào, LayerNorm), sự suy giảm hiệu suất của Intentional AC rõ ràng ít hơn so với StreamAC nguyên bản, cho thấy tỉ lệ theo chủ đích đã từ gốc rễ giảm sự phụ thuộc vào các "chiếc nạng" bên ngoài.

Nhưng bài báo cũng thẳng thắn chỉ ra một vấn đề chưa được giải quyết hoàn toàn: Trong học chính sách, bước học phụ thuộc vào hành động được lấy mẫu hiện tại, điều này sẽ khiến các hành động khác nhau được ngầm gán những "trọng số" khác nhau, có thể làm thay đổi hướng kỳ vọng của gradient chính sách. Trong nhiệm vụ Humanoid và HumanoidStandup, bằng cách đo độ tương đồng cosin của hướng cập nhật kỳ vọng, các nhà nghiên cứu thấy sự lệch này ở giai đoạn học then chốt tiệm cận 0.96 (hầu như không ảnh hưởng); nhưng trong Ant-v4, mức độ thẳng hàng giảm xuống trung vị 0.63, cho thấy vấn đề không phải lúc nào cũng có thể bỏ qua.

Tác giả chỉ ra rằng, nghiên cứu tương lai nên tìm kiếm chiến lược chọn bước học không phụ thuộc vào hành động, để "chủ đích" về mặt kỳ vọng cũng giữ được không thiên lệch. Đây là bài tập rõ ràng để lại cho những người tiếp bước theo hướng này.

Kết luận: Để AI học trong khi làm như con người

Mô hình huấn luyện chủ đạo hiện tại của các mô hình lớn, phụ thuộc vào việc tiêu hóa theo lô lượng dữ liệu khổng lồ: Đưa toàn bộ văn bản và mã code từ Internet vào, lặp đi lặp lại, cuối cùng xuất hiện khả năng đáng kinh ngạc. Lộ trình này đã được chứng minh là hiệu quả, nhưng về cơ bản nó là "học trước, dùng sau": Một khi huấn luyện hoàn thành, mô hình sẽ đóng băng, không thể cập nhật liên tục từ mọi lần tương tác thực tế tiếp theo.

Học tăng cường dạng luồng theo đuổi, là một chế độ học hoàn toàn khác: Không phụ thuộc vào phát lại khối lượng lớn, không phụ thuộc vào cụm GPU đồ sộ, mỗi bước trải nghiệm ngay lập tức chuyển hóa thành cập nhật tham số, liên tục, rẻ tiền, tự thích ứng. Điều này gần với cách học thực tế của con người và động vật hơn.

Từ bước đột phá ban đầu "cuối cùng đã chạy thông suốt" của Elsayed và cộng sự năm 2024, đến nguyên tắc "Cập nhật có chủ đích" được đề xuất trong bài báo này, học tăng cường sâu dạng luồng đang trưởng thành với tốc độ bất ngờ. Nó sẽ không thay thế các mô hình lớn được huấn luyện theo lô, nhưng đối với robot cần thích ứng trực tuyến lâu dài, thiết bị biên, và bất kỳ kịch bản ứng dụng nào không thể chịu đựng bộ đệm phát lại quy mô lớn và cụm GPU, con đường này đang ngày càng trở nên thuyết phục.

Bước học không chỉ là một siêu tham số, nó là cam kết "muốn làm bao nhiêu" ở mỗi bước của AI. Khi cam kết này cuối cùng trở nên có thể kiểm soát, bản thân việc học đã ổn định.

Bài viết này từ tài khoản công chúng WeChat "机器之心" (ID:almosthuman2014), tác giả: 关注RL的

Câu hỏi Liên quan

QTrở ngại chính trong học tăng cường luồng (streaming reinforcement learning) là gì theo bài viết?

ATrở ngại chính, được gọi là "stream barrier" (rào cản luồng), là việc học tăng cường với mạng nơ-ron sâu hầu như không thể học "vừa làm vừa học" trong chế độ luồng thuần túy (kích thước batch = 1, không có bộ đệm phát lại). Việc học sẽ sụp đổ do hiện tượng cập nhật tham số bất ổn, dao động mạnh (overshooting and undershooting).

QPhương pháp "Intentional Updates" (Cập nhật có chủ đích) giải quyết vấn đề trên bằng cách nào?

APhương pháp "Intentional Updates" thay đổi cách xác định bước học (step-size/learning rate). Thay vì quy định tham số thay đổi bao nhiêu, nó xác định trước "mong muốn đầu ra của hàm thay đổi bao nhiêu" (ví dụ: giá trị dự đoán giảm sai số 5%), sau đó suy ngược ra kích thước bước học cần thiết. Cách tiếp cận này giúp kiểm soát được tác động của mỗi lần cập nhật, giữ cho quá trình học ổn định.

QÝ tưởng cốt lõi của "Intentional Updates" bắt nguồn từ đâu?

AÝ tưởng cốt lõi bắt nguồn từ một công thức năm 1967 trong lĩnh vực lọc thích nghi (adaptive filtering), cụ thể là thuật toán "Normalized Least Mean Squares" (NLMS) của Nagumo và Noda. Thuật toán này cũng sử dụng sự thay đổi đầu ra mong muốn để điều chỉnh bước học, thay vì điều chỉnh ngược lại.

QKết quả thí nghiệm cho thấy phương pháp mới có những ưu điểm gì nổi bật?

AKết quả thí nghiệm cho thấy: 1) Hiệu suất cuối cùng trên các nhiệm vụ điều khiển liên tục (MuJoCo) ngang bằng hoặc gần bằng SAC - một thuật toán hàng đầu sử dụng bộ đệm phát lại lớn, trong khi chỉ sử dụng kích thước batch = 1. 2) Lượng tính toán (FLOPs) mỗi lần cập nhật ít hơn khoảng 140 lần so với SAC. 3) Phương pháp có tính mạnh mẽ cao hơn, ít phụ thuộc vào các kỹ thuật ổn định hóa bổ trợ so với phương pháp StreamX trước đó.

QHạn chế hoặc vấn đề còn tồn tại của phương pháp "Intentional Updates" được đề cập là gì?

AMột hạn chế được chỉ ra là trong học chính sách (policy learning), bước học phụ thuộc vào hành động được lấy mẫu tại thời điểm đó. Điều này có thể tạo ra sự thiên lệch (bias) không mong muốn trong hướng kỳ vọng của gradient chính sách. Mặc dù trong nhiều nhiệm vụ ảnh hưởng không đáng kể, nhưng trong một số nhiệm vụ (ví dụ Ant-v4), sự sai lệch có thể rõ rệt hơn. Các tác giả cho rằng cần nghiên cứu thêm để tìm cách chọn bước học độc lập với hành động.

Nội dung Liên quan

Peter Thiel, Người Đứng Sau Palantir, Tại Sao Lại Chuẩn Bị Đường Lui Ở Argentina?

Peter Thiel, chủ tịch và cổ đông lớn nhất của Palantir - công ty xây dựng hệ thống giám sát và dự đoán cho chính phủ Mỹ - đã mua một dinh thự ở Buenos Aires, Argentina, và chuyển gia đình tới đó. Lý do công khai là để đối phó với đề xuất tăng thuế ở California. Tuy nhiên, bài viết cho rằng động thái này có thể tiết lộ nhiều hơn. Thiel, người ngồi trên khối dữ liệu dự đoán mạnh nhất, có thể đang thấy trước những rủi ro mà công chúng không biết. Các kịch bản được đặt ra bao gồm: sự sụp đổ chính trị của phe MAGA, nguy cơ bị truy cứu trách nhiệm pháp lý cho các hệ thống do Palantir xây dựng, hoặc các bất ổn kinh tế - xã hội nghiêm trọng ở Mỹ. Việc chọn Argentina - một quốc gia có lịch sử cung cấp đường thoát cho các tội phạm chiến tranh Đức Quốc xã - càng làm dấy lên những nghi vấn. Hành động này trái ngược với tuyên ngôn mà Palantir vừa đưa ra, ca ngợi sự vĩ đại và nghĩa vụ của giới công nghệ với nước Mỹ. Bài viết kết luận rằng, khi những người thiết kế hệ thống quyền lực bắt đầu xây dựng lối thoát ở nước ngoài, đó không phải là dấu hiệu của niềm tin vào tương lai, mà có thể là một tín hiệu cho thấy họ thấy trước sự sụp đổ hoặc sự truy cứu sắp xảy ra.

marsbit16 phút trước

Peter Thiel, Người Đứng Sau Palantir, Tại Sao Lại Chuẩn Bị Đường Lui Ở Argentina?

marsbit16 phút trước

“Thiếu nước”, điểm chết ẩn giấu của cơ sở hạ tầng AI

Vào tháng 6/2026, SpaceX đã sửa đổi bản cáo bạch trước khi lên sàn, lần đầu tiên nhấn mạnh một cách có hệ thống rủi ro về nguồn nước: tình trạng khan hiếm nước, hạn hán, cạnh tranh nguồn nước địa phương hoặc các hạn chế về quy định sử dụng nước có thể cản trở việc mở rộng trung tâm dữ liệu cho AI. Bài viết chỉ ra "dấu chân nước" khổng lồ của cơ sở hạ tầng AI. Năm 2023, các trung tâm dữ liệu Mỹ tiêu thụ trực tiếp khoảng 17 tỷ gallon nước để làm mát, và con số gián tiếp lên tới 211 tỷ gallon từ sản xuất điện. Dự báo đến 2028, mức tiêu thụ nước trực tiếp có thể tăng gấp 2-4 lần. Các công ty như Google và Meta tiêu thụ hàng tỷ gallon nước mỗi năm chỉ cho trung tâm dữ liệu. Xung đột đang nổi lên. Tại các khu vực khô hạn như Querétaro (Mexico), Mesa (Arizona, Mỹ), cư dân địa phương phản đối việc xây dựng trung tâm dữ liệu vì lo ngại cạn kiệt nguồn nước. Tại Mỹ, các dự án trung tâm dữ liệu trị giá 64 tỷ USD đã bị trì hoãn hoặc ngừng lại do sự phản đối của cộng đồng, với lý do chính là tiêu thụ nước. Giới đầu tư bắt đầu coi trọng rủi ro này. Họ yêu cầu các công ty công nghệ lớn minh bạch hơn về dữ liệu sử dụng nước. Việc SpaceX đưa vấn đề nước vào mục rủi ro trong hồ sơ IPO cho thấy nó đã chuyển từ vấn đề môi trường sang rủi ro vận hành và tài chính thực sự. Tóm lại, cuộc đua mở rộng cơ sở hạ tầng AI không chỉ phụ thuộc vào chip, điện hay vốn, mà ngày càng bị ràng buộc bởi một nguồn lực cơ bản: nước. Tốc độ phát triển trong tương lai có thể bị quyết định bởi chiếc "đồng hồ nước" chậm nhất.

marsbit20 phút trước

“Thiếu nước”, điểm chết ẩn giấu của cơ sở hạ tầng AI

marsbit20 phút trước

Chu Hàng: SpaceX rốt cuộc đáng giá bao nhiêu tiền?

**SpaceX: Một công ty vĩ đại, nhưng có thể bị định giá quá cao** Bài viết của Châu Hàng phân tích về giá trị thực của SpaceX, thừa nhận đây là một trong những công ty công nghiệp vĩ đại nhất trong 50 năm qua nhờ cách mạng hóa ngành hàng không vũ trụ, giảm chi phí phóng và xây dựng mạng lưới Starlink. Tuy nhiên, tác giả cho rằng mức định giá IPO kỳ vọng khoảng 1,75 nghìn tỷ USD có thể bị cao hơn tới 1,25 nghìn tỷ USD so với giá trị hợp lý dựa trên các mô hình tài chính. Dự báo doanh thu lạc quan nhất đến năm 2030 cùng tỷ lệ EBITDA hợp lý chỉ cho ra mức định giá trong khoảng 500 tỷ đến 1,2 nghìn tỷ USD. Khoảng chênh lệch 1,25 nghìn tỷ USD này đến từ ba yếu tố "phần bù": (1) Kỳ vọng vào tầm nhìn dài hạn (Starship, máy tính không gian), (2) Vị thế tài sản chiến lược/quốc gia, và (3) Câu chuyện anh hùng & sự sùng bái cá nhân dành cho Elon Musk. Bài viết dự đoán ba kịch bản sau IPO với xác suất khác nhau: định giá được củng cố (25%), dao động đi ngang (50%), hoặc điều chỉnh giảm về mức hợp lý hơn (25%). Tính trung bình theo xác suất, giá trị kỳ vọng trong 3-5 năm tới vào khoảng 1,3-1,5 nghìn tỷ USD, thấp hơn mức IPO kỳ vọng. Kết luận: SpaceX là một công ty vĩ đại, nhưng một cổ phiếu tuyệt vời không có nghĩa là nên mua ở mọi mức giá. Nhà đầu tư cần phân biệt rõ giữa việc đầu tư vào tiềm năng dài hạn của công ty và việc trả một mức giá cao cho câu chuyện hoặc cảm xúc thị trường.

marsbit25 phút trước

Chu Hàng: SpaceX rốt cuộc đáng giá bao nhiêu tiền?

marsbit25 phút trước

Ngành Phát Hành Thẻ Toàn Cầu Bước Vào Thời Đại Do Tuân Thủ Thúc Đẩy: WasabiCard Đang Xây Dựng Cơ Sở Hạ Tầng Thanh Toán Thế Hệ Tiếp Theo

WasabiCard vừa đưa ra quan điểm về ngành phát hành thẻ toàn cầu và cơ sở hạ tầng thanh toán bằng stablecoin, nhấn mạnh rằng ngành đang chuyển từ giai đoạn “thúc đẩy tăng trưởng” sang “thúc đẩy tuân thủ”. Khi stablecoin ngày càng được ứng dụng trong thanh toán xuyên biên giới và thương mại toàn cầu, trọng tâm cạnh tranh sẽ chuyển từ “tính khả dụng” sang “khả năng vận hành ổn định lâu dài trong khuôn khổ tuân thủ toàn cầu”. Đồng sáng lập WasabiCard, Ray, cho biết cạnh tranh trong giai đoạn tới sẽ xoay quanh năng lực vận hành tuân thủ và cơ sở hạ tầng toàn cầu hóa, không chỉ là hiệu quả sản phẩm. Khả năng phát hành thẻ toàn cầu đang trở thành cơ sở hạ tầng quan trọng kết nối tài sản số với mạng lưới thanh toán truyền thống. Tuy nhiên, sự mở rộng nhanh chóng cũng bộc lộ các vấn đề như phát hành thẻ xuyên khu vực, quản lý tài nguyên BIN, phát hành thẻ ẩn danh và năng lực kiểm soát rủi ro chưa đầy đủ. Ngành đang dần chuyển hướng từ mô hình tăng trưởng dựa vào “hiệu quả xám” sang con đường phát triển coi trọng tuân thủ, quản trị rủi ro và vận hành lâu dài. Để đáp ứng xu hướng này, WasabiCard tiết lộ chiến lược tập trung vào việc thiết lập hệ thống vận hành địa phương thông qua đối tác có giấy phép, xây dựng hệ thống KYC và AML chặt chẽ, phân biệt rõ ràng các kịch bản sử dụng BIN thương mại và tiêu dùng, cũng như hoàn thiện năng lực cơ sở hạ tầng phát hành thẻ, thanh toán và chuyển vốn xuyên biên giới. Mục tiêu là xây dựng một cơ sở hạ tầng thanh toán ổn định, có khả năng mở rộng, biến nó thành năng lực nền tảng được tích hợp trong thương mại internet. Tương lai, WasabiCard sẽ tiếp tục củng cố năng lực trong các lĩnh vực phát hành thẻ toàn cầu, thanh toán bằng stablecoin, chuyển vốn xuyên biên giới và quy trình tài chính được vận hành bằng API.

marsbit32 phút trước

Ngành Phát Hành Thẻ Toàn Cầu Bước Vào Thời Đại Do Tuân Thủ Thúc Đẩy: WasabiCard Đang Xây Dựng Cơ Sở Hạ Tầng Thanh Toán Thế Hệ Tiếp Theo

marsbit32 phút trước

Chu Hàng: SpaceX Thực Sự Đáng Giá Bao Nhiêu?

Tác giả Châu Hàng phân tích rằng SpaceX có thể là công ty công nghiệp vĩ đại nhất trong 50 năm qua, nhưng định giá 1,75 nghìn tỷ USD của nó trước khi IPO lại bị cho là cao hơn tới 1,25 nghìn tỷ USD so với giá trị hợp lý. Bài viết thừa nhận những thành tựu phi thường của SpaceX: giảm chi phí phóng 36 lần, thống lĩnh thị phần phóng, tạo ra tên lửa tái sử dụng và xây dựng chòm sao vệ tinh Starlink toàn cầu. Tuy nhiên, việc định giá hiện tại tương đương với 2,5 lần tổng vốn hóa của 5 đối thủ truyền thống lớn nhất, vượt cả GDP của Mexico. Theo phân tích tài chính, ngay cả với kịch bản lạc quan nhất cho năm 2030 (doanh thu 50-80 tỷ USD, biên lợi nhuận 40%), định giá hợp lý của SpaceX chỉ nên trong khoảng 500 tỷ đến 1,2 nghìn tỷ USD. Khoảng chênh lệch 1,25 nghìn tỷ USD phản ánh ba khoản "phụ trội": phụ trội tầm nhìn dài hạn (Starship, điện toán không gian), phụ trội tài sản chiến lược/quốc gia, và phụ trội từ câu chuyện anh hùng & sự sùng bái cá nhân dành cho Elon Musk. Dự báo sau IPO, có ba kịch bái với xác suất khác nhau: định giá được củng cố (25%), định giá dao động sideway (50%) và định giá điều chỉnh giảm (25%). Tính theo trọng số xác suất, giá trị kỳ vọng trong 3-5 năm tới chỉ vào khoảng 1,3-1,5 nghìn tỷ USD, thấp hơn mức định giá IPO 1,75 nghìn tỷ USD. Điều này có nghĩa là mua ở mức giá IPO, kỳ vọng lợi nhuận sau 5 năm là âm. Bài viết kết luận: SpaceX là một công ty vĩ đại, nhưng một công ty vĩ đại chưa chắc đã là một cổ phiếu đáng mua ở mọi mức giá. Nhà đầu tư cần phân biệt rõ họ đang đầu tư vào thực lực của công ty hay chỉ đang mua một câu chuyện đầy cảm hứng, và nên thận trọng, không nên mua FOMO ngay trong ngày IPO.

链捕手33 phút trước

Chu Hàng: SpaceX Thực Sự Đáng Giá Bao Nhiêu?

链捕手33 phút trước

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片