Chạy MoE trên điện thoại? Meta đề xuất MobileMoE, iPhone 16 Pro tăng tốc đến 3.8 lần

marsbitXuất bản vào 2026-06-01Cập nhật gần nhất vào 2026-06-01

Tóm tắt

Trong những năm gần đây, Mô hình Chuyên gia Hỗn hợp (MoE) đã được sử dụng rộng rãi cho các mô hình lớn trên đám mây. Tuy nhiên, trên điện thoại, Kiến trúc Ngôn ngữ Lớn (LLM) vẫn chủ yếu sử dụng kiến trúc dày đặc. Meta đã đề xuất MobileMoE, lần đầu tiên triển khai suy luận MoE hiệu quả trên điện thoại thông minh thương mại. Kết quả cho thấy, trên 14 bài kiểm tra cơ bản, MobileMoE-S/M đạt độ chính xác trung bình tương đương hoặc cao hơn với chỉ 1/2 đến 1/4 lượng tính toán suy luận so với mô hình dày đặc cơ sở, trong khi sử dụng bộ nhớ tương tự. Trong thử nghiệm thực tế, MobileMoE-S trên iPhone 16 Pro (backend GPU/MLX) tăng tốc độ đáng kể, tăng tốc lên đến 3.8 lần trong giai đoạn đầu vào. MobileMoE là một loại mô hình ngôn ngữ MoE được thiết kế cho triển khai trên thiết bị đầu cuối, thay thế các lớp feed-forward dày đặc bằng các lớp MoE trong kiến trúc Transformer decoder-only. Quy trình đào tạo bao gồm bốn giai đoạn: tiền đào tạo, đào tạo trung gian, tinh chỉnh có giám sát và đào tạo nhận thức lượng tử hóa. Các thí nghiệm cho thấy cấu hình tối ưu sử dụng 8 chuyên gia (E=8), độ hạt chuyên gia 8 (g=8), với một chuyên gia được chia sẻ. MobileMoE thiết lập một biên giới Pareto mới cho LLM trên thiết bị đầu cuối, cân bằng tốt hơn giữa độ chính xác và chi phí suy luận. Sau khi lượng tử hóa INT4, mô hình vẫn duy trì tính cạnh tranh. Khi triển khai trên Samsung Galaxy S25 và iPhone 16 Pro, MobileMoE-S cho thấy tốc độ nhanh hơn đáng kể và mức sử dụng bộ nhớ thấp hơn so với các mô hình...

Những năm gần đây, Mô hình Hỗn hợp Chuyên gia (MoE) đã được sử dụng rộng rãi cho các mô hình lớn trên đám mây. Tuy nhiên, trên thiết bị di động, Mô hình Ngôn ngữ Lớn (LLM) vẫn chủ yếu sử dụng kiến trúc dày đặc (dense). Trước đây, các ràng buộc về bộ nhớ, năng lực tính toán và độ trễ trên thiết bị di động nghiêm ngặt hơn, vẫn thiếu các nghiên cứu hệ thống về MoE phía máy khách trong phạm vi vài tỷ tham số. Ngày nay, với việc dung lượng DRAM trên thiết bị di động được nâng cao, MoE cũng bắt đầu có cơ hội được triển khai trên điện thoại thông minh.

MobileMoE do nhóm Meta đề xuất, lần đầu tiên thực hiện suy luận MoE hiệu quả trên điện thoại thông minh thương mại. Kết quả cho thấy, trong 14 bài kiểm tra cơ bản, MobileMoE-S/M với bộ nhớ gần tương đương, chỉ sử dụng lượng tính toán suy luận bằng 1/2 đến 1/4 so với đường cơ sở dày đặc, đã đạt được độ chính xác trung bình ngang bằng hoặc cao hơn. Trong thử nghiệm thực tế, MobileMoE-S cho thấy tốc độ tăng nhanh rõ rệt nhất trên GPU/MLX backend của iPhone 16 Pro, trong giai đoạn đầu vào có thể tăng tốc tối đa 3.8 lần.

Liên kết bài báo: https://arxiv.org/abs/2605.27358

Nhóm nghiên cứu cũng đề xuất một bộ quy tắc co giãn MoE phía máy khách, được sử dụng để xác định cấu trúc mô hình phù hợp hơn cho việc triển khai trên điện thoại. MobileMoE thiết lập biên giới Pareto mới cho mô hình ngôn ngữ lớn phía máy khách, đạt được kết quả tối ưu hơn trong việc cân bằng giữa độ chính xác và chi phí tính toán suy luận.

Hình| MobileMoE thiết lập biên giới Pareto mới cho mô hình ngôn ngữ lớn phía máy khách.

MobileMoE được thiết kế như thế nào?

MobileMoE có thể hiểu như sau: nó là một loại mô hình ngôn ngữ MoE được thiết kế hướng đến triển khai phía máy khách. Về tổng thể vẫn là Transformer chỉ giải mã (decoder-only), nhưng thay thế các tầng truyền thẳng dày đặc ban đầu bằng các tầng MoE. Bộ định tuyến sẽ chọn ra một số ít chuyên gia có điểm số cao nhất cho mỗi token để tham gia tính toán, đồng thời luôn có một chuyên gia được chia sẻ tham gia tính toán. Toàn bộ quy trình đào tạo được chia thành bốn bước: tiền đào tạo, đào tạo trung kỳ, tinh chỉnh có giám sát và đào tạo nhận thức lượng tử hóa.

Tiền đào tạo: Nhóm nghiên cứu đã thực hiện tiền đào tạo trên khoảng 6T token dữ liệu có giấy phép mở với độ dài ngữ cảnh 2048, dữ liệu chủ yếu từ Web, đồng thời bao phủ các lĩnh vực như toán học, mã, kiến thức và khoa học.

Đào tạo trung kỳ: Nhóm nghiên cứu đã mở rộng độ dài ngữ cảnh lên 8192, và tiếp tục nâng cao tỷ lệ dữ liệu chất lượng cao như kiến thức, mã, toán học và khoa học, tổng quy mô khoảng 500B token.

Tinh chỉnh có giám sát (SFT): Nhóm nghiên cứu đã tinh chỉnh MobileMoE-Base trên dữ liệu tinh chỉnh hướng dẫn có giấy phép mở với hơn 80 triệu mẫu.

Đào tạo nhận thức lượng tử hóa: Nhóm nghiên cứu đã lượng tử hóa các tầng tuyến tính và embedding xuống INT4, lượng tử hóa động kích hoạt xuống INT8, trong khi router vẫn giữ độ chính xác FP32.

Hình| Bốn giai đoạn đào tạo của MobileMoE.

Kết quả thực nghiệm

Kết quả thực nghiệm loại bỏ (ablation)

Nhóm nghiên cứu trước tiên so sánh ba biến số kiến trúc: số lượng chuyên gia E, độ chi tiết của chuyên gia g, và việc có thêm chuyên gia chia sẻ hay không.

Hình| Sự co giãn của số lượng chuyên gia E.

Trong điều kiện ngân sách bộ nhớ cố định, khi bộ nhớ cao hơn khoảng 0.25GB, độ lỗi của MoE bắt đầu thấp hơn mô hình dày đặc tương ứng. Tiếp tục tăng số lượng chuyên gia E, độ lỗi sẽ tiếp tục giảm, nhưng khi E tăng lên 8, lợi ích cận biên đã giảm đi rõ rệt. Thử nghiệm về độ chi tiết của chuyên gia g cho thấy, cấu hình chuyên gia có độ chi tiết mịn hơn nhìn chung tối ưu hơn, trong đó g=8 đạt được sự cân bằng tốt giữa hiệu quả và chi phí đào tạo; khi g tăng từ 8 lên 16, cải thiện độ lỗi không đầy 0.01, nhưng thời gian đào tạo tăng khoảng 50%. Trong cùng ngân sách tính toán, việc thêm chuyên gia chia sẻ giúp độ lỗi của mô hình giảm thêm.

Dựa trên kết quả thực nghiệm loại bỏ, nhóm nghiên cứu cuối cùng đã sử dụng cấu hình E=8, g=8, có chuyên gia chia sẻ, tức là 60 chuyên gia định tuyến mức độ chi tiết mịn, định tuyến Top-4 và 1 chuyên gia chia sẻ, và áp dụng cấu trúc này cho ba phiên bản MobileMoE-S/M/L.

Hình| Co giãn mô hình MoE trong điều kiện tối ưu hóa tính toán.

Hình| Hiệu quả đào tạo của kiến trúc MoE.

14 đánh giá cơ bản: Thiết lập biên giới Pareto mới cho phía máy khách

Nhóm nghiên cứu đã đánh giá lại MobileMoE cùng với các mô hình như Gemma 3, SmolLM2, Qwen3.5, OLMo 2, OLMoE-1B-7B trong thiết lập thống nhất, thuộc năm loại lập luận thường thức, kiến thức, khoa học, đọc hiểu và suy luận với tổng cộng 14 bài đánh giá cơ bản.

Hình| Quá trình tiền đào tạo của MobileMoE.

Kết quả so sánh mô hình Base cho thấy, điểm trung bình của MobileMoE-M cao hơn Qwen3.5 2B, điểm trung bình của MobileMoE-L cao hơn OLMoE-1B-7B, đồng thời quy mô mô hình yêu cầu cũng nhỏ hơn; nhóm nghiên cứu cũng đề cập, phiên bản Base của MobileMoE-L đã có điểm trung bình cao hơn phiên bản Instruct của OLMoE-1B-7B. Về quy mô đào tạo, MobileMoE sử dụng khoảng 6T token tiền đào tạo, ít hơn 9T của Llama 3.2 1B và 11T của SmolLM2 1.7B. Trong so sánh tổng thể mô hình được tinh chỉnh hướng dẫn, độ chính xác trung bình của MobileMoE-M đã tiếp cận OLMoE-1B-7B, nhưng số tham số hoạt động và tổng tham số đều ít hơn khoảng 60%.

Hình| So sánh mô hình MobileMoE-Base.

Đánh giá nâng cao: Ưu thế rõ rệt hơn ở nhiệm vụ mã và toán học

Trong các đánh giá nâng cao sau khi tinh chỉnh hướng dẫn, MobileMoE thể hiện nổi bật hơn ở các nhiệm vụ mã và toán học. Lấy MobileMoE-L làm ví dụ, điểm trung bình của nó trong cả hai loại đánh giá mã và toán học đều cao hơn Qwen3.5 2B và OLMoE-1B-7B. Tuy nhiên, nhóm nghiên cứu cũng đề cập rằng, trong hai khả năng tuân theo hướng dẫn và lập luận kiến thức, Qwen3.5 2B vẫn mạnh hơn.

Hình| So sánh mô hình Instruct trên các bài kiểm tra chuẩn nâng cao.

Lượng tử hóa và triển khai phía máy khách: Vẫn giữ tính cạnh tranh sau INT4, tăng tốc rõ rệt trên điện thoại

Sau khi lượng tử hóa, điểm trung bình tổng thể của MobileMoE-S/M/L so với phiên bản BF16 tương ứng của chúng có giảm, nhưng mức giảm dao động trong khoảng 2 đến 3 điểm. Dù vậy, hiệu suất của phiên bản INT4 của MobileMoE-L vẫn cao hơn phiên bản BF16 của OLMoE-1B-7B Instruct.

Nhóm nghiên cứu cũng đã triển khai MobileMoE lên Samsung Galaxy S25 và iPhone 16 Pro để kiểm tra. Kết quả cho thấy, trong điều kiện bộ nhớ trọng số INT4 tương đương, MobileMoE-S so với MobileLLM-Pro, tăng tốc giai đoạn đầu vào 1.8-3.8 lần, tăng tốc giai đoạn sinh token tuần tự 2.2-3.4 lần.

Về mức sử dụng bộ nhớ, trong điều kiện Samsung Galaxy S25, ngữ cảnh 8K và prompt thực tế, RSS đỉnh của MobileMoE-S là 1.49GB, thấp hơn 1.91GB của MobileLLM-Pro.

Hình| Độ trễ thời gian chạy phía máy khách.

Hạn chế và hướng phát triển tương lai

Hiện tại, trong khả năng tuân theo hướng dẫn cao cấp hơn cũng như khả năng kiến thức và lập luận, MobileMoE sau khi tinh chỉnh hướng dẫn vẫn tụt sau Qwen3.5 2B. Nhóm nghiên cứu cho rằng, khoảng cách này có thể liên quan đến việc đào tạo hậu kỳ hoàn thiện hơn. Trong tương lai, để thu hẹp khoảng cách này, phía đào tạo cần tăng cường chưng cất, đào tạo hậu kỳ hướng đến suy luận, cũng như mở rộng đa phương thức.

Ngoài ra, nhóm nghiên cứu chỉ ra rằng, việc sử dụng bộ nhớ của MoE trên điện thoại sẽ thay đổi theo nội dung đầu vào. So với đầu vào theo mẫu cố định, đầu vào thực tế thường mang lại mức sử dụng bộ nhớ cao hơn. Nếu chỉ dựa trên đầu vào theo mẫu để kiểm tra, có thể đánh giá thấp áp lực bộ nhớ trong các kịch bản triển khai thực tế. Trong tương lai, để đánh giá chính xác hơn hiệu suất bộ nhớ thực tế của MoE phía máy khách, vẫn cần dựa trên nhiều dữ liệu đo lường thực tế hơn.

Đồng thời, nhóm nghiên cứu đã hoàn thành các thử nghiệm hệ thống trên thiết bị thực với CPU và GPU backend, nhưng hướng đi NPU vẫn cần được khám phá. Đồng thời, việc sử dụng bộ nhớ thời gian chạy của MoE khá nhạy cảm với nội dung đầu vào. Trong tương lai, định tuyến động, cắt tỉa chuyên gia, lượng tử hóa độ chính xác hỗn hợp và triển khai NPU trên thiết bị di động đều là các hướng tiếp tục nâng cao hiệu quả phía máy khách.

Để biết thêm chi tiết kỹ thuật, vui lòng tham khảo bài báo gốc.

Bài viết này đến từ tài khoản WeChat công cộng “Academic Headlines” (ID: SciTouTiao), tác giả: Xia Qiansi

Câu hỏi Liên quan

QMô hình MobileMoE của Meta có những ưu điểm gì so với kiến trúc dày đặc truyền thống khi triển khai trên điện thoại?

AMobileMoE của Meta giúp tiết kiệm đáng kể lượng tính toán suy luận, chỉ cần khoảng 1/2 đến 1/4 so với mô hình dày đặc truyền thống trong khi vẫn đạt độ chính xác tương đương hoặc cao hơn. Điều này dẫn đến tốc độ xử lý nhanh hơn, ví dụ trên iPhone 16 Pro, tốc độ có thể tăng lên đến 3.8 lần trong giai đoạn nhập liệu.

QMobileMoE được thiết kế và đào tạo qua những giai đoạn nào?

AMobileMoE được đào tạo qua bốn giai đoạn chính: 1) Tiền đào tạo với độ dài ngữ cảnh 2048 và khoảng 6T token dữ liệu. 2) Đào tạo trung gian, mở rộng độ dài ngữ cảnh lên 8192 và tăng tỷ lệ dữ liệu chất lượng cao. 3) Vi tinh chỉnh có giám sát (SFT) trên hơn 80 triệu mẫu dữ liệu hướng dẫn. 4) Đào tạo nhận thức lượng tử hóa (QAT), lượng tử hóa các lớp tuyến tính và embedding về INT4, kích hoạt về INT8.

QCấu trúc kiến trúc cuối cùng được chọn cho MobileMoE (S/M/L) là gì dựa trên kết quả thử nghiệm?

ADựa trên kết quả thử nghiệm loại bỏ, cấu trúc cuối cùng được chọn cho MobileMoE-S/M/L là: số lượng chuyên gia E=8, độ hạt chuyên gia g=8, tích hợp một chuyên gia dùng chung, sử dụng định tuyến Top-4. Cấu hình này tương đương với 60 chuyên gia định tuyến hạt mịn và 1 chuyên gia dùng chung.

QMobileMoE thể hiện thế mạnh gì trong các bài đánh giá nâng cao (Advanced Benchmarks)?

ATrong các bài đánh giá nâng cao, đặc biệt sau khi vi tinh chỉnh theo hướng dẫn, MobileMoE thể hiện ưu thế rõ rệt hơn trong các nhiệm vụ về mã code và toán học. Ví dụ, MobileMoE-L đạt điểm trung bình cao hơn cả Qwen3.5 2B và OLMoE-1B-7B trong hai lĩnh vực này.

QNhững hạn chế và hướng phát triển tương lai của MobileMoE được đề cập trong bài viết là gì?

AHạn chế hiện tại bao gồm: khả năng tuân theo chỉ dẫn phức tạp và suy luận kiến thức vẫn còn thua kém so với một số mô hình như Qwen3.5 2B; bộ nhớ chiếm dụng khi chạy trên thiết bị di động nhạy cảm với nội dung đầu vào. Hướng phát triển tương lai bao gồm: củng cố đào tạo sau (như chưng cất, đào tạo hướng suy luận), mở rộng đa phương thức, khám phá triển khai trên NPU di động, và các kỹ thuật tối ưu hóa như định tuyến động, tỉa chuyên gia, lượng tử hóa độ chính xác hỗn hợp.

Nội dung Liên quan

24/7 Dòng Chảy Phái Sinh Không Ngừng Nghỉ: Tiền Mã Hóa Đang Buộc Tài Chính Truyền Thống 'Đổi Múi Giờ'

Tiền điện tử luôn hoạt động trên một đồng hồ khác với tài chính truyền thống, không ngừng nghỉ cuối tuần hay ngày lễ. Giờ đây, ranh giới này đang thu hẹp khi CME Group thông báo kế hoạch cung cấp giao dịch phái sinh tiền điện tử được quản lý suốt 24/7 từ cuối tháng 5. Động thái này không chỉ là mở rộng giờ giao dịch, mà còn báo hiệu tài chính truyền thống đang bị kéo về phía cấu trúc thị trường liên tục mà tiền điện tử đã đi tiên phong. Trọng tâm thị trường tiền điện tử đã chuyển dần khỏi giao dịch giao ngay đơn thuần. Phái sinh, chiếm phần lớn khối lượng giao dịch trên các sàn tập trung, đang trở thành lớp thị trường thể chế chính để quản lý rủi ro và định giá biến động. Nhu cầu quản lý rủi ro liên tục từ các tổ chức đang thúc đẩy sự thay đổi này. Tuy nhiên, thách thức nằm ở việc hòa hợp hệ thống thanh toán và giám sát truyền thống với nhịp độ không ngừng. Giao dịch có thể diễn ra liên tục, nhưng quy trình thanh toán, ký quỹ và báo cáo tuân thủ vẫn hoạt động theo khung ngày làm việc, tạo ra khoảng cách cần được thu hẹp. Một thách thức khác là tính minh bạch vốn có của blockchain. Trong khi khả năng kiểm toán công khai có thể xây dựng niềm tin, nó cũng làm lộ các luồng thông tin nhạy cảm như vị thế kho bạc hoặc thanh khoản của tổ chức cho đối thủ, biến minh bạch thành một mặt của rủi ro. Do đó, cơ sở hạ tầng thị trường tương lai cần tích hợp các giải pháp bảo vệ quyền riêng tư có trách nhiệm giải trình, cho phép xác minh mà không tiết lộ thông tin không cần thiết. Tóm lại, giai đoạn tiếp theo của việc áp dụng tiền điện tử thể chế sẽ không chỉ được định nghĩa bởi tài sản nào được niêm yết, mà bởi khả năng của hệ thống tài chính trong việc quản lý rủi ro, danh tính, quyền riêng tư và thanh toán với tốc độ mà các thị trường không ngừng nghỉ đòi hỏi. Tài chính truyền thống đang học cách vận hành theo đồng hồ của tiền điện tử.

marsbit29 phút trước

24/7 Dòng Chảy Phái Sinh Không Ngừng Nghỉ: Tiền Mã Hóa Đang Buộc Tài Chính Truyền Thống 'Đổi Múi Giờ'

marsbit29 phút trước

Từ 'Bán Đám Mây' đến 'Bán Token': Các Nhà Mạng Hoàn Toàn Tham Gia Chiến Trường AI

Từ "bán lưu lượng" đến "bán Token": Các nhà mạng viễn thông Trung Quốc đang toàn lực bước vào cuộc chiến AI, định vị lại mình như "nhà cung cấp dịch vụ truy cập AI tổng hợp". Động thái then chốt là việc tung ra các gói Token hóa, biến Token trở thành đơn vị đo lường dịch vụ cơ bản thứ tư, sau thoại, SMS và data. Các nhà mạng như China Telecom, China Mobile và China Unicom đang đóng gói khả năng AI thành các gói đăng ký đơn giản (ví dụ: từ 9.9 RMB/tháng), giúp doanh nghiệp và cá nhân dễ dàng tiếp cận. Động lực đến từ áp lực thị trường khi thị phần AI cloud truyền thống bị thu hẹp trước các đám mây Internet, và nhu cầu nội tại tìm kiếm động lực tăng trưởng mới từ lĩnh vực tính toán AI. Sự thay đổi này yêu cầu một cuộc tái cấu trúc sâu sắc: tích hợp nhiều mô hình (tự phát triển và bên thứ ba), tích hợp sức mạnh tính toán phân tán thành một mạng lưới thông minh, tích hợp khả năng thành các tác nhân thông minh (AI agent) cho ngành, và quan trọng nhất là tích hợp tất cả vào một hệ thống thanh toán và vận hành thống nhất dựa trên Token. Bằng cách xây dựng "giàn giáo" 5 tầng gồm mô hình, sức mạnh tính toán, ứng dụng, thanh toán và an ninh, các nhà mạng đang cố gắng biến AI trở thành một dịch vụ hạ tầng có thể đo lường, có hóa đơn, vận hành ổn định và đáng tin cậy như điện, nước. Mục tiêu cuối cùng là biến AI thành yếu tố sản xuất có thể tiếp cận và chi trả dễ dàng cho mọi doanh nghiệp.

marsbit50 phút trước

Từ 'Bán Đám Mây' đến 'Bán Token': Các Nhà Mạng Hoàn Toàn Tham Gia Chiến Trường AI

marsbit50 phút trước

Unitree IPO thành công, Hàng Châu thắng lớn

Hôm nay, Unitree Robotics đã chính thức vượt qua phiên họp phê duyệt niêm yết trên sàn STAR, kế hoạch huy động vốn 4,202 tỷ NDT cho việc nghiên cứu và phát triển mô hình robot thông minh, robot本体, v.v. Điều này đánh dấu công ty hàng đầu trong "Lục Tiểu Long Hàng Châu" sẽ chính thức trở thành "cổ phiếu robot hình người đầu tiên". Hành trình của Unitree và người sáng lập Vương Hưng Hưng không hề dễ dàng. Khởi nghiệp từ năm 2016 trong một văn phòng nhỏ 50m² ở Hàng Châu, họ đã đối mặt với những nghi ngờ của thị trường và khó khăn tài chính, thậm chí bị gắn mác "đồ chơi". Thời điểm khó khăn nhất, số dư tài khoản chỉ còn vài trăm nghìn NDT. Bước ngoặt đến vào năm 2018 khi vốn nhà nước Hàng Châu ra tay hỗ trợ, cung cấp khoản tín dụng bảo lãnh 20 triệu NDT chỉ trong 10 ngày. Khoản vốn "cứu nguy" này đã giúp Unitree ổn định, hoàn thành bước nhảy vọt từ nguyên mẫu R&D sang sản xuất hàng loạt, và mở đường cho các vòng gọi vốn sau này. Sau đó, các quỹ mẹ tỷ đô của Hàng Châu như Quỹ Đổi mới Sáng tạo và Quỹ Khoa học Công nghệ Hàng Châu đã liên tục đồng hành qua 4 vòng gọi vốn (B2, B3, C, C+), thu hút cả các nhà đầu tư chiến lược hàng đầu như China Mobile, Tencent, Alibaba. Sự đồng hành của "vốn kiên nhẫn" Hàng Châu đã giúp Unitree phát triển vững mạnh, dẫn đầu thị trường robot chân toàn cầu, đạt doanh thu 1,699 tỷ NDT và lợi nhuận ròng gần 591 triệu NDT vào năm 2025. Câu chuyện của Unitree là minh chứng sinh động cho hệ sinh thái khởi nghiệp công nghệ cao tại Hàng Châu. Thành phố này đã xây dựng cụm quỹ ngành "3+N" quy mô 500 tỷ NDT để đầu tư sớm, đầu tư dài hạn vào công nghệ cứng, đồng thời thu hút hàng trăm nghìn nhân tài trẻ. Với 48 kỳ lân và 413 chuẩn kỳ lân, Hàng Châu đang dần trở thành "thành phố lý tưởng" trong lòng các nhà sáng chế.

marsbit53 phút trước

Unitree IPO thành công, Hàng Châu thắng lớn

marsbit53 phút trước

Chứng khoán Mỹ càng tăng càng nguy hiểm? Goldman Sachs: Cơ chế bảo vệ khi thị trường đi xuống gần như đã mất tác dụng

Thị trường chứng khoán Mỹ liên tục lập đỉnh mới, nhưng Goldman Sachs cảnh báo cơ chế bảo vệ trước rủi ro giảm điểm đang gần như mất tác dụng. Nhà chiến lược phái sinh Brian Garrett chỉ ra rằng độ nghiêng biến động (Skew) của quyền chọn S&P 500 đã giảm xuống mức thấp nhất 18 tháng, cho thấy thị trường định giá xác suất giảm 10% và tăng 10% là gần như tương đương, khoảng 8%. Điều này có nghĩa là nhu cầu phòng hộ rủi ro suy thoái đã giảm mạnh, được phản ánh qua Chỉ số Hoảng loạn (GS Panic Index) của Goldman ở mức một chữ số, thấp nhất trong hai năm. Báo cáo nêu bật ba mối lo ngại chính: sự thu hẹp cực độ của nhóm cổ phiếu dẫn dắt thị trường (10 cổ phiếu lớn nhất chiếm 40% trọng số S&P 500), sự tập trung cao vào chủ đề AI, và mô hình giá tương đồng với giai đoạn 1998-1999. Mặc dù các cảnh báo xuất hiện nhiều, nhưng lo ngại này lại không được định giá trên thị trường quyền chọn. Goldman Sachs nhận định chi phí phòng hộ rủi ro hiện ở mức rất thấp và đưa ra một số khuyến nghị giao dịch: mua quyền chọn vượt trội cho ETF RSP so với S&P 500, mua quyền chọn mua VIX, hoặc trực tiếp mua quyền chọn bán S&P 500. Báo cáo cũng đề xuất tận dụng biến động giá thấp hiện tại của ETF Bitcoin. Về dòng tiền, quỹ phòng hộ đã mua ròng trong hai tuần liên tiếp, nhanh nhất trong năm, với luân chuyển từ cổ phiếu công nghiệp sang cổ phiếu tài chính. Quy mô tài sản của các ETF đòn bẩy và nghịch đảo cổ phiếu đơn lẻ toàn cầu đã tăng gấp đôi trong hai tháng, lên hơn 60 tỷ USD.

marsbit1 giờ trước

Chứng khoán Mỹ càng tăng càng nguy hiểm? Goldman Sachs: Cơ chế bảo vệ khi thị trường đi xuống gần như đã mất tác dụng

marsbit1 giờ trước

Giao dịch

Giao ngay
Hợp đồng Tương lai
活动图片