Unitree đã được NVIDIA chọn, nhưng NVIDIA lại không chọn tay của Unitree.
Trong khi Unitree Technology vượt qua cuộc họp xét duyệt IPO trên STAR Market, robot hình người H2 Plus của họ đã được NVIDIA chấp thuận, trở thành bản thể robot hình người tham chiếu của NVIDIA Isaac GR00T.
Cuộc hợp tác mạnh mẽ này đã làm cho cộng đồng thông minh nhập thể và AI sôi sục. Bởi vì, vị thế của NVIDIA trong giới công nghệ là không cần phải bàn cãi, và Unitree với khả năng kiểm soát vận động robot xuất sắc, đã lọt vào nhóm robot hình người hàng đầu thế giới.
Nhưng điều thực sự bất ngờ là, mẫu robot tham chiếu này lại không sử dụng bàn tay khéo léo của chính Unitree, mà thay vào đó là Sharpa Wave.
Sharpa là một công ty bàn tay khéo léo mới thành lập chỉ hai năm, có trụ sở tại Singapore, đội ngũ cốt cốt đến từ nhóm bàn tay khéo léo được Hesai Technology thành lập vào năm 2024. Nó không có tiếng tăm như Unitree, cũng không thường xuyên xuất hiện trong tin tức gọi vốn như Lingxinqiaoshou hay Linjiedian.
Trong Tết Nguyên đán năm nay, bàn tay Sharpa cũng từng xuất hiện trong chương trình "Đêm nay tôi nhớ nhất" của Thẩm Đằng và Mã Lệ. Nhưng nhìn vào phân khúc bàn tay khéo léo này, nó vẫn cực kỳ kín tiếng.
Bây giờ, nó lại cùng Unitree đứng trên bàn đấu thông minh nhập thể của NVIDIA.
Một bên chịu trách nhiệm về thân thể, một bên chịu trách nhiệm về đôi tay.
Chỉ là, một công ty bàn tay khéo léo mới thành lập chỉ hai năm, dựa vào đâu để được NVIDIA để mắt tới?
Tay của Unitree, lần này thua
Thực ra, Unitree không phải là không có bàn tay khéo léo của riêng mình.
Nhìn vào dòng sản phẩm công khai, Unitree đã cho ra mắt dòng bàn tay khéo léo Dex, từ thiết kế ba ngón tay đến năm ngón tay đều có, hiệu suất cũng không tệ.
Nhưng có lẽ những gì NVIDIA muốn lần này, không chỉ là một "bàn tay có thể lắp trên robot hình người".
Xét về hướng công nghệ, bàn tay khéo léo của Sharpa quả thực có ưu điểm vượt trội.
Năm 2024, Hesai Technology thành lập đội ngũ bàn tay khéo léo, đây là tiền thân của Sharpa. Từ lidar của Hesai Technology đến bàn tay khéo léo, Sharpa có vẻ hơi "xuyên ngành".
Trong ấn tượng của nhiều người, xe tự lái và robot là hai ngành công nghiệp hoàn toàn khác nhau.
Nhưng đối với một công ty như Hesai, thực ra giữa hai bên có một số tích lũy công nghệ chung.
Xe tự lái yêu cầu máy móc phải cảm nhận, hiểu và đưa ra quyết định trong môi trường phức tạp theo thời gian thực, đòi hỏi cao về độ chính xác của cảm biến, độ tin cậy của hệ thống và khả năng kỹ thuật hóa. Khi robot bước vào thế giới thực để thực hiện nhiệm vụ, cũng sẽ gặp phải vấn đề tương tự.
Khác biệt nằm ở chỗ, xe tự lái giải quyết vấn đề "xe nhìn thế giới như thế nào", còn bàn tay khéo léo giải quyết vấn đề "robot tiếp xúc với thế giới như thế nào".
Cũng chính vì vậy, Sharpa đã chuyển đổi năng lực trước đây sang một lĩnh vực khác. Không lâu sau khi thành lập, Sharpa đã ra mắt sản phẩm chủ lực Sharpa Wave.
Trong lĩnh vực bàn tay khéo léo, một mâu thuẫn tồn tại lâu dài là: hiệu suất và sản lượng hàng loạt thường khó kiêm được.
Một số sản phẩm sử dụng phương án underactuated, thông qua một số ít động cơ để điều khiển nhiều khớp, chi phí tương đối thấp nhưng tính linh hoạt và độ chính xác điều khiển bị hạn chế; một số sản phẩm khác theo đuổi khả năng gần giống tay người, cấu trúc phức tạp, giá thành đắt đỏ, lại rất khó triển khai trên quy mô lớn.
Sharpa đã chọn một con đường nằm giữa hai bên.
Sharpa Wave có 22 bậc tự do chủ động, kích thước tổng thể tỷ lệ gần 1:1 so với bàn tay người. Để đạt được độ chính xác điều khiển cao hơn, nó sử dụng kiến trúc truyền động trực tiếp, nâng cao tốc độ phản ứng của khớp và khả năng kiểm soát động tác.
Nhưng so với con số bậc tự do, cốt lõi hơn là sự đầu tư của Sharpa vào hệ thống xúc giác.
Trong ngành robot hình người, một xu hướng ngày càng rõ ràng là: chỉ dựa vào thị giác đã không thể đáp ứng nhu cầu thao tác phức tạp.
Sharpa đã phát triển một hệ thống xúc giác tên là Dynamic Tactile Array (DTA). Tích hợp camera siêu nhỏ và hơn 1000 đơn vị cảm nhận xúc giác bên trong mỗi đầu ngón tay, cho phép robot có thể cảm nhận sự thay đổi áp lực, cũng có thể nhận biết kết cấu bề mặt, trượt và trạng thái tiếp xúc, có được một loại "phản hồi xúc giác" tương tự như đầu ngón tay con người.
Theo dữ liệu Sharpa tiết lộ, độ chính xác cảm nhận xúc giác của họ có thể đạt mức 0.005N, tần suất làm mới đạt 180Hz; tần suất điều khiển toàn bộ bàn tay đạt 500Hz, lực đầu ra một đầu ngón tay vượt quá 20N.
Những thông số này cuối cùng đều hướng đến cùng một mục tiêu: cho phép robot thực sự có khả năng xử lý vật thể trong thế giới thực.
Điều này không hoàn toàn giống với hướng đi của bàn tay khéo léo của chính Unitree.
Dòng Dex của Unitree, gần gũi hơn với hệ thống robot nguyên chiếc của chính họ. Dù là thiết kế ba ngón hay năm ngón, trọng tâm đều là để robot hoàn thành việc cầm nắm và thao tác trong chính thân thể, kiểm soát vận động và hệ sinh thái phát triển của mình.
Điều này có nghĩa là, không phải tay của Unitree không tốt, chỉ là đối với mẫu robot tham chiếu của NVIDIA, tay của Sharpa phù hợp hơn với yêu cầu.
Vậy nên, giá trị của Sharpa Wave nằm ở chỗ biến việc "tiếp xúc thế giới" thành điểm vào dữ liệu mà robot có thể cảm nhận, phản hồi và huấn luyện.
Nhưng thông số luôn chỉ là thông số, muốn chứng minh bàn tay khéo léo thực sự có khả năng "tiếp xúc thế giới", vẫn phải thể hiện qua nhiệm vụ cụ thể.
Và lý do Sharpa được thị trường chú ý, chính là vì họ đã biến những thông số đó thành một loạt các thao tác demo khiến đồng nghiệp phải nể phục.
Bàn tay khéo léo quyến rũ, chia bài trực tuyến
Tại gian hàng sản phẩm của IROS 2025 (Hội nghị quốc tế về Robot và Hệ thống thông minh), một đoạn demo của Sharpa đã gây ấn tượng sâu sắc với giới công nghiệp: một bàn tay Sharpa rút một lá bài từ xấp bài trên tay kia và đặt lên mặt bàn.
Lý do gây ấn tượng, nằm ở chỗ động tác chia bài này yêu cầu độ chính xác điều khiển lực cực cao của bàn tay khéo léo, và khả năng dự đoán việc lá bài trượt ra.
Không chỉ vậy, Sharpa cũng công bố một loạt video demo: tự bóc vỏ trứng, gọt vỏ táo, chia bài, gấp chong chóng giấy, thậm chí lắp ráp thùng máy tính: bao gồm việc cắm chính xác card đồ họa và vặn chặt ốc cố định.
Những nhiệm vụ này nhìn có vẻ chỉ là Demo thú vị, nhưng đối với ngành robot, chúng lại đại diện cho độ khó kỹ thuật hoàn toàn khác. Bởi vì việc cầm một vật thể không khó, cái khó thực sự là kiểm soát quá trình tiếp xúc.
Robot có thể dễ dàng cầm một quả trứng, nhưng chưa chắc biết khi nào nên tăng lực, khi nào nên giảm lực; có thể nhận biết một lá bài, nhưng rất khó đảm bảo giấy không bị trượt rơi hay biến dạng.
Và nhiều khả năng Sharpa thể hiện, về bản chất đều hướng đến cùng một vấn đề: Robot có thể như con người, thông qua phản hồi xúc giác để liên tục điều chỉnh động tác của mình hay không.
Trong quá trình này, hệ thống xúc giác DTA bắt đầu phát huy tác dụng.
Khi robot tiếp xúc với vật thể, đầu ngón tay có thể cảm nhận thời gian thực sự thay đổi áp lực, trạng thái ma sát cũng như xu hướng trượt của vật thể, và phản hồi cho hệ thống điều khiển để điều chỉnh động lực. Các vật thể mềm hoặc dễ vỡ như trứng, giấy, trái cây, lại chính là những thứ có thể thể hiện rõ nhất giá trị của hệ thống này.
Đồng thời, Sharpa cũng không thỏa mãn với việc chỉ là nhà cung cấp bàn tay khéo léo, năm 2026, công ty chính thức ra mắt robot hình người toàn thân đầu tiên: Sharpa North.
Tại hiện trường CES 2026, North đã hoàn thành các demo như chơi bóng bàn, sử dụng gậy selfie chụp ảnh, chia bài. Và mang tính đại diện nhất, là một nhiệm vụ lắp ráp chong chóng giấy tự chủ với hơn 30 bước.
Từ nhận diện linh kiện, cầm nắm vật liệu, đến gấp, ghép nối và cuối cùng hoàn thành lắp ráp, toàn bộ quá trình kéo dài vài phút, liên quan đến rất nhiều thao tác phối hợp hai tay và lập kế hoạch động tác liên tục. Điều này có nghĩa là, robot Sharpa đã có khả năng hoàn thành nhiệm vụ dài theo trình tự, nhiều bước.
Từ bàn tay khéo léo đến robot hình người, từ nhà cung cấp phần cứng đến nhà phát triển hệ thống toàn diện, hướng đi của Sharpa thực ra đã ngày càng rõ ràng:
Họ không thỏa mãn với việc chỉ trở thành một linh kiện của robot. Điều họ thực sự muốn làm, là trở thành một phần của nền tảng thông minh nhập thể thế hệ tiếp theo.
Mà nền tảng, cũng chính là từ khóa của mẫu robot tham chiếu lần này của NVIDIA.
Nếu như các demo trước chứng minh bàn tay Sharpa này có thể hoàn thành thao tác phức tạp, thì vấn đề then chốt hơn tiếp theo là: Bàn tay như vậy, có thể mang lại gì cho NVIDIA?
Đối thủ đuổi theo lật bàn
Đối với Sharpa, việc được NVIDIA chọn, đương nhiên là một khoảnh khắc mang tính biểu tượng.
Nhưng điểm mấu chốt hơn nằm ở chỗ, trong mẫu robot tham chiếu này, Sharpa đang ở một vị trí khá then chốt.
Bởi vì NVIDIA làm "robot tham chiếu", là muốn xây dựng một nền tảng phát triển có thể tái sử dụng cho ngành thông minh nhập thể, để các nhà phát triển, tổ chức nghiên cứu và doanh nghiệp robot, đều có thể xoay quanh mẫu này để huấn luyện, kiểm chứng và phát triển.
Trong mẫu này, Unitree cung cấp là bản thể. Dựa vào khả năng kiểm soát vận động, Unitree giải quyết việc robot đứng dậy, đi lại, cử động như thế nào.
Sharpa bổ sung, là sau khi robot đi đến trước vật thể, làm thế nào để thực sự đưa tay ra làm việc.
Nhưng đối với NVIDIA, đây vẫn chưa phải là tất cả.
Quan trọng hơn nữa, sản phẩm của Sharpa đã được đưa vào Isaac Lab. Đây là khung mô phỏng huấn luyện nguồn mở cốt lõi nhất trong hệ thống robot của NVIDIA.
Ở khâu điều khiển từ xa, người vận hành có thể thông qua găng tay dữ liệu điều khiển bàn tay khéo léo 22 bậc tự do, ánh xạ động tác tay thành động tác khớp robot theo thời gian thực; những động tác này sau khi ghi lại, sẽ trở thành dữ liệu cho việc học bắt chước và huấn luyện chiến lược, trở thành mẫu có thể huấn luyện, tái sử dụng và mở rộng sau này.
Cũng chính vì vậy, Sharpa nhận được không phải là một vị trí phần cứng thông thường. Nó được cắm vào toàn bộ quy trình của NVIDIA từ thu thập điều khiển từ xa, huấn luyện mô phỏng, đánh giá chiến lược đến triển khai thực tế, đây mới là giá trị cốt lõi nhất trong hợp tác của họ với NVIDIA.
Tất nhiên, được NVIDIA để mắt, không có nghĩa Sharpa đã sớm khóa chắc chiến thắng, bởi vì đường đua bàn tay khéo léo thay đổi quá nhanh.
Hơn một năm qua, vốn đầu tư gần như đuổi theo "bàn tay" này mà chạy: các công ty như Lingxinqiaoshou, Linjiedian, Inshot Robot, Aoyi Technology, Paxini Perception, đều đang xoay quanh việc lặp lại nhanh chóng về bậc tự do cao, phản hồi xúc giác, độ chính xác điều khiển lực và khả năng sản xuất hàng loạt.
Có công ty cạnh tranh về tốc độ gọi vốn và ra mắt sản phẩm.
Ví dụ như Lingxinqiaoshou, từ năm 2025 đến nay liên tục hoàn thành nhiều vòng gọi vốn, sau vòng B+ năm 2026 định giá bị tiết lộ đạt 3 tỷ USD, mục tiêu định giá vòng gọi vốn tiếp theo thậm chí lên đến 6 tỷ USD; Inshot Robot cũng hoàn thành vòng C1 và C2 trị giá hàng trăm triệu nhân dân tệ vào năm 2026, tiếp tục đặt cược vào nghiên cứu phát triển công nghệ thao tác khéo léo, đổi mới linh kiện cốt lõi và khả năng giao hàng sản phẩm.
Lại có công ty cạnh tranh về xúc giác.
Dòng sản phẩm của Paxini Perception đã bao phủ cảm biến xúc giác đa chiều, bàn tay khéo léo xúc giác dòng DexH, robot hình người TORA, và hoàn thành vòng B gọi vốn hơn 1 tỷ nhân dân tệ vào tháng 3 năm 2026.
Bàn tay khéo léo thế hệ mới của Aoyi Technology, cũng đã đặt các điểm bán hàng như cảm biến xúc giác ma trận điểm mật độ cao, khả năng cảm nhận áp lực từ 0.1N đến 25N lên hàng đầu.
Điều này có nghĩa, hôm nay là 22 bậc tự do, hệ thống xúc giác DTA và thiết kế tham chiếu NVIDIA, ngày mai có thể đã có bàn tay mới, với chi phí thấp hơn, độ ổn định cao hơn, hoặc vòng lặp dữ liệu mạnh hơn đuổi theo.
Nhưng ít nhất tại thời điểm này, NVIDIA đã đưa ra phán đoán theo cách riêng của mình:
Khi ngành công nghiệp bắt đầu chuyển từ "ai có thể khiến robot đi lại", sang "ai có thể khiến robot làm việc" thì một đôi tay đủ thông minh, đã trở nên quan trọng như đôi chân vậy.
Bài viết này đến từ tài khoản công chúng WeChat "Blue Character Plan", tác giả: Chester












