Sản xuất chip khó đến mức nào? Một lỗi chia số, 4,75 tỷ đô la bay mất
Làm chip có khó không? Một lỗi phép tính chia có thể khiến 475 triệu USD đổ sông đổ bể
Tôi là Thạch Khản, một nhà nghiên cứu về chip tại Viện Khoa học Máy tính, Viện Hàn lâm Khoa học Trung Quốc. Chip là nền tảng của xã hội hiện đại, ứng dụng trong mọi lĩnh vực từ AI đến y tế, ô tô tự lái. Sự nghiệp của tôi thú vị vì tính ứng dụng rộng rãi và đặc biệt là vì độ khó của nó.
Độ khó của chip bắt nguồn từ quy trình phát triển phức tạp. Về cơ bản, đó là hành trình từ hạt cát trở thành vi mạch thông qua các bước như tinh chế, quang khắc, khắc, đóng gói. Tuy nhiên, chế tạo chỉ là một phần. Thiết kế mạch và đảm bảo nó hoạt động chính xác là thách thức lớn hơn.
Vấn đề nằm ở chỗ chip cần thành công ngay từ lần đầu. Không như phần mềm có thể vá lỗi sau này, một khi chip đã được sản xuất, việc sửa chữa là cực kỳ tốn kém. Ví dụ điển hình là lỗi đơn vị chia số dấu phẩy động trong chip Pentium của Intel vào những năm 1990, buộc họ phải thu hồi với chi phí 4,75 tỷ USD.
Theo khảo sát, chỉ 24% dự án chip thành công ngay lần đầu. 76% còn lại phải làm lại ít nhất một lần, tiêu tốn rất nhiều thời gian và tiền bạc. Nguyên nhân chính là khó khăn trong xác minh chip (chip verification) - quá trình đảm bảo thiết kế không có lỗi trước khi sản xuất.
Xác minh chip chiếm tới 70% chu kỳ thiết kế. Để xác minh hoàn toàn một lõi CPU bằng mô phỏng phần mềm hiện đại nhất có thể mất 15.000 năm! Công nghệ mô phỏng phần cứng có thể rút ngắn xuống còn 30 năm, nhưng vẫn quá lâu. Thách thức này xuất phát từ "tam giác bất khả thi" trong xác minh: hiệu suất cao, khả năng gỡ lỗi tốt và chi phí thấp không thể đạt được cùng lúc.
Đây là lĩnh vực ít người theo đuổi trong cả công nghiệp lẫn học thuật, vì nó là công việc vất vả và khó công bố kết quả nghiên cứu so với các lĩnh vực thời thượng như AI. Tuy nhiên, vẫn cần có người dấn thân.
Trong vài năm qua, nhóm của tôi đã xây dựng một hệ thống nghiên cứu xác minh nhanh (agile verification), với cốt lõi là nền tảng ENCORE dựa trên chip FPGA. Nó nhằm mục tiêu tăng hiệu quả xác minh và khả năng gỡ lỗi, áp dụng cho cả bộ xử lý thông dụng (CPU/GPU) và chip chuyên dụng như bộ tăng tốc AI.
Bên cạnh nghiên cứu, tôi còn làm công tác phổ biến kiến thức về chip trên Bilibili với tên "Lão Thạch Đàm Tâm" trong 4-5 năm qua. Mặc dù làm video dài về chủ đề chuyên sâu khó có lượng xem cao như các video ngắn thời thượng, tôi vẫn kiên trì. Tôi tin rằng cả nghiên cứu xác minh chip lẫn phổ biến kiến thức về chip đều là những việc khó khăn cần sự bền bỉ lâu dài, và chính vì thế, chúng rất đáng để theo đuổi.
marsbit06/15 10:33