Xin chào mọi người, tôi là Thạch Khản đến từ Viện Nghiên cứu Công nghệ Máy tính thuộc Viện Khoa học Trung Quốc, một "công nhân khoa học kỹ thuật đa năng". Tôi có hơn mười năm kinh nghiệm làm việc trong lĩnh vực chip, hiện tại tôi đang làm nghiên cứu học thuật liên quan đến chip tại Viện Khoa học Trung Quốc; đồng thời tôi còn là một UP chủ khoa học kỹ thuật trên Bilibili tên là "Lão Thạch Đàm Tâm", khán giả của tôi đều gọi tôi là "Lão Thạch".
Chip: Nền tảng của xã hội hiện đại
Nhắc đến chip, chắc mọi người đều biết tầm quan trọng của nó.
Dù là trí tuệ nhân tạo đang rất hot hiện nay, hay y sinh, lái xe tự động, mạng viễn thông... hầu như tất cả công nghệ của xã hội hiện đại mà bạn có thể tưởng tượng đều không thể tách rời chip - công nghệ nền tảng của thời đại thông tin.
Tôi làm việc với chip đã được một thời gian dài, quá trình nghiên cứu và phát triển chip thực ra là một quá trình rất thú vị, chủ yếu xuất phát từ hai phương diện.
Đầu tiên, ứng dụng của chip rất rộng rãi. Một khi bạn bước vào ngành này, xác suất lo lắng về việc thất nghiệp là rất thấp, bởi vì nhiều ngành công nghiệp đều cần đến công nghệ chip.
Nguyên nhân thứ hai có lẽ quan trọng hơn: Nghiên cứu và phát triển chip là một việc vô cùng khó khăn. Là kỹ sư chip, chúng tôi cần không ngừng học hỏi, không ngừng trau dồi bản thân để đối mặt và đón nhận thời đại đầy cơ hội và thách thức này.
Vậy vấn đề đặt ra là, công nghệ chip khó ở chỗ nào?
Tại sao chip lại khó đến vậy?
Đã hoàn thành: 10%//////////
Mọi người có thể biết rằng, về bản chất, quá trình chế tạo một con chip là hành trình tiến hóa của một hạt cát. Cát có lẽ là thứ lấy không hết, dùng không kiệt trên hành tinh này; nhưng để biến cát có giá trị thấp thành con chip có giá trị cao, tất cả đều phụ thêm trí tuệ của con người.
Bắt đầu từ cát, chúng ta cần tinh chế nó để thu được wafer (tấm bán dẫn). Sau đó, lại trải qua một loạt các công đoạn như khắc quang, cấy ion, khắc ăn mòn, đóng gói... đối với wafer, mới có thể từ cát lấy không hết dùng không kiệt biến thành một con chip nhỏ bé cuối cùng.
Vậy nói nhiều như vậy, có nhiều công đoạn như vậy, thực ra sản xuất chip chỉ là một phần của toàn bộ quy trình phát triển chip, nó không bằng bản thân quá trình phát triển chip.
Còn một khâu vô cùng quan trọng nữa, đó là thiết kế chip. Nó chỉ việc hoàn thành thiết kế mạch điện theo yêu cầu, và làm cho mạch điện có thể hoạt động bình thường. Sau đó, chúng ta giao mạch đã thiết kế cho nhà sản xuất chip, để họ tiến hành sản xuất giai đoạn sau, cuối cùng thu được thực thể của chip.
Nhưng ở đây còn một vấn đề khác: Làm thế nào để đảm bảo chức năng của chip giống với thiết kế ban đầu của bạn?
Ở đây có một câu chuyện nhỏ rất thú vị. Năm 1947, một nữ lập trình viên nổi tiếng Grace Hopper phát hiện máy tính của mình không hoạt động. Sau khi kiểm tra và tìm hiểu kỹ lưỡng, bà phát hiện ra trong rơ-le của máy tính có một con bướm đêm bay vào. Vì vậy, bà dùng nhíp cẩn thận gắp con bướm đêm đó ra, rồi dán nó lên một tờ giấy.
Đây có thể là "bug" (con bọ) đầu tiên được phát hiện trong toàn bộ lịch sử phát triển máy tính của chúng ta, cũng chính là lỗ hổng.
Nếu ví dụ trước quá xa xưa, thì chúng ta thực ra còn có nhiều ví dụ hơn. Ở đây tôi đố mọi người một bài toán, xin hỏi kết quả cuối cùng của biểu thức này bằng bao nhiêu? Thực ra đề bài này rất đơn giản, bởi vì trong biểu thức phía sau, tử số và mẫu số giống nhau, có thể triệt tiêu; rồi số trước dấu trừ và số sau cũng giống nhau, vậy cùng một số trừ nhau, đáp án cuối cùng phải bằng 0. Nhưng, trong máy tính và chip thực tế, có thể kết quả thu được không phải như vậy.
Ví dụ, trong một con chip Pentium của Intel, kết quả thu được là 255.00000000. Chuyện này là thế nào? Hóa ra có một nhà khoa học Mỹ khi làm nghiên cứu khoa học, khi chạy biểu thức này, tính thế nào cũng không đúng. Cuối cùng ông mới phát hiện, trong một đơn vị tính toán phép chia số thực của con chip này, tồn tại một lỗ hổng thiết kế chưa được phát hiện.
Đừng coi thường lỗ hổng thiết kế này, hậu quả nó mang lại thực ra rất nghiêm trọng. Vào những năm 1990, Intel đã chi 4,75 tỷ đô la để thu hồi toàn cầu tất cả chip Pentium có vấn đề này.
Vậy trở lại vấn đề ban đầu, công nghệ chip khó ở chỗ nào?
Theo tôi, điểm khó của chip nằm ở việc nó cần thành công ngay từ lần đầu. Làm chip không giống phần mềm, bạn có thể thông qua cách vá lỗi ở giai đoạn sau, để sửa chữa các vấn đề khác nhau. Ngược lại, một khi chip đã đi hết hành trình tiến hóa từ cát thành chip, bạn có thể đã tiêu tốn hàng ngàn hàng vạn, thậm chí hàng trăm triệu, hàng tỷ để hoàn thành việc sản xuất thử và chế tạo chip, rất khó sửa đổi nữa.
Vậy, vấn đề tiếp theo là: Hiện nay có bao nhiêu dự án chip có thể đạt được thành công ngay từ lần đầu?
Kiểm chứng chip - điểm nghẽn "bóp cổ"
Đã hoàn thành: 40%//////////
Theo số liệu kết quả điều tra, chỉ có 24% dự án chip có thể đạt được thành công ngay từ lần đầu. Nghĩa là, có 3/4 dự án chip do tồn tại các lỗ hổng thiết kế lớn nhỏ, chưa được phát hiện đủ loại, nên ít nhất cần phải tiến hành thêm một lần sản xuất thử nữa, điều này sẽ tiêu tốn rất nhiều thời gian và tiền bạc.
Vậy, chìa khóa của vấn đề là: Làm thế nào chúng ta có thể đảm bảo càng nhiều càng tốt rằng trước khi sản xuất thử chế tạo, chip càng ít có, hoặc càng không có bug, không có lỗ hổng thiết kế. Đây cũng chính là phương hướng tôi đã dốc sức nghiên cứu trong vài năm qua.
Cũng theo số liệu nghiên cứu này, trong toàn bộ quá trình phát triển chip, đặc biệt là với sự phát triển của trí tuệ nhân tạo và các công nghệ cao mới hiện nay, chip ngày càng trở nên phức tạp. Kiểm chứng chip cũng từ đó trở thành khâu chiếm tỷ lệ rất cao trong toàn bộ chu kỳ phát triển chip, thậm chí vượt quá một nửa, đạt tới 70% toàn bộ chu kỳ thiết kế chip.
Nhưng rất tiếc, kiểm chứng chip cũng là một việc rất khó. Tôi liệt kê ở đây một số con số thiên văn, như chu vi Trái đất, số lượng sao có thể tồn tại trong Ngân hà, hay độ dài của năm ánh sáng.
Trong kiểm chứng chip, thực ra cũng tồn tại một con số thiên văn, đó chính là số chu kỳ cần thiết để kiểm chứng hoàn toàn một lõi CPU. Con số thiên văn này rốt cuộc đại diện cho ý nghĩa gì?
Nếu chúng ta dùng công nghệ mô phỏng phần mềm tiên tiến nhất hiện nay để kiểm chứng hoàn toàn một lõi CPU, cần ít nhất 15000 năm. Còn sử dụng công nghệ mô phỏng phần cứng tiên tiến nhất hiện nay, có thể rút ngắn thời gian này một chút xuống còn 30 năm. Nhưng chúng ta đều biết, phát triển một con chip không thể chờ 15000 năm, cũng không thể chờ 30 năm.
Vậy, bản chất của vấn đề rốt cuộc là gì? Mấy năm qua chúng tôi thực ra vẫn luôn nghiên cứu. Chúng tôi phát hiện, trong kiểm chứng chip tồn tại cái gọi là "tam giác bất khả thi", tức là hiệu suất cao, khả năng gỡ lỗi tốt và chi phí thấp của kiểm chứng chip; mà ba nhân tố quan trọng sống còn này đối với kiểm chứng chip không thể đồng thời thỏa mãn. Đối với nghiên cứu hoặc phương pháp chủ lưu hiện nay, nhiều nhất là lấy hai trong ba, và đây cũng chính là nguyên nhân bản chất dẫn đến hiệu quả kiểm chứng chip rất thấp.
Luôn cần có người làm một số việc khác biệt
Đã hoàn thành: 60%//////////
Vì những nguyên nhân này, kiểm chứng chip trong thời gian qua không có sự phát triển lớn.
Trong công ty chip, kỹ sư chip có thể chủ yếu đang viết trường hợp kiểm thử, chạy kiểm chứng hồi quy. Về bản chất, đây là công việc vất vả, nhàm chán. Trong lĩnh vực học thuật cũng vậy, học giả dấn thân vào nghiên cứu kiểm chứng chip thực ra rất ít, đặc biệt so với nghiên cứu các lĩnh vực hot như trí tuệ nhân tạo hiện nay, nghiên cứu liên quan đến kiểm chứng chip là rất ít.
Vì vậy, có đại lão học thuật đã nói với tôi, trong cùng một khoảng thời gian, tôi có thể đăng ba bài thậm chí nhiều hơn trong lĩnh vực trí tuệ nhân tạo, nhưng kiểm chứng chip có thể một bài cũng không đăng được.
Rất tiếc, ông ấy nói đúng.
Tuy nhiên, luôn cần có người làm một số việc khác biệt.
Vì vậy, trong vài năm qua, tôi luôn dẫn dắt đội ngũ tham gia nghiên cứu liên quan đến kiểm chứng chip, và xây dựng từ con số không một hệ thống nghiên cứu kiểm chứng linh hoạt. Hạt nhân của hệ thống nghiên cứu này là một nền tảng kiểm chứng tên là ENCORE, nó dựa trên một con chip đặc biệt - mảng cổng lập trình được thực địa (FPGA). ENCORE có thể nâng cao đáng kể hiệu quả kiểm chứng, đồng thời đạt được khả năng gỡ lỗi kiểm chứng tương đối tốt.
Để xây dựng hệ thống nghiên cứu kiểm chứng linh hoạt này, một mặt chúng tôi cần không ngừng tối ưu hóa hiệu suất khai thác lỗ hổng, gỡ lỗi cũng như sửa chữa ở tầng thuật toán; mặt khác, chúng tôi cũng hy vọng xây dựng một bộ nền tảng tăng tốc kiểm chứng linh hoạt đầu cuối dựa trên chip logic lập trình được (FPGA). Ở tầng ứng dụng, chúng tôi hy vọng nền tảng này vừa có thể áp dụng cho kiểm chứng bộ xử lý thông dụng, như CPU hoặc GPU, cũng có thể áp dụng cho kiểm chứng chip chuyên dụng, như bộ tăng tốc AI đang rất thịnh hành hiện nay.
Trong thời gian qua, chúng tôi đã làm nhiều công việc thám hiểm tiền duyên trong lĩnh vực này, bao gồm ENCORE đã đề cập phía trước và nhiều nghiên cứu mới. Chúng tôi cũng đã công bố những kết quả nghiên cứu này trên nhiều hội nghị học thuật quốc tế nổi tiếng.
Phía sau chúng tôi thực ra cũng đang tiến hành một số công việc rất thú vị, do những công việc này hiện vẫn chưa được công bố, nên tạm thời không chia sẻ chi tiết với mọi người.
Để nhiều người hiểu hơn về chip
Đã hoàn thành: 80%//////////
Nhưng trong quá trình nghiên cứu, tôi dần dần phát hiện những thành quả khoa học nghiên cứu hoặc thành quả học thuật này, chủ yếu là để những người chỉ hiểu kiểm chứng chip và lĩnh vực liên quan trong vòng tròn nhỏ của chúng tôi xem. Vậy, làm thế nào để nhiều người hơn có thể nhìn thấy công việc của chúng tôi, hiểu về nghiên cứu khoa học của chúng tôi, thậm chí tham gia vào công việc của chúng tôi?
Vì vậy, tôi tự nhiên nghĩ đến phổ biến khoa học về chip, điều này cũng khiến tôi cảm thấy rất thú vị. Tôi làm công tác phổ biến khoa học đã bốn năm năm, từ văn bản ban đầu, đến sau này làm video trên Bilibili. Phổ biến khoa học về chip không chỉ mang lại cho tôi nhiều thu hoạch, còn giúp tôi kết giao nhiều bạn bè chí đồng đạo, cũng như những khán giả yêu thích và ủng hộ tôi.
Tuy nhiên, làm video phổ biến khoa học về chip không phải là chuyện đơn giản, đặc biệt là trong bối cảnh video ngắn tràn lan ngày nay. Có đại lão làm công tác phổ biến khoa học tương tự cũng nói với tôi, trong cùng một khoảng thời gian, tôi làm một video dài phổ biến khoa học cứng về chip, anh ấy có thể làm 10 video, thậm chí nhiều video ngắn liên quan đến điểm nóng hơn, và lưu lượng có thể gấp nhiều lần tôi.
Rất tiếc, anh ấy nói thực ra cũng đúng.
Nhưng trên cơ sở này, tôi vẫn cảm thấy cần có người kiên trì làm một số việc khó. Tôi hy vọng có thể kết hợp phổ biến khoa học về chip và kiểm chứng chip - hai việc cũng khó nhưng cũng thú vị này lại với nhau, thông qua hình thức video và văn bản để giới thiệu với mọi người những thứ chúng tôi làm, những bài báo đã đăng cũng như nội dung chip mã nguồn mở mà toàn bộ đội ngũ lớn của chúng tôi đang nghiên cứu.
Ngoài chip, tôi còn chia sẻ với mọi người về trí tuệ nhân tạo, máy tính và các công nghệ cứng khác, cũng chia sẻ với mọi người trải nghiệm trưởng thành của tôi, những cuốn sách tôi đã đọc, kiến thức tôi học được. Tôi biết, bản thân tôi thực ra không phải là thiên tài, cũng không phải chuyên gia và đại ngưu toàn năng toàn diện gọi là. Tôi càng hy vọng có thể trở thành "người hướng dẫn" của mọi người, chia sẻ với mọi người con đường tôi đã đi.
Vậy, trở lại vấn đề muốn chia sẻ với mọi người hôm nay: Nghiên cứu khoa học về chip và phổ biến khoa học về chip, cái nào thú vị hơn? Đương nhiên, đối với tôi thực ra cả hai đều thú vị như nhau. Nguyên nhân rất đơn giản, bởi vì chúng đều khó như nhau. Đồng thời, chúng đều đòi hỏi tôi phải kiên trì rất lâu dài, bền bỉ.
Nhiều người nói, chúng ta cần làm những việc khó nhưng đúng đắn. Nhưng thực ra vấn đề nằm ở chỗ, trước khi bạn làm một việc, làm thế nào để phán đoán việc này là đúng đắn? Nếu một việc trong mắt người khác là ngồi ghế lạnh, trong mắt người khác là làm việc vất vả, nhàm chán, bạn có còn kiên trì làm không?
Vì vậy, tôi càng hy vọng làm những việc khó và lâu dài, như nghiên cứu học thuật kiểm chứng chip, như làm video dài phổ biến khoa học cứng về chip. Bởi vì nếu một việc nó khó và cần kiên trì lâu dài, thì xác suất lớn nó là đúng đắn.
Trên đây là toàn bộ nội dung tôi muốn chia sẻ với mọi người hôm nay. Tôi là Lão Thạch, cảm ơn mọi người!
Bài viết này đến từ tài khoản công chúng WeChat: Gezhi Lundao Jiangtan , tác giả: Thạch Khản, tiêu đề gốc:《Sản xuất chip khó đến mức nào? Một lỗi chia số, 4,75 tỷ đô la bay mất | Thạch Khản》




















