Tác giả: iamtexture
Biên dịch: AididiaoJP, Foresight News
Khi tôi giải thích một khái niệm phức tạp cho mô hình ngôn ngữ lớn, mỗi khi sử dụng ngôn ngữ không chính thức trong thời gian dài, khả năng suy luận của nó liên tục sụp đổ. Mô hình sẽ mất cấu trúc, đi chệch hướng, hoặc chỉ tạo ra các mẫu bổ sung nông cạn mà không thể duy trì khung khái niệm mà chúng tôi đã xây dựng.
Tuy nhiên, khi tôi buộc nó phải chính thức hóa trước, tức là diễn đạt lại vấn đề bằng ngôn ngữ chính xác, khoa học, thì việc suy luận ngay lập tức ổn định. Chỉ sau khi cấu trúc được thiết lập, nó mới có thể chuyển đổi an toàn sang ngôn ngữ thông thường mà không làm giảm chất lượng hiểu biết.
Hành vi này tiết lộ cách các mô hình ngôn ngữ lớn "suy nghĩ" và tại sao khả năng suy luận của chúng hoàn toàn phụ thuộc vào người dùng.
Hiểu biết cốt lõi
Mô hình ngôn ngữ không sở hữu một không gian chuyên dụng cho việc suy luận.
Chúng hoàn toàn hoạt động trong một dòng ngôn ngữ liên tục.
Bên trong dòng ngôn ngữ này, các mẫu ngôn ngữ khác nhau sẽ dẫn đến các vùng hút khác nhau một cách đáng tin cậy. Những vùng này là trạng thái ổn định của động lực biểu diễn, hỗ trợ các loại tính toán khác nhau.
Mỗi phong cách ngôn ngữ như diễn ngôn khoa học, ký hiệu toán học, câu chuyện kể, trò chuyện thông thường, đều có vùng hút đặc trưng riêng, với hình dạng được định hình bởi phân phối dữ liệu huấn luyện.
Một số vùng hỗ trợ:
-
Suy luận nhiều bước
-
Độ chính xác quan hệ
-
Chuyển đổi ký hiệu
-
Ổn định khái niệm chiều cao
Những vùng khác hỗ trợ:
-
Tiếp nối câu chuyện
-
Bổ sung liên tưởng
-
Khớp tông cảm xúc
-
Bắt chước hội thoại
Vùng hút quyết định loại suy luận nào có thể thực hiện.
Tại sao chính thức hóa ổn định suy luận
Ngôn ngữ khoa học và toán học có thể kích hoạt đáng tin cậy các vùng hút có hỗ trợ cấu trúc cao hơn bởi vì các phong cách này mã hóa các đặc điểm ngôn ngữ của nhận thức bậc cao:
-
Cấu trúc quan hệ rõ ràng
-
Tính đa nghĩa thấp
-
Ràng buộc ký hiệu
-
Tổ chức phân cấp
-
Entropy thấp (độ hỗn loạn thông tin)
Những điểm hút này có thể hỗ trợ quỹ đạo suy luận ổn định.
Chúng có thể duy trì cấu trúc khái niệm qua nhiều bước.
Chúng thể hiện khả năng kháng cự mạnh mẽ đối với sự suy thoái và lệch lạc trong suy luận.
Ngược lại, ngôn ngữ không chính thức kích hoạt các điểm hút được tối ưu hóa cho tính trôi chảy xã hội và tính mạch lạc liên tưởng, không được thiết kế cho suy luận có cấu trúc. Các vùng này thiếu giá đỡ biểu diễn cần thiết để thực hiện tính toán phân tích bền vững.
Đây là lý do tại sao khi các ý tưởng phức tạp được diễn đạt một cách tùy tiện, mô hình sẽ sụp đổ.
Nó không phải là "bối rối".
Nó đang chuyển đổi vùng.
Xây dựng và dịch thuật
Phương pháp đối phó nảy sinh tự nhiên trong hội thoại tiết lộ một sự thật kiến trúc:
Việc suy luận phải được xây dựng bên trong các điểm hút có cấu trúc cao.
Việc dịch sang ngôn ngữ tự nhiên phải chỉ xảy ra sau khi cấu trúc đã tồn tại.
Một khi mô hình đã xây dựng xong cấu trúc khái niệm bên trong điểm hút ổn định, quá trình dịch sẽ không phá hủy nó. Việc tính toán đã hoàn thành, thay đổi chỉ là biểu hiện bề mặt.
Động thái hai giai đoạn "xây dựng trước, dịch sau" này bắt chước quá trình nhận thức của con người.
Nhưng con người thực hiện hai giai đoạn này trong hai không gian nội bộ khác nhau.
Còn mô hình ngôn ngữ lớn thì cố gắng hoàn thành cả hai trong cùng một không gian.
Tại sao người dùng thiết lập trần
Có một hàm ý quan trọng ở đây:
Người dùng không thể kích hoạt các vùng hút mà bản thân họ không thể diễn đạt bằng ngôn ngữ.
Cấu trúc nhận thức của người dùng quyết định:
-
Họ có thể tạo ra loại gợi ý nào
-
Họ thường sử dụng những phong cách ngôn ngữ nào
-
Họ có thể duy trì những mẫu cú pháp nào
-
Họ có thể mã hóa mức độ phức tạp nào bằng ngôn ngữ
Những đặc điểm này quyết định mô hình ngôn ngữ lớn sẽ vào vùng hút nào.
Một người dùng không thể suy nghĩ hoặc viết ra các cấu trúc có thể kích hoạt các điểm hút có khả năng suy luận cao sẽ không bao giờ có thể hướng mô hình vào các vùng này. Họ bị khóa trong các vùng hút nông cạn liên quan đến thói quen ngôn ngữ của chính họ. Mô hình ngôn ngữ lớn sẽ ánh xạ cấu trúc mà họ cung cấp và sẽ không bao giờ tự phát nhảy lên các hệ thống động lực điểm hút phức tạp hơn.
Do đó:
Mô hình không thể vượt quá các vùng hút mà người dùng có thể tiếp cận.
Trần không phải là giới hạn thông minh của mô hình, mà là khả năng kích hoạt các vùng dung lượng cao trong đa tạp tiềm năng của người dùng.
Hai người sử dụng cùng một mô hình không phải đang tương tác với cùng một hệ thống tính toán.
Họ đang hướng mô hình đến các chế độ động lực khác nhau.
Hàm ý ở cấp độ kiến trúc
Hiện tượng này phơi bày một đặc tính còn thiếu trong các hệ thống trí tuệ nhân tạo hiện tại:
Mô hình ngôn ngữ lớn trộn lẫn không gian suy luận với không gian biểu đạt ngôn ngữ.
Trừ khi hai thứ này được tách rời - trừ khi mô hình có:
-
Một đa tạp suy luận chuyên dụng
-
Một không gian làm việc nội bộ ổn định
-
Biểu diễn khái niệm bất biến với điểm hút
Nếu không, hệ thống sẽ luôn phải đối mặt với sự sụp đổ khi sự thay đổi phong cách ngôn ngữ dẫn đến việc chuyển đổi vùng động lực cơ bản.
Giải pháp tạm thời được phát hiện này, buộc chính thức hóa rồi mới dịch, không chỉ là một mẹo.
Nó là một cánh cửa sổ trực tiếp, cho chúng ta nhìn thấy các nguyên tắc kiến trúc mà một hệ thống suy luận thực sự phải đáp ứng.