Nếu một ngày nào đó, bạn nhìn thấy tên Max Planck trong danh sách các bài báo bị rút, nhiều khả năng bạn sẽ nghĩ mình đã nhấp vào một trang web giả mạo học thuật nào đó.
Xét cho cùng, đây không phải là một tác giả bình thường. Planck là người đặt nền móng cho thuyết lượng tử, người đoạt giải Nobel Vật lý năm 1918, và cũng là một trong những cái tên quan trọng nhất trong lịch sử khoa học thế kỷ 20.
Nhưng một bài báo mới chỉ ra rằng, hai bài viết của Planck được xuất bản năm 1940 và 1942, trên nền tảng số của Springer thực sự được đánh dấu là "đã rút" (retracted).


Tiêu đề bài báo: The Curious Case of Max Planck retracted papers. When past scientific practices meet contemporary publishing norms
Địa chỉ bài báo: https://arxiv.org/abs/2605.17534
Buồn cười ở chỗ, theo điều tra của tác giả bài báo, hai bài viết này không bị rút vì gian lận, sai sót hay hành vi sai trái học thuật, mà bị thuật toán "đánh oan".
01
Mọi chuyện bắt đầu từ "Danh sách người đoạt giải Nobel bị rút bài" của Retraction Watch (trang web ghi lại các vấn đề xuất bản học thuật).
Là một nhà nghiên cứu lịch sử vật lý, tác giả rất ngạc nhiên khi thấy tên Max Planck trong danh sách đó, bởi hai bài viết này xuất hiện trên tạp chí khoa học Đức "Die Naturwissenschaften". Vào thời điểm đó, Planck đã là một nhà vật lý học nổi tiếng thế giới, và tác giả bài báo cũng khó tin rằng những bài viết này thực sự bị rút khi ông còn sống, hoặc sau này có lý do rút bài đủ thuyết phục.

Liên kết: https://retractionwatch.com/retractions-by-nobel-prize-winners/
Giải thích được đưa ra trên nền tảng Springer khá mơ hồ. Tiêu đề trang ghi là "BÀI BÁO ĐÃ BỊ RÚT" (RETRACTED ARTICLE), nhưng cách diễn đạt trong tệp PDF là "Bài báo này đã bị rút do vi phạm điều khoản bài viết"; cách diễn đạt trên trang web thì rõ ràng hơn, nói rằng bài báo bị rút do "vi phạm bản quyền" (copyright violation).

Nói cách khác, đây có thể là một tai nạn do bản quyền, lưu trữ số hóa và quản lý siêu dữ liệu nền tảng cùng tạo ra – hai bài viết cũ này trong cơ sở dữ liệu hiện đại đã bị hệ thống/nhà xuất bản xử lý như là vấn đề bản quyền hoặc xuất bản trùng lặp.
Hãy quay trở lại với hệ sinh thái xuất bản khoa học nửa đầu thế kỷ 20. "Die Naturwissenschaften" được thành lập năm 1913, do Julius Springer Verlag xuất bản, định vị hơi giống "Nature" của thế giới nói tiếng Đức: đó là một tuần báo khoa học tổng hợp về tiến bộ khoa học tự nhiên, y học và công nghệ. Nó vừa đăng các bài báo kỹ thuật, vừa đăng các bài phát biểu, báo cáo hội nghị, cũng như các cuộc thảo luận về triết học khoa học và ý nghĩa văn hóa.
Bản thân hai bài viết của Planck này cũng không phải là bài nghiên cứu báo cáo thí nghiệm hoặc lý thuyết mới, mà là những suy ngẫm mang tính triết học về bản chất của tri thức khoa học.
Bài viết năm 1942 "Ý nghĩa và giới hạn của khoa học chính xác" đặc biệt điển hình. Ban đầu nó là một bài phát biểu của Planck năm 1941 tại Kaiser-Wilhelm-Gesellschaft ở Berlin, sau đó được lưu hành dưới nhiều hình thức: xuất bản dưới dạng sách nhỏ năm 1942, cũng được đăng trên "Europäische Revue" và "Die Naturwissenschaften", năm 1943 lại được đưa vào tập hợp các bài phát biểu và bài báo của Planck.
Ngày nay, con đường này rất dễ bị nền tảng hoặc hệ thống bản quyền nhận diện là "xuất bản trùng lặp". Nhưng vào thời đó, việc lưu thông đa kênh từ bài phát biểu đến tạp chí, từ sách nhỏ đến tập hợp bài viết, vốn là một phần của quá trình truyền bá tư tưởng khoa học.
Bài viết năm 1940 "Khoa học tự nhiên và thế giới bên ngoài thực tế" còn kỳ lạ hơn. Tác giả bài báo không tìm thấy bằng chứng về việc nó được xuất bản trùng lặp ở nơi khác. Một cách giải thích khả thi mà tác giả đưa ra là: vài tháng trước đó trên cùng tạp chí, một tác giả khác là Aloys Müller đã từng đăng một bài viết cùng tên, thảo luận về lập trường triết học của Planck; sau đó Planck đã dùng cùng tiêu đề để viết một bài phản hồi, tham gia vào cuộc tranh luận tư tưởng này.
Trong văn hóa biên tập thời đó, điều này rõ ràng không phải là vấn đề, thậm chí là một tư thế đối thoại rõ ràng. Nhưng khi đến với hệ thống lập chỉ mục số, quản lý bản quyền và siêu dữ liệu sau này, hai tiêu đề giống nhau có thể bị nhận diện là một nhóm nghi ngờ trùng lặp.
Bài báo còn chỉ ra rằng, hai bài viết "bị rút" này trên nền tảng của Springer thậm chí còn biến thành trang trống. Thông thường, ngay cả khi một bài báo bị rút, văn bản gốc vẫn được giữ lại, chỉ thêm ghi chú rút bài, để duy trì tính toàn vẹn của hồ sơ khoa học. Nhưng ở đây, bài viết 2 trang năm 1940 và bài viết 9 trang năm 1942, trên nền tảng số đều bị xóa bỏ. Ngày nay muốn xem bản gốc, đến Springer – nơi xuất bản gốc – sẽ không thấy, mà phải đến Internet Archive phi lợi nhuận.

02
Đến đây, sự việc không chỉ dừng lại ở mức độ buồn cười "Planck bị rút bài oan", mà còn là một lần "lật xe" của cơ sở hạ tầng xuất bản học thuật hiện đại: khi tài liệu lịch sử đi vào nền tảng xuất bản số hiện đại, ai có quyền quyết định cái gì là "xuất bản trùng lặp", cái gì là "vi phạm bản quyền", và cái gì nên tiếp tục được nhìn thấy?
Tác giả bài báo cho rằng, các khái niệm như "xuất bản trùng lặp", "đạo văn chính mình" này không phải là tiêu chuẩn đạo đức học thuật bất biến vĩnh cửu, mà là những phạm trù hiện đại gắn liền với hoạt động đo lường tài liệu, đánh giá nghiên cứu, chuyển nhượng bản quyền và nền tảng xuất bản thương mại từ cuối thế kỷ 20 trở lại đây. Bài báo chỉ rõ rằng, "đạo văn chính mình" là một khái niệm tương đối mới, nổi lên cùng với hệ thống đánh giá dựa trên số lượng bài báo để đo lường năng suất học thuật từ những năm 1990.
Đây cũng là điểm mà hệ thống học thuật ngày nay đặc biệt quen thuộc: vấn đề không chỉ là "nội dung là gì", mà là "nội dung được hệ thống thể hiện như thế nào".
Một bài viết lịch sử sau khi vào cơ sở dữ liệu sẽ bị tách thành các đối tượng có cấu trúc như DOI, tiêu đề, tác giả, trạng thái bản quyền, nhãn rút bài, tệp PDF, bản ghi trích dẫn... Một khi nền tảng xử lý tài liệu cũ theo quy tắc đương đại một cách tự động hoặc bán tự động, có thể biến những thực hành xuất bản bình thường trong quá khứ thành các sự kiện vi phạm của ngày nay.
Sự lệch pha này đặc biệt đáng cảnh giác trong thời đại AI.
Ngày nay khi chúng ta nói về dữ liệu huấn luyện, làm sạch dữ liệu, cơ sở dữ liệu tài liệu, đồ thị tri thức và RAG, thường ngầm định rằng tri thức số hóa là ổn định, có thể truy xuất, có thể gọi ra. Nhưng sự việc này nhắc nhở chúng ta: kho lưu trữ số không phải là "tấm gương của quá khứ" trung tính, mà là một bộ lọc mang theo logic thương mại, giả định pháp lý và quy tắc nền tảng. Dữ liệu sẽ bị nền tảng đặt tên lại, phân loại lại, thậm chí bị thay thế bằng trang trống.
Một hệ thống đo lường và bản quyền hiện đại, đã phán định ngược lại các hành vi truyền bá khoa học bình thường của thời đại tiền số thành những thao tác đáng ngờ. Nghiêm trọng hơn, sự phán định này không dừng lại ở cấp độ nhãn mác, mà trực tiếp ảnh hưởng đến khả năng tiếp cận của tài liệu lịch sử.
Đối với hệ thống sản xuất tri thức đang bước vào thời đại AI, một nhãn sai, một đoạn PDF bị thiếu, một lần xử lý bản quyền không minh bạch, đều có thể tiếp tục bị khuếch đại trong các mô hình, công cụ tìm kiếm và công cụ học thuật. Trợ lý AI trong tương lai chưa chắc đã biết bài viết của Planck là bị "rút oan", nó có thể chỉ nhìn thấy dấu hiệu lạnh lùng "retracted" trong cơ sở dữ liệu.
Khi ký ức khoa học ngày càng được ủy thác cho cơ sở dữ liệu, nhà xuất bản, quy tắc nền tảng và cơ sở hạ tầng thương mại, liệu chúng ta còn có thể nhìn thấy chính xác quá khứ của khoa học?
Tham khảo: https://www.science.org/content/article/why-have-papers-one-history-s-most-famous-physicists-been-retracted
Bài viết từ tài khoản công chúng WeChat "机器之心" (ID: almosthuman2014), tác giả: Quan tâm học thuật






