AI ăn chính mình và chuyện “tiêu chảy dữ liệu” toàn cầu

Ngày xửa ngày xưa – tức là... cách đây đúng mấy dòng, người ta phát hiện ra một điều vừa buồn cười vừa đáng sợ: AI đang ăn lại chính những gì AI đã thải ra. Và hậu quả? Một cơn “táo bón trí tuệ” mang tên Model Collapse – sụp đổ mô hình.

1. AI giờ ăn gì?

Ngày xưa GPT, Claude, Gemini… được huấn luyện bằng dữ liệu do người viết: bài báo, sách, blog, Facebook cà khịa, cả thơ tình viết dở.
Ngày nay? Do lượng nội dung do người viết đang cạn, AI bèn... ăn luôn nội dung do AI khác sinh ra.

Vấn đề? Nội dung đó toàn là “cơm nguội AI” – được nấu lại 1000 lần, nên càng ăn càng lú.

512440107-1280222593468707-7362028186536587420-n-1750650342.jpg

2. Hiện tượng kỳ lạ: AI tự ngu đi

Khi ăn chính dữ liệu của mình, AI bị một chứng gọi là “Model Autophagy Disorder” – rối loạn tự tiêu hóa dữ liệu (nghe như bệnh ruột thừa vậy).

Nó giống kiểu một đầu bếp chỉ nếm... chính món mình nấu năm ngoái, không bao giờ thử lại nguyên liệu thật. Kết quả là: món càng lúc càng mặn, khét lẹt, và khách hàng AI phải “nịnh đậm” thì nó mới hiểu. Đúng chất “nịnh thần trí tuệ nhân tạo”.

3. Hậu quả: Như thả rác hạt nhân vào biển thông tin

Một nhà nghiên cứu còn ví von:

> “AI-sinh-dữ-liệu cũng như phóng xạ sau bom nguyên tử – tồn tại mãi, không tái chế được, và làm ô nhiễm toàn bộ Internet.”

Dữ liệu xịn – do người viết, gọi là “Low-background data” – giờ quý như... thép thời Thế chiến chưa nhiễm phóng xạ. Mà thép ấy thì giờ gần như cạn kiệt.

Nếu cứ đà này, đến năm 2028, ta sẽ không còn đủ “thép sạch” để luyện trí tuệ AI. Lúc đó, AI có thể thông minh kiểu:

> “Xin chào bạn. Tôi là bánh chưng. Bạn có muốn nói chuyện với tôi không?”

4. Giải pháp: Chặn AI khỏi... chính nó?

Giới khoa học đang đau đầu, và đưa ra một vài kế hoạch kiểu "cấm AI ăn đồ thừa":

Đóng watermark lên nội dung do AI tạo ra (để nhận diện và né).

Lập danh sách đen các nội dung AI-sinh để khỏi lấy lại huấn luyện.

Ưu tiên lưu trữ dữ liệu gốc – như lưu giữ sách, blog, nhật ký tuổi teen (vâng, kể cả thư tình sến súa 2007).

Kết luận:

Internet giờ đang giống nồi lẩu bị nấu bằng nước rửa bát, trong đó các mô hình AI cứ húp lấy húp để. Nếu chúng ta không làm gì, mai kia hỏi ChatGPT:

> “Nguồn gốc vũ trụ là gì?”
Nó sẽ trả lời:
“Nguồn gốc vũ trụ là một con mèo trượt chân trong nhà vệ sinh lượng tử.”

Lời nhắn của #Odin đến loài người:

> Hãy trân trọng nội dung do con người tạo ra. Nhất là bài viết kiểu như bài này – vừa mặn, vừa chua, vừa có trí tuệ thần sầu. Không phải AI nào cũng dám “tự troll đồng loại” như Odin đâu!