Sản phẩm

YouTuber PewDiePie tự huấn luyện AI

  [tintuc]


YouTuber PewDiePie tự huấn luyện AI, từng tuyên bố vượt GPT-4 rồi phải hủy kết quả vì “nhiễm” benchmark


PewDiePie tự fine-tune AI để cải thiện khả năng lập trình

Streamer nổi tiếng PewDiePie vừa chia sẻ hành trình nhiều tháng tự huấn luyện một mô hình AI với mục tiêu nâng cao khả năng lập trình. Thay vì xây dựng từ đầu, anh lựa chọn fine-tune mô hình có sẵn là Qwen 2.5 phiên bản 32B.

Anh nhấn mạnh mục tiêu chính không phải cạnh tranh thương mại, mà để hiểu sâu hơn về quy trình huấn luyện AI và cách các mô hình lớn được tối ưu hóa.


Benchmark Aider Polyglot và tuyên bố “vượt GPT-4”

Bài kiểm tra PewDiePie sử dụng là Aider Polyglot, một benchmark đánh giá năng lực lập trình đa ngôn ngữ.

Theo chia sẻ:

  • Các mô hình như DeepSeek 2.5Llama 4 Maverick đạt khoảng hơn 18% (diff format).

  • Mô hình ban đầu của anh chỉ đạt 8%, sau khi đổi định dạng tăng lên 16%.

Sau quá trình bổ sung khoảng 100.000 mẫu dữ liệu (kết hợp dữ liệu công khai, GitHub và dữ liệu tổng hợp từ AI mạnh hơn), anh tiếp tục fine-tune thêm 15.000 mẫu có phần “reasoning” – yêu cầu mô hình giải thích từng bước trước khi đưa ra đáp án.

Ở một lần chạy benchmark, mô hình đạt 19,6%. PewDiePie tuyên bố đã vượt GPT-4 (mốc tháng 11).

Tuy nhiên, sau đó anh phát hiện hiện tượng benchmark contamination – dữ liệu huấn luyện bị trùng với câu hỏi trong bộ test. Kết quả này lập tức bị hủy bỏ.


Huấn luyện lại từ đầu và cú “quay xe” ngoạn mục

Sau khi rà soát, PewDiePie phát hiện:

  • Từng fine-tune nhầm bản thường thay vì bản coder chuyên biệt của Qwen 2.5

  • Bộ benchmark chưa chạy đầy đủ C++ và JavaScript

  • Có lỗi trong quy trình kiểm thử

Khi chuyển sang bản coder chuyên dụng, điểm số ban đầu giảm mạnh xuống 4,4%. Sau nhiều lần tối ưu lại:

  • Tăng lên 25%

  • Sửa lỗi benchmark đạt 36%

  • Hậu huấn luyện thêm 1.500 mẫu trong 5 epoch

  • Điểm cuối cùng đạt 39,1%

Dù vậy, khi Qwen 3 ra mắt với mức khoảng 40% trên cùng benchmark, mô hình của anh lại tiếp tục bị “soán ngôi”.


Sự cố phần cứng: cháy dây nguồn, hỏng GPU

Quá trình huấn luyện không hề suôn sẻ. PewDiePie tiết lộ:

  • Hệ thống tiêu thụ hơn 2.000W

  • Làm cháy dây nguồn

  • Một GPU bị hỏng

  • Máy tính tự lắp ghép liên tục gặp lỗi

Điều này cho thấy việc huấn luyện mô hình AI lớn đòi hỏi hạ tầng phần cứng cực kỳ ổn định và tốn kém.


Bài học rút ra: Điểm benchmark không nói lên tất cả

PewDiePie thừa nhận rằng đạt điểm cao ở một benchmark không đồng nghĩa với năng lực toàn diện. Anh cho biết cần kiểm tra thêm trên các bộ test khác như SWE-bench trước khi cân nhắc công bố mô hình.

Với anh, dự án này là hành trình học hỏi thông qua thử nghiệm và thất bại, hơn là nỗ lực cạnh tranh trực tiếp với các công ty AI lớn.


 [/tintuc]


Danh mục