Sản phẩm

Cuộc đua chip AI

 [tintuc]

Cuộc đua chip AI nóng lên trước làn sóng AI lý luận, dự báo khan hiếm kéo dài đến năm 2026

Cuộc đua AI toàn cầu đang bước sang giai đoạn mới, nơi chip trở thành linh kiện quan trọng nhất quyết định năng lực huấn luyện và vận hành mô hình. Theo giới chuyên gia, năm 2026 sẽ chứng kiến cuộc cạnh tranh chip AI khốc liệt hơn bao giờ hết, đặc biệt khi xu hướng AI lý luận (reasoning / inference) tạo ra nhu cầu phần cứng khổng lồ trên toàn cầu.

Chip – “xương sống” của kỷ nguyên AI

Sự bùng nổ của AI những năm gần đây gắn chặt với tiến bộ phần cứng. Tại Zalo AI Summit 2025, TS Phạm Hy Hiếu (OpenAI) cho rằng sự xuất hiện của ChatGPT đã mở ra cuộc cách mạng chip, giúp Nvidia tăng trưởng thần tốc trong thời gian ngắn.

Về mặt kỹ thuật, khoảng 80% phép tính trong mô hình AI là phép nhân ma trận, khiến chip trở thành yếu tố then chốt. Thị trường hiện chia chip AI thành hai nhóm chính:

  • Chip huấn luyện (training):
    Phục vụ đào tạo mô hình lớn, cần khả năng nhân ma trận kích thước lớn, băng thông cao và khả năng kết nối hàng nghìn chip cùng lúc.

  • Chip suy luận (inference):
    Phục vụ vận hành mô hình, yêu cầu số liên kết ít hơn (50–100 chip), xử lý ma trận nhỏ, không đều, nhưng cực kỳ khắt khe về hiệu suất điện năng.

Từ huấn luyện sang suy luận: thách thức mới của ngành AI

Theo TS Hiếu, nếu giai đoạn 2019–2023 tập trung vào huấn luyện và nén mô hình GPT, thì từ 2024 trở đi, trọng tâm đã chuyển sang khả năng lý luận. Điều này khiến nhu cầu chip inference tăng mạnh, trong khi công nghệ chip chưa theo kịp tốc độ phát triển mô hình.

“Tại OpenAI, người ta thường đùa rằng: kỹ sư làm chip nhanh hơn bao nhiêu thì giới nghiên cứu sẽ nghĩ ra cách dùng hết từng đó tài nguyên tính toán”, TS Hiếu chia sẻ.

Nút thắt HBM – SRAM

Vấn đề lớn nhất hiện nay nằm ở băng thông truyền dữ liệu giữa bộ nhớ băng thông cao (HBM) và bộ nhớ trên chip (SRAM).

  • Khi suy luận, dữ liệu được lưu trong HBM

  • Mỗi bước suy luận phải truyền dữ liệu vào SRAM để tính toán

  • Sau đó lại truyền ngược về HBM

Mô hình càng suy luận sâu, số lần truyền dữ liệu càng lớn, dẫn đến tắc nghẽn băng thông.

“Đây chính là sự khan hiếm đang diễn ra trong năm 2025 và được dự báo tiếp tục kéo dài sang 2026”, TS Hiếu nhận định.

Để giải quyết, các hãng như NvidiaAMD đang đầu tư mạnh vào băng thông HBM–SRAM. Tuy nhiên, chi phí rất cao, buộc nhà sản xuất có thể hy sinh một số thông số khác của chip để giữ giá bán.

Song song đó, các công ty AI như OpenAI, xAI hay Anthropic cũng tối ưu phần mềm để giảm số bước suy luận, hoặc chỉ suy luận sâu khi thật sự cần thiết.

Cuộc chơi của các “ông lớn” công nghệ

Thời điểm ChatGPT ra mắt, việc vận hành mô hình gần như phụ thuộc hoàn toàn vào Nvidia, khiến các tập đoàn như Meta hay Anthropic phải chạy đua mua GPU.

Tuy nhiên, cuộc chơi không còn độc quyền:

  • AMD: Cung cấp GPU AI cạnh tranh

  • Google: Phát triển TPU (Tensor Processing Units) giúp giảm phụ thuộc Nvidia

  • Amazon: Ra mắt Trainium (huấn luyện) và Inferentia (suy luận)

Dù vậy, TS Hiếu cho rằng làm chip AI cực kỳ khó. Chip MTIA của Meta vẫn “chưa ai dùng được”, trong khi TPU của Google dù mạnh nhưng khó lập trình do ngôn ngữ quá đặc thù.

“Trừ khi Google cho thuê TPU rẻ hơn GPU Nvidia rất nhiều, còn không thì sẽ rất khó thuyết phục lập trình viên”, TS Hiếu nói.

Một chiến lược đáng chú ý là Google và Amazon đầu tư startup AI bằng chip thay vì tiền mặt, qua đó vừa tìm đầu ra cho phần cứng, vừa giảm áp lực khan hiếm.

Startup AI: phụ thuộc hay bứt phá?

Theo dự báo, thị trường sẽ hình thành hai xu hướng:

  1. Startup nhỏ phụ thuộc API của các ông lớn
    Ví dụ: dùng Claude của Anthropic hay Codex của OpenAI.

  2. Startup lớn do “người trong ngành” sáng lập, gọi được vốn khủng để mua chip

    • Thinking Machines: gọi 2 tỷ USD (do Mira Murati sáng lập)

    • SSI: gọi 1 tỷ USD (do Ilya Sutskever sáng lập)

Rất ít startup đi được đến giai đoạn tự chủ phần cứng, nhưng Cursor là trường hợp hiếm hoi trong năm 2025.

Cơ hội nào cho doanh nghiệp Việt Nam?

Dù cuộc đua chip AI mang tính toàn cầu, TS Hiếu cho rằng Việt Nam vẫn có nhiều cơ hội tham gia nếu chọn đúng hướng:

Hai chiến lược khả thi

  • Phát triển chip tiêu thụ điện năng thấp
    Ứng dụng cho xe hơi, smartphone, thiết bị y tế cấy ghép – thị trường còn nhiều dư địa, vốn đầu tư thấp hơn.

  • Tích hợp phần cứng – phần mềm
    Những thuật toán như Flash Attention 2 cho thấy có thể tạo đột phá mà không cần hàng chục tỷ USD.

Về hạ tầng, TS Hiếu tiết lộ 8 chip Nvidia H200 có giá khoảng 250.000 USD, đủ cho nhu cầu nghiên cứu – phát triển ban đầu. Khi sản phẩm chứng minh được hiệu quả, doanh nghiệp có thể mở rộng bằng hình thức thuê GPU dài hạn thay vì mua đứt.

“Quan trọng nhất là đánh giá đúng hiệu quả đầu tư. Làm AI cho lượng người dùng lớn vẫn cần rất nhiều vốn”, TS Hiếu nhấn mạnh.


[/tintuc]

Danh mục