Trọng tâm AI đang dịch chuyển từ huấn luyện sang suy luận

Thị trường AI đang bước vào một điểm bẻ lái quan trọng khi trọng tâm không còn chỉ nằm ở giai đoạn huấn luyện mô hình mà chuyển mạnh sang suy luận, tức quá trình đưa mô hình đã huấn luyện vào phục vụ người dùng thực tế. Đây là lúc các startup chip AI có cơ hội chen chân vào thị trường vốn lâu nay bị Nvidia thống trị. Khác với huấn luyện, suy luận không phải một khối công việc đồng nhất: một hệ thống phục vụ chatbot thời gian thực, trợ lý AI hay tác nhân lập trình sẽ có nhu cầu tính toán, bộ nhớ và băng thông rất khác so với xử lý theo lô lớn. Chính sự đa dạng này khiến hạ tầng suy luận trở nên dị thể hơn, nghĩa là nhiều loại phần cứng khác nhau có thể cùng tham gia thay vì chỉ phụ thuộc vào GPU.

Mô hình suy luận phân tách đang trở thành xu hướng

Một khái niệm nổi bật trong giai đoạn mới là suy luận phân tách, hay disaggregated inference, tức chia pipeline suy luận thành nhiều công đoạn và giao cho các loại chip khác nhau xử lý. Trong pipeline này, phần prefill là bước mô hình đọc và xử lý toàn bộ ngữ cảnh đầu vào ban đầu, thường đòi hỏi năng lực tính toán lớn. Trong khi đó, decode là giai đoạn mô hình sinh từng token, tức từng đơn vị văn bản nhỏ, theo thời gian thực; công đoạn này nhạy cảm hơn với độ trễ và băng thông bộ nhớ. Cách tiếp cận này giúp các hãng kết hợp điểm mạnh của nhiều kiến trúc chip thay vì buộc một loại phần cứng làm tất cả.

Nvidia vừa là đối thủ, vừa có thể là đồng minh

Thương vụ Nvidia chi khoảng 20 tỷ USD để thâu tóm Groq theo hình thức acquihire, tức mua công ty chủ yếu để lấy đội ngũ và công nghệ, là minh họa rõ nét cho xu hướng mới. Groq từng nổi bật với kiến trúc chip dùng nhiều SRAM, một loại bộ nhớ dung lượng không lớn nhưng cực nhanh, giúp các bộ xử lý LPU của hãng tạo token nhanh hơn GPU trong một số bài toán. LPU ở đây có thể hiểu là bộ xử lý tối ưu cho suy luận ngôn ngữ, tập trung vào tốc độ sinh đầu ra. Tuy nhiên, hạn chế về năng lực tính toán tổng thể và công nghệ chế tạo chip cũ khiến giải pháp này khó mở rộng hiệu quả nếu hoạt động độc lập. Nvidia giải bài toán đó bằng cách giao phần prefill nặng tính toán cho GPU, còn phần decode bị giới hạn bởi băng thông thì chuyển sang LPU mới. Điều này cho thấy Nvidia không chỉ cạnh tranh với startup chip mà còn có thể hấp thụ và tái sử dụng công nghệ của họ trong một kiến trúc lai.

AWS, Intel và nhiều hãng lớn cũng đang thử công thức phối hợp nhiều chip

Nvidia không phải công ty duy nhất theo đuổi chiến lược này. AWS đã công bố nền tảng tính toán phân tách riêng, trong đó dùng Trainium, dòng tăng tốc AI do Amazon tự phát triển, cho phần prefill; còn decode được giao cho bộ tăng tốc wafer-scale của Cerebras. Wafer-scale là kiến trúc chế tạo chip ở quy mô gần như cả tấm wafer bán dẫn, thay vì cắt nhỏ thành nhiều khuôn chip riêng lẻ, nhờ đó có thể đạt quy mô tính toán và băng thông nội bộ rất lớn. Intel cũng nhập cuộc với một thiết kế tham chiếu kết hợp GPU cho prefill và RDU của SambaNova cho decode. RDU là viết tắt của Reconfigurable Dataflow Unit, một kiểu bộ xử lý có thể tái cấu hình luồng dữ liệu để tối ưu cho các tác vụ AI. Diễn biến này cho thấy thị trường đang dần chấp nhận ý tưởng rằng không có một loại chip duy nhất phù hợp cho mọi giai đoạn suy luận.

Startup chip đang thắng thế ở bài toán decode

Cho đến nay, phần lớn thành công của các startup chip AI tập trung ở decode. Lý do là công đoạn này hưởng lợi rõ rệt từ SRAM nhờ tốc độ truy cập cực cao, dù dung lượng không lớn. Khi được triển khai với đủ số lượng chip, hoặc với những con chip cỡ rất lớn như của Cerebras, kiến trúc này có thể tăng tốc đáng kể quá trình sinh token. Trong bối cảnh người dùng ngày càng quen với chatbot phản hồi tức thì, tốc độ decode trở thành chỉ số cạnh tranh sống còn. Điều đó mở ra ngách thị trường thực tế cho các công ty nhỏ hơn, thay vì buộc họ phải đối đầu trực diện với GPU đa dụng của Nvidia trên mọi mặt trận.

Lumai đặt cược vào quang học để giảm điện năng suy luận

Một hướng đi khác biệt đến từ Lumai, startup giới thiệu bộ tăng tốc suy luận quang học. Thay vì dùng electron như chip số truyền thống, hệ thống này dùng ánh sáng để thực hiện phép nhân ma trận, phép toán cốt lõi trong phần lớn khối lượng công việc machine learning hay học máy. Lumai gọi kiến trúc của mình là hybrid electro-optical, tức lai điện-quang: một phần hệ thống vẫn dùng điện tử, nhưng phần tính toán chính trong suy luận được xử lý bởi optical tensor core, có thể hiểu là lõi tensor quang học chuyên cho các phép toán ma trận nhiều chiều. Phù hợp cho các thiết bị máy quét mã vạch AI, vision ai Công ty kỳ vọng hệ thống Iris Tetra thế hệ tiếp theo sẽ đạt hiệu năng exaOPS trong mức điện 10 kW vào năm 2029. ExaOPS là đơn vị đo số phép toán mỗi giây ở quy mô cực lớn, thường dùng để mô tả năng lực xử lý AI. Nếu đạt được mục tiêu này, Lumai có thể tạo lợi thế lớn về điện năng, yếu tố ngày càng quan trọng khi trung tâm dữ liệu AI phình to.

Công nghệ mới vẫn còn sớm, nhưng đã đủ hấp dẫn để hyperscaler thử nghiệm

Hiện tại, kiến trúc của Lumai vẫn ở giai đoạn đầu. Công ty cho biết chip của họ mới chạy được các mô hình cỡ hàng tỷ tham số như Llama 3.1 8B hoặc 70B. Tham số là các giá trị số mà mô hình học được trong quá trình huấn luyện; số lượng càng lớn thường đồng nghĩa mô hình càng mạnh nhưng cũng đòi hỏi phần cứng nặng hơn. Dù vậy, công nghệ đã đủ trưởng thành để Lumai mở cho neocloud và hyperscaler đánh giá. Neocloud là các nhà cung cấp đám mây thế hệ mới, thường tập trung vào hạ tầng GPU hoặc AI chuyên dụng, ví dụng ứng dụng cho bảng giá điện tử AI tại các siêu thị lớn. Còn hyperscaler là những ông lớn vận hành hạ tầng đám mây ở quy mô siêu lớn như Amazon, Google hay Microsoft. Việc các nhóm khách hàng này bắt đầu thử nghiệm cho thấy thị trường đang tích cực tìm kiếm lựa chọn ngoài GPU truyền thống.

Tenstorrent phản đối xu hướng “chip tăng tốc cho chip tăng tốc”

Không phải công ty nào cũng tin vào mô hình chia prefill và decode cho các loại chip khác nhau. Tenstorrent vừa ra mắt nền tảng tính toán Galaxy Blackhole dựa trên RISC-V, một kiến trúc tập lệnh mở cho phép thiết kế bộ xử lý linh hoạt hơn so với các nền tảng đóng. CEO Jim Keller cho rằng ngành công nghiệp đang đi quá xa với chuỗi lớp tăng tốc chồng lên nhau: CPU chạy mã lệnh, GPU tăng tốc cho CPU, TPU tăng tốc thêm cho GPU, rồi LPU lại tăng tốc cho TPU. TPU, hay Tensor Processing Unit, là bộ xử lý chuyên cho tensor và AI, nổi tiếng nhờ Google. Theo Keller, cách xây dựng hệ thống nhiều lớp như vậy sẽ khiến giải pháp trở nên phức tạp, khó thích ứng khi mô hình AI và cách sử dụng thay đổi nhanh chóng. Tenstorrent vì thế theo đuổi hướng tiếp cận tổng quát và đơn giản hơn, thay vì tối ưu từng mảnh việc bằng từng loại chip riêng.

Cuộc đua suy luận sẽ quyết định ai có chỗ đứng trong kỷ nguyên AI tiếp theo

Bức tranh mới của AI cho thấy cơ hội của startup chip chưa hề khép lại, thậm chí đang mở ra lần thứ hai nhờ sự bùng nổ của suy luận. Khi doanh nghiệp chuyển từ xây mô hình sang vận hành mô hình ở quy mô lớn, các tiêu chí như độ trễ, điện năng, băng thông và chi phí triển khai trở nên quan trọng không kém sức mạnh tính toán thuần túy. Trong thế giới AI phân tách này, Nvidia vẫn giữ vai trò trung tâm, nhưng không còn là người chơi duy nhất có thể quyết định mọi thứ. Startup có thể trở thành đối thủ ở một mắt xích, đồng minh ở mắt xích khác, hoặc là mục tiêu thâu tóm nếu sở hữu công nghệ đủ khác biệt. Cuộc chiến sắp tới vì thế sẽ không chỉ là ai có GPU mạnh nhất, mà là ai xây được kiến trúc suy luận linh hoạt, hiệu quả và phù hợp nhất với từng kiểu ứng dụng AI.

Danh mục máy quét mã vạch

Máy quét mã vạch - Quét mã Qr - Quét mã vạch sản phẩm.

DÒNG MÁY CÓ DÂY

máy quét mã vạch không dây

DÒNG MÁY KHÔNG DÂY

DÒNG MÁY KIỂM KHO PDA

DÒNG MÁY FITMOUNT