Nvidia kết hợp GPU và LPU để nhắm vào cuộc đua suy luận AI độ trễ thấp

Tại sự kiện GTC, Nvidia xác nhận sẽ tích hợp các bộ xử lý ngôn ngữ LPU của Groq vào hệ thống rack LPX mới nhằm tăng tốc giai đoạn suy luận AI, tức quá trình mô hình tạo ra câu trả lời sau khi đã được huấn luyện. Theo Nvidia, kiến trúc mới này sẽ đi kèm các rack Vera Rubin và hướng tới mục tiêu phục vụ những mô hình ngôn ngữ lớn, hay LLM, có quy mô tới hàng nghìn tỷ tham số. Tham số có thể hiểu là các giá trị nội bộ quyết định cách mô hình học và phản hồi; càng nhiều tham số, mô hình càng mạnh nhưng cũng càng đòi hỏi hạ tầng lớn hơn. Nvidia cho biết nền tảng kết hợp này có thể đạt tốc độ hàng trăm đến hàng nghìn token mỗi giây cho mỗi người dùng, trong đó token là đơn vị văn bản nhỏ mà mô hình AI tạo ra từng bước, thường là một phần của từ hoặc một từ ngắn.

Vì sao Groq LPU được chọn cho khâu giải mã câu trả lời

Suy luận của LLM thường gồm hai giai đoạn chính. Đầu tiên là prefill, giai đoạn mô hình đọc và xử lý toàn bộ câu lệnh đầu vào; đây là phần tiêu tốn năng lực tính toán rất lớn. Tiếp theo là decode, giai đoạn mô hình tạo ra từng token trong câu trả lời; phần này phụ thuộc mạnh vào băng thông bộ nhớ, tức tốc độ dữ liệu có thể được đọc và ghi. Nvidia cho rằng GPU Rubin mới của hãng rất mạnh ở mặt tính toán, với hiệu năng lên tới 50 petaFLOPS mỗi chip. FLOPS là thước đo số phép tính dấu chấm động mỗi giây, còn petaFLOPS tương đương một triệu tỷ phép tính mỗi giây. Tuy nhiên, chip Groq lại vượt trội ở băng thông bộ nhớ nhờ kiến trúc SRAM tốc độ cao. SRAM là loại bộ nhớ cực nhanh nhưng dung lượng thường nhỏ và đắt hơn so với các dạng bộ nhớ khác. Theo Nvidia, chip Groq mới đạt băng thông 150 TB/giây, cao hơn gần 7 lần mức 22 TB/giây của bộ nhớ HBM4 trên Rubin. HBM, viết tắt của High Bandwidth Memory, là bộ nhớ băng thông cao được xếp chồng để phục vụ các tác vụ AI và HPC, tức điện toán hiệu năng cao.

Thiết kế rack LPX: GPU lo tính toán, LPU lo nhả token

Trong cấu hình mới, Nvidia sẽ đóng gói 256 chip Groq 3 LPU vào một rack LPX riêng, sau đó kết nối rack này với một rack Vera Rubin NVL72 thông qua liên kết Spectrum-X tùy biến. Có thể xem đây là mạng kết nối tốc độ cao giữa các khối tăng tốc AI trong trung tâm dữ liệu. Vai trò được chia rất rõ: GPU Rubin đảm nhận phần xử lý prompt nặng về tính toán, còn LPU đảm trách việc tạo token với độ trễ cực thấp. Nvidia nhấn mạnh LPU không thay thế GPU mà chỉ đóng vai trò tăng cường. Mỗi Groq 3 LPU đạt khoảng 1,2 petaFLOPS ở định dạng FP8, một kiểu số dấu chấm động 8-bit đang ngày càng phổ biến trong AI vì giúp giảm lượng bộ nhớ và điện năng tiêu thụ. Tuy vậy, mỗi chip chỉ có 500 MB bộ nhớ tích hợp, thấp hơn rất nhiều so với GPU cao cấp của Nvidia. Điều đó đồng nghĩa muốn đạt hiệu năng thực tế cho các mô hình cực lớn, hãng phải dùng số lượng chip rất lớn.

Bài toán bộ nhớ vẫn là nút thắt với mô hình nghìn tỷ tham số

Ngay cả khi một rack LPX chứa 256 LPU, tổng bộ nhớ siêu nhanh cũng chỉ vào khoảng 128 GB. Con số này vẫn quá nhỏ nếu muốn chứa trọn một mô hình cỡ 1 nghìn tỷ tham số trong bộ nhớ. Nvidia ước tính nếu dùng độ chính xác 4-bit, tức mỗi tham số chỉ chiếm 4 bit để tiết kiệm dung lượng, vẫn cần ít nhất 512 GB bộ nhớ. Nói cách khác, có thể phải cần tới khoảng 1.000 LPU mới đủ chỗ cho một mô hình khổng lồ như vậy. Để giải quyết hạn chế này, Nvidia nói nhiều rack LPX có thể được ghép cụm với nhau. Đây là cách mở rộng theo chiều ngang thường thấy trong hạ tầng AI: thay vì trông chờ một chip cực lớn, nhà cung cấp liên kết nhiều rack để chia tải xử lý và lưu trữ mô hình.

Nvidia điều chỉnh chiến lược sau khi từng theo đuổi Rubin CPX

Động thái dùng LPU của Groq cũng cho thấy Nvidia đang thay đổi hướng đi. Trước đó, hãng từng giới thiệu Rubin CPX, một bộ xử lý chuyên cho prefill, với ý tưởng dùng chip trang bị GDDR7 cho xử lý prompt và GPU Rubin dùng HBM cho decode. GDDR7 là thế hệ bộ nhớ đồ họa tốc độ cao thường thấy trên card tăng tốc, trong khi HBM phù hợp hơn cho khối lượng dữ liệu khổng lồ trong AI. Tuy nhiên, dự án Rubin CPX dường như đã bị gác lại để nhường chỗ cho phương án dùng LPU của Groq làm bộ tăng tốc decode. Theo Nvidia, trọng tâm hiện tại là tối ưu khâu giải mã bằng việc tích hợp LPU vào nền tảng LPX.

Cuộc đua token cao cấp ngày càng nóng, nhưng CUDA vẫn chưa theo kịp

Nvidia không phải công ty duy nhất theo đuổi mô hình kết hợp giữa bộ tăng tốc tính toán mạnh và kiến trúc SRAM tốc độ cao. AWS gần đây cũng công bố hợp tác với Cerebras để xây dựng nền tảng suy luận lai, trong đó Trainium 3 xử lý prompt còn chip WSE-3 của Cerebras tạo token độ trễ thấp. WSE, hay Wafer-Scale Engine, là kiểu chip kích thước gần bằng cả tấm wafer bán dẫn, cho phép tích hợp lượng lớn bộ nhớ và logic xử lý trên một khối duy nhất. Xu hướng này phản ánh nhu cầu ngày càng tăng đối với cái gọi là premium tokens, tức các token được tạo ra cực nhanh để phục vụ trải nghiệm gần như tức thời trong chatbot, lập trình AI hoặc tác nhân AI. Nvidia tin rằng các nhà cung cấp suy luận có thể tính phí tới 45 USD cho mỗi triệu token tạo ra, cao hơn đáng kể mặt bằng hiện nay của nhiều API AI cao cấp. Dù vậy, vẫn còn một hạn chế đáng chú ý: các ASIC của Groq, tức chip chuyên dụng cho một tác vụ cụ thể, hiện chưa hỗ trợ CUDA gốc. CUDA là nền tảng phần mềm cốt lõi của Nvidia để lập trình GPU. Trong giai đoạn đầu, Nvidia cho biết LPX dùng Groq sẽ chủ yếu nhắm tới các nhà xây dựng mô hình và nhà cung cấp dịch vụ cần phục vụ mô hình hơn nghìn tỷ tham số với tốc độ token rất cao, còn khả năng tiếp cận và hỗ trợ phần mềm có thể vẫn còn giới hạn khi sản phẩm lên kệ vào cuối năm nay.

Danh mục máy quét mã vạch

Máy quét mã vạch - Quét mã Qr - Quét mã vạch sản phẩm.

DÒNG MÁY CÓ DÂY

máy quét mã vạch không dây

DÒNG MÁY KHÔNG DÂY

DÒNG MÁY KIỂM KHO PDA

DÒNG MÁY FITMOUNT