Nvidia đưa công nghệ Groq trị giá 20 tỷ USD vào rack LPX mới, tăng tốc phản hồi AI lên mức hàng nghìn token mỗi giây View Larger Image Nvidia kết hợp GPU và LPU để nhắm vào cuộc đua suy luận AI độ trễ thấpTại sự kiện GTC, Nvidia xác nhận sẽ tích hợp các bộ xử lý ngôn ngữ LPU của Groq vào hệ thống rack LPX mới nhằm tăng tốc giai đoạn suy luận AI, tức quá trình mô hình tạo ra câu trả lời sau khi đã được huấn luyện. Theo Nvidia, kiến trúc mới này sẽ đi kèm các rack Vera Rubin và hướng tới mục tiêu phục vụ những mô hình ngôn ngữ lớn, hay LLM, có quy mô tới hàng nghìn tỷ tham số. Tham số có thể hiểu là các giá trị nội bộ quyết định cách mô hình học và phản hồi; càng nhiều tham số, mô hình càng mạnh nhưng cũng càng đòi hỏi hạ tầng lớn hơn. Nvidia cho biết nền tảng kết hợp này có thể đạt tốc độ hàng trăm đến hàng nghìn token mỗi giây cho mỗi người dùng, trong đó token là đơn vị văn bản nhỏ mà mô hình AI tạo ra từng bước, thường là một phần của từ hoặc một từ ngắn. Vì sao Groq LPU được chọn cho khâu giải mã câu trả lờiSuy luận của LLM thường gồm hai giai đoạn chính. Đầu tiên là prefill, giai đoạn mô hình đọc và xử lý toàn bộ câu lệnh đầu vào; đây là phần tiêu tốn năng lực tính toán rất lớn. Tiếp theo là decode, giai đoạn mô hình tạo ra từng token trong câu trả lời; phần này phụ thuộc mạnh vào băng thông bộ nhớ, tức tốc độ dữ liệu có thể được đọc và ghi. Nvidia cho rằng GPU Rubin mới của hãng rất mạnh ở mặt tính toán, với hiệu năng lên tới 50 petaFLOPS mỗi chip. FLOPS là thước đo số phép tính dấu chấm động mỗi giây, còn petaFLOPS tương đương một triệu tỷ phép tính mỗi giây. Tuy nhiên, chip Groq lại vượt trội ở băng thông bộ nhớ nhờ kiến trúc SRAM tốc độ cao. SRAM là loại bộ nhớ cực nhanh nhưng dung lượng thường nhỏ và đắt hơn so với các dạng bộ nhớ khác. Theo Nvidia, chip Groq mới đạt băng thông 150 TB/giây, cao hơn gần 7 lần mức 22 TB/giây của bộ nhớ HBM4 trên Rubin. HBM, viết tắt của High Bandwidth Memory, là bộ nhớ băng thông cao được xếp chồng để phục vụ các tác vụ AI và HPC, tức điện toán hiệu năng cao. Thiết kế rack LPX: GPU lo tính toán, LPU lo nhả tokenTrong cấu hình mới, Nvidia sẽ đóng gói 256 chip Groq 3 LPU vào một rack LPX riêng, sau đó kết nối rack này với một rack Vera Rubin NVL72 thông qua liên kết Spectrum-X tùy biến. Có thể xem đây là mạng kết nối tốc độ cao giữa các khối tăng tốc AI trong trung tâm dữ liệu. Vai trò được chia rất rõ: GPU Rubin đảm nhận phần xử lý prompt nặng về tính toán, còn LPU đảm trách việc tạo token với độ trễ cực thấp. Nvidia nhấn mạnh LPU không thay thế GPU mà chỉ đóng vai trò tăng cường. Mỗi Groq 3 LPU đạt khoảng 1,2 petaFLOPS ở định dạng FP8, một kiểu số dấu chấm động 8-bit đang ngày càng phổ biến trong AI vì giúp giảm lượng bộ nhớ và điện năng tiêu thụ. Tuy vậy, mỗi chip chỉ có 500 MB bộ nhớ tích hợp, thấp hơn rất nhiều so với GPU cao cấp của Nvidia. Điều đó đồng nghĩa muốn đạt hiệu năng thực tế cho các mô hình cực lớn, hãng phải dùng số lượng chip rất lớn. Bài toán bộ nhớ vẫn là nút thắt với mô hình nghìn tỷ tham sốNgay cả khi một rack LPX chứa 256 LPU, tổng bộ nhớ siêu nhanh cũng chỉ vào khoảng 128 GB. Con số này vẫn quá nhỏ nếu muốn chứa trọn một mô hình cỡ 1 nghìn tỷ tham số trong bộ nhớ. Nvidia ước tính nếu dùng độ chính xác 4-bit, tức mỗi tham số chỉ chiếm 4 bit để tiết kiệm dung lượng, vẫn cần ít nhất 512 GB bộ nhớ. Nói cách khác, có thể phải cần tới khoảng 1.000 LPU mới đủ chỗ cho một mô hình khổng lồ như vậy. Để giải quyết hạn chế này, Nvidia nói nhiều rack LPX có thể được ghép cụm với nhau. Đây là cách mở rộng theo chiều ngang thường thấy trong hạ tầng AI: thay vì trông chờ một chip cực lớn, nhà cung cấp liên kết nhiều rack để chia tải xử lý và lưu trữ mô hình. Nvidia điều chỉnh chiến lược sau khi từng theo đuổi Rubin CPXĐộng thái dùng LPU của Groq cũng cho thấy Nvidia đang thay đổi hướng đi. Trước đó, hãng từng giới thiệu Rubin CPX, một bộ xử lý chuyên cho prefill, với ý tưởng dùng chip trang bị GDDR7 cho xử lý prompt và GPU Rubin dùng HBM cho decode. GDDR7 là thế hệ bộ nhớ đồ họa tốc độ cao thường thấy trên card tăng tốc, trong khi HBM phù hợp hơn cho khối lượng dữ liệu khổng lồ trong AI. Tuy nhiên, dự án Rubin CPX dường như đã bị gác lại để nhường chỗ cho phương án dùng LPU của Groq làm bộ tăng tốc decode. Theo Nvidia, trọng tâm hiện tại là tối ưu khâu giải mã bằng việc tích hợp LPU vào nền tảng LPX. Cuộc đua token cao cấp ngày càng nóng, nhưng CUDA vẫn chưa theo kịpNvidia không phải công ty duy nhất theo đuổi mô hình kết hợp giữa bộ tăng tốc tính toán mạnh và kiến trúc SRAM tốc độ cao. AWS gần đây cũng công bố hợp tác với Cerebras để xây dựng nền tảng suy luận lai, trong đó Trainium 3 xử lý prompt còn chip WSE-3 của Cerebras tạo token độ trễ thấp. WSE, hay Wafer-Scale Engine, là kiểu chip kích thước gần bằng cả tấm wafer bán dẫn, cho phép tích hợp lượng lớn bộ nhớ và logic xử lý trên một khối duy nhất. Xu hướng này phản ánh nhu cầu ngày càng tăng đối với cái gọi là premium tokens, tức các token được tạo ra cực nhanh để phục vụ trải nghiệm gần như tức thời trong chatbot, lập trình AI hoặc tác nhân AI. Nvidia tin rằng các nhà cung cấp suy luận có thể tính phí tới 45 USD cho mỗi triệu token tạo ra, cao hơn đáng kể mặt bằng hiện nay của nhiều API AI cao cấp. Dù vậy, vẫn còn một hạn chế đáng chú ý: các ASIC của Groq, tức chip chuyên dụng cho một tác vụ cụ thể, hiện chưa hỗ trợ CUDA gốc. CUDA là nền tảng phần mềm cốt lõi của Nvidia để lập trình GPU. Trong giai đoạn đầu, Nvidia cho biết LPX dùng Groq sẽ chủ yếu nhắm tới các nhà xây dựng mô hình và nhà cung cấp dịch vụ cần phục vụ mô hình hơn nghìn tỷ tham số với tốc độ token rất cao, còn khả năng tiếp cận và hỗ trợ phần mềm có thể vẫn còn giới hạn khi sản phẩm lên kệ vào cuối năm nay. Mini PC – Máy Tính Công Nghiệp IPC AI PC – Máy tính AI Intel F1A | Intel Ultra 7 155H 14.500.000₫ Thêm vào giỏ hàng Details AI PC – Máy tính AI Intel F2A | Intel Ultra 7 155H 14.500.000₫ Thêm vào giỏ hàng Details Máy All In One cho văn phòng – PC Gaming – INTEL i5 12450H 8 lõi 12 luồng 15.500.000₫ Thêm vào giỏ hàng Details Máy all in one giá rẻ – PC Gaming – INTEL I5 10500H 6 lõi 12 luồng 13.700.000₫ Thêm vào giỏ hàng Details Máy tính AI – AI PC | Intel I9-12900H + Nvidia RTX3080 28.500.000₫ Thêm vào giỏ hàng Details Máy tính AI AMD AM18 | Ryzen 7 8845HS + Radeon 780M 14.500.000₫ Thêm vào giỏ hàng Details Máy tính AI PC M1A | Intel I9-13900H + Nvidia RTX-3080 28.500.000₫ Thêm vào giỏ hàng Details Máy tính All In One Optori G40 Pro – PC Gaming – INTEL i5 12450H 14.500.000₫ Thêm vào giỏ hàng Details Màn hình cảm ứng HMI – Panel PC Sale! Màn hình cảm ứng HMI – Touch Panel PC BE-PX09 15.6 Inch 21.000.000₫ Giá gốc là: 21.000.000₫.20.200.000₫Giá hiện tại là: 20.200.000₫. Thêm vào giỏ hàng Details Máy tính công nghiệp – Fanless Mini PC Công Nghiệp B8000 9.900.000₫ Thêm vào giỏ hàng Details Máy tính công nghiệp màn hình cảm ứng – Touch Panel HMI QY-P8156 15.6 Inch Details Danh mục máy quét mã vạch DÒNG MÁY CÓ DÂYDÒNG MÁY KHÔNG DÂY DÒNG MÁY KIỂM KHO PDA DÒNG MÁY FITMOUNT admin2026-03-23T22:18:44+07:00 Related Posts Blue Origin muốn đưa trung tâm dữ liệu AI lên quỹ đạo với 51.600 vệ tinh, nhưng tham vọng này còn vấp nhiều rào cản Blue Origin muốn đưa trung tâm dữ liệu AI lên quỹ đạo với 51.600 vệ tinh, nhưng tham vọng này còn vấp nhiều rào cản Tháng 3 23rd, 2026 Đồng sáng lập Supermicro bị bắt vì cáo buộc tuồn máy chủ gắn GPU Nvidia trị giá 2,5 tỷ USD sang Trung Quốc Đồng sáng lập Supermicro bị bắt vì cáo buộc tuồn máy chủ gắn GPU Nvidia trị giá 2,5 tỷ USD sang Trung Quốc Tháng 3 23rd, 2026 Australia siết điều kiện xây trung tâm dữ liệu, châu Á đồng thời rung chuyển vì sự cố mạng, hàng giả lưu trữ và biến động lương công nghệ Australia siết điều kiện xây trung tâm dữ liệu, châu Á đồng thời rung chuyển vì sự cố mạng, hàng giả lưu trữ và biến động lương công nghệ Tháng 3 23rd, 2026 Elon Musk phác thảo kế hoạch sản xuất chip gấp 50 lần thế giới và đưa phần lớn năng lực tính toán lên không gian Elon Musk phác thảo kế hoạch sản xuất chip gấp 50 lần thế giới và đưa phần lớn năng lực tính toán lên không gian Tháng 3 23rd, 2026 Nvidia tung dàn rack AI mới tại GTC 2026, đặt cược lớn vào Groq LPX để tăng tốc suy luận mô hình ngôn ngữ Nvidia tung dàn rack AI mới tại GTC 2026, đặt cược lớn vào Groq LPX để tăng tốc suy luận mô hình ngôn ngữ Tháng 3 23rd, 2026