Nvidia tung dàn rack AI mới tại GTC 2026, đặt cược lớn vào Groq LPX để tăng tốc suy luận mô hình ngôn ngữ

Canh bạc 20 tỷ USD của Nvidia đã có lời giải

Tại GTC 2026, CEO Jensen Huang cuối cùng đã làm rõ vì sao Nvidia chấp nhận chi khoảng 20 tỷ USD để mua quyền sở hữu trí tuệ và đội ngũ kỹ sư từ Groq, thay vì tự phát triển một dòng chip suy luận AI mới. Câu trả lời nằm ở tốc độ ra thị trường. Hệ thống rack Groq 3 LPX vừa ra mắt cho thấy Nvidia cần một lời giải sẵn sàng triển khai ngay trong năm nay để phục vụ làn sóng AI tạo sinh, đặc biệt là các mô hình ngôn ngữ lớn hay LLM, tức Large Language Model – những hệ thống như chatbot, trợ lý lập trình và AI agent có thể tạo văn bản, mã nguồn hoặc lập kế hoạch hành động.

LPX là gì và vì sao Nvidia xem đây là mảnh ghép chiến lược

Groq 3 LPX là một hệ thống rack chứa tới 256 chip LP30, còn gọi là LPU, viết tắt của Language Processing Unit. Nếu GPU là bộ xử lý đồ họa đã được tận dụng rộng rãi cho AI nhờ khả năng tính toán song song, thì LPU được thiết kế chuyên biệt cho suy luận ngôn ngữ, tức giai đoạn mô hình tạo ra từng token – đơn vị văn bản nhỏ như từ, âm tiết hoặc mảnh từ. Nvidia đang định vị LPX không phải như một sản phẩm thay thế GPU, mà là bộ tăng tốc bổ sung để giải quyết phần việc mà GPU làm chưa tối ưu, đặc biệt khi yêu cầu tương tác thời gian thực tăng cao.

Điểm mạnh của LPU: tốc độ sinh token cực cao

Các kiến trúc dùng nhiều SRAM như Groq và Cerebras nổi bật ở tốc độ suy luận. SRAM là loại bộ nhớ tĩnh có độ trễ rất thấp và tốc độ truy cập cao hơn nhiều so với HBM, tức High Bandwidth Memory – bộ nhớ băng thông cao thường thấy trên GPU hiện đại. Theo Nvidia, những hệ thống này có thể đạt hơn 500, thậm chí 1.000 token mỗi giây trong một số tác vụ. Điều đó rất quan trọng với trợ lý lập trình, AI agent hay các mô hình suy luận kiểu reasoning, vì tốc độ phản hồi càng cao thì người dùng càng ít phải chờ, còn hệ thống càng có dư địa để tạo thêm các “thinking tokens” – tức các token trung gian phục vụ quá trình lập luận trước khi đưa ra câu trả lời cuối cùng.

Test-time scaling: xu hướng mới mà Nvidia muốn kiếm tiền

Jensen Huang đặc biệt nhấn mạnh khái niệm test-time scaling. Đây là cách tăng chất lượng đầu ra không phải bằng cách huấn luyện mô hình lớn hơn, mà bằng cách cho mô hình nhiều thời gian và nhiều token hơn để “nghĩ” khi trả lời. Nói đơn giản, mô hình tạo thêm các bước lập luận nội bộ để cải thiện độ chính xác. Vấn đề là càng tạo nhiều token, độ trễ càng tăng. Vì vậy, phần cứng có khả năng sinh token thật nhanh sẽ giúp test-time scaling trở nên thực tế hơn trong các ứng dụng thương mại. Nvidia thậm chí gợi ý rằng năng lực suy luận hiệu năng cao, độ trễ thấp này có thể được định giá tới 150 USD cho mỗi triệu token trong tương lai.

Vì sao GPU chưa đủ cho bài toán AI tương tác

GPU vẫn rất mạnh ở xử lý theo lô, còn gọi là batch processing, tức xử lý nhiều yêu cầu cùng lúc để tối ưu thông lượng tổng thể. Nhưng khi chuyển sang các kịch bản cần phản hồi riêng cho từng người dùng với tốc độ token cao, hiệu quả của GPU giảm đi đáng kể. Nvidia vì thế chọn mô hình lai: GPU đảm nhiệm các phần việc cần nhiều bộ nhớ và năng lực tính toán tổng quát, còn LPU gánh phần suy luận cần băng thông bộ nhớ cực lớn và độ trễ thấp. Đây là cách hãng muốn giữ lợi thế trước áp lực từ AMD, Cerebras và cả những đối tác đám mây như AWS đang tự phát triển hạ tầng AI riêng.

LP30 khác GPU của Nvidia ở những điểm nào

Chip LP30 được sản xuất tại Samsung thay vì TSMC và dùng hoàn toàn SRAM trên chip, không dựa vào HBM ngoài chip. Quan trọng hơn, nó không đi theo kiến trúc Von Neumann truyền thống – mô hình mà bộ xử lý liên tục lấy lệnh từ bộ nhớ, giải mã rồi thực thi – mà dùng kiến trúc data flow. Với data flow, dữ liệu được xử lý khi chảy qua các khối tính toán, giảm nhu cầu nạp và ghi dữ liệu liên tục. Về lý thuyết, cách tiếp cận này giúp tăng mức độ sử dụng tài nguyên tính toán thực tế. Nvidia cho biết mỗi LP30 đạt 1,2 petaFLOPS FP8, trong đó FP8 là định dạng số thực 8 bit đang được dùng ngày càng nhiều trong AI để cân bằng giữa tốc độ và độ chính xác.

Ưu và nhược của SRAM: nhanh hơn nhiều, nhưng rất tốn diện tích

Lợi thế lớn nhất của LP30 là băng thông bộ nhớ lên tới 150 TB mỗi giây, gần gấp 7 lần so với GPU Rubin của Nvidia. Tuy nhiên, cái giá phải trả là dung lượng rất nhỏ. Mỗi chip chỉ có khoảng 500 MB SRAM trên khuôn chip, trong khi chỉ một mô-đun HBM4 trên GPU Rubin đã có thể chứa 36 GB. Vì SRAM chiếm nhiều diện tích bán dẫn hơn nhiều so với DRAM hay HBM, Nvidia không thể nhồi quá nhiều bộ nhớ vào từng LPU. Điều này khiến LP30 đặc biệt phù hợp với pha decode tự hồi quy, tức auto-regressive decode – giai đoạn mô hình tạo từng token một và phải liên tục đọc các tham số đang hoạt động từ bộ nhớ với tốc độ cực cao.

Muốn chạy mô hình nghìn tỷ tham số, một rack là chưa đủ

Vấn đề của các mô hình cực lớn là phải chứa vừa tham số trong bộ nhớ. Với các mô hình cỡ nghìn tỷ tham số, Nvidia cho biết cần từ 4 đến 8 rack LPX, tương đương 1.024 đến 2.048 LPU, tùy trọng số mô hình được lưu ở độ chính xác 4 bit hay 8 bit. Độ chính xác thấp hơn giúp tiết kiệm bộ nhớ nhưng đòi hỏi phần cứng hỗ trợ định dạng tương ứng. Hiện LP30 chưa hỗ trợ phần cứng cho NVFP4 hay các kiểu block floating point 4 bit như MX; tính năng này được hẹn cho LP35 vào năm sau.

Kết nối dày đặc để ghép nhiều rack thành một siêu cụm suy luận

Mỗi LP30 có tới 96 kết nối SerDes 112 Gbps. SerDes là viết tắt của serializer/deserializer, mạch dùng để truyền dữ liệu tốc độ cao giữa các chip và thiết bị mạng. Tổng băng thông hai chiều đạt khoảng 2,5 TB mỗi giây trên mỗi chip. Trong một rack LPX, 256 LPU được bố trí trên 32 khay tính toán, mỗi khay có 8 LPU, DRAM, logic mở rộng fabric và CPU chủ cùng DPU BlueField-4. DPU, hay Data Processing Unit, là bộ xử lý chuyên xử lý mạng, lưu trữ và luồng dữ liệu để giảm tải cho CPU. Hệ thống còn dùng backplane Ethernet đồng mới mang tên Oberon ETL256 để liên kết nội bộ và cho phép ghép nhiều rack LPX hoặc NVL72 thành một cụm lớn.

LPX không hoạt động đơn lẻ, mà đi cùng Vera-Rubin NVL72

Nvidia không quảng bá LPX như một hệ thống độc lập cho mọi khách hàng. Thay vào đó, hãng xây dựng kiến trúc tham chiếu trong đó một hoặc nhiều rack LPX kết hợp với Vera-Rubin NVL72. Trong mô hình này, GPU xử lý pha prefill – giai đoạn hấp thụ prompt đầu vào và tạo biểu diễn ban đầu, vốn rất nặng về tính toán. Sau đó tới pha decode, nơi các token được sinh ra liên tục. Ở đây, GPU tiếp tục xử lý các phép attention, tức cơ chế cho phép mô hình tập trung vào những phần quan trọng trong ngữ cảnh, còn các phép feed-forward neural network được đẩy sang LPU qua Ethernet. Toàn bộ quá trình được điều phối bởi nền tảng suy luận tách rời Dynamo của Nvidia.

KV cache và vì sao GPU vẫn chưa thể bị thay thế

Một lý do khiến GPU vẫn giữ vai trò trung tâm là bộ nhớ lớn để lưu KV cache. KV cache, viết tắt của key-value cache, là vùng nhớ giữ trạng thái ngắn hạn của mô hình sau khi xử lý prompt, giúp các token tiếp theo không phải tính lại từ đầu. Ngữ cảnh càng dài thì KV cache càng phình to. Vì vậy, các tác vụ có cửa sổ ngữ cảnh lớn, nhiều người dùng đồng thời hoặc batch lớn sẽ cần nhiều GPU hơn. Nvidia tận dụng lợi thế bộ nhớ của GPU để giữ attention và KV cache, từ đó giảm số lượng LPU phải triển khai.

Khách hàng nào thực sự cần LPX

Nvidia thừa nhận LPX không dành cho phần lớn doanh nghiệp thông thường. Với quy mô hàng nghìn LPU để phục vụ các mô hình mở cỡ rất lớn, nền tảng này chủ yếu nhắm đến hyperscaler, tức các nhà cung cấp đám mây siêu quy mô; neocloud, tức các công ty đám mây thế hệ mới tập trung vào AI; cùng các nhà phát triển mô hình và nhà cung cấp dịch vụ suy luận. Đối tượng phù hợp nhất là những đơn vị cần phục vụ mô hình trên một nghìn tỷ tham số ở tốc độ trên 500 đến 1.000 token mỗi giây.

Một cửa mở cho doanh nghiệp: speculative decoding

Dù LPX quá lớn với nhiều khách hàng, Nvidia vẫn gợi ra một kịch bản dễ tiếp cận hơn: speculative decoding. Đây là kỹ thuật tăng tốc suy luận bằng cách dùng một mô hình nhỏ hơn, nhanh hơn làm “draft model” để dự đoán trước đầu ra của mô hình lớn. Nếu dự đoán đúng, hệ thống tiết kiệm được rất nhiều thời gian; nếu sai, nó quay về mô hình lớn mà không làm giảm chất lượng kết quả. Nvidia cho biết cách làm này có thể tăng tốc sinh token từ 2 đến 3 lần. Vì mô hình draft thường nhỏ, LPU có thể trở thành phần cứng hấp dẫn cho doanh nghiệp nếu được dùng đúng vai trò.

Rubin CPX tạm lùi bước để nhường đường cho LPX

Một chi tiết đáng chú ý khác là Nvidia gần như đã gác lại dự án Rubin CPX, dòng chip từng được giới thiệu nhằm tối ưu thời gian tới token đầu tiên, hay time to first token – khoảng chờ từ lúc gửi yêu cầu đến khi mô hình bắt đầu trả lời. Rubin CPX dùng bộ nhớ GDDR7 rẻ hơn và chậm hơn HBM để tăng hiệu quả cho xử lý ngữ cảnh lớn trong pha prefill. Tuy nhiên, đến đầu 2026, Nvidia ngừng nhắc đến CPX và nay xác nhận dự án được đưa xuống ưu tiên thấp hơn để tập trung cho LPX. Dù vậy, công ty nói CPX chưa bị khai tử và ý tưởng này có thể quay lại ở thế hệ sau.

Không chỉ có LPX: Nvidia dựng cả dây chuyền rack cho AI agent

Bên cạnh LPX, Nvidia còn công bố thêm ba thiết kế rack quy mô lớn khác gồm rack CPU Vera, rack lưu trữ BlueField-4 STX và rack mạng Spectrum-6 SPX. Rack Vera CPU có 32 blade tính toán, mỗi blade chứa 8 CPU Vera 88 lõi và tối đa 12 TB bộ nhớ LPDDR5X SOCAMM. Đây là môi trường chạy phù hợp cho các hệ thống agentic – tức các AI agent có thể tự lập kế hoạch, gọi công cụ và thực thi tác vụ nhiều bước – vốn cần hiệu năng đơn luồng tốt và băng thông bộ nhớ cao.

BlueField-4 STX: nơi cất KV cache để giải phóng GPU

Rack lưu trữ BlueField-4 STX kết hợp DPU BlueField-4, CPU Vera và NIC ConnectX-9 để làm đích offload cho KV cache. Offload nghĩa là chuyển dữ liệu hoặc tác vụ khỏi GPU sang thiết bị khác phù hợp hơn. Nvidia cho biết nền tảng context-memory storage của hãng có thể tự động chuyển KV cache sang bộ nhớ hệ thống hoặc flash tương thích, từ đó giải phóng tài nguyên GPU cho các phần khác của pipeline suy luận. Theo công ty, cách này có thể tăng tốc độ token lên tới 5 lần trong một số trường hợp.

SPX hoàn thiện lớp mạng cho toàn bộ hệ sinh thái

Rack mạng Spectrum-6 SPX được xây dựng để đơn giản hóa kết nối giữa các switch Spectrum-X và Quantum-X. Trong hạ tầng AI hiện đại, mạng không còn là phần phụ mà là xương sống của toàn hệ thống, bởi dữ liệu, KV cache và các tác vụ suy luận liên tục di chuyển giữa CPU, GPU, LPU và lưu trữ. Với SPX, STX, Vera CPU rack và LPX, Nvidia đang ghép thành một chuỗi cung ứng AI khép kín: agent chạy trên CPU Vera, gọi mô hình trên hệ Vera-Rubin NVL72, tăng tốc decode bằng LPX, đẩy KV cache sang STX và kết nối tất cả qua SPX.

Bức tranh lớn: Nvidia muốn bán cả nhà máy AI, không chỉ bán chip

Thông điệp lớn nhất từ GTC năm nay là Nvidia không còn chỉ cạnh tranh ở cấp độ GPU. Hãng đang chuyển sang bán cả kiến trúc trung tâm dữ liệu AI hoàn chỉnh, nơi mỗi loại rack đảm nhiệm một công đoạn trong “dây chuyền” tạo ra token. Việc thâu tóm công nghệ Groq cho LPX cho thấy Nvidia sẵn sàng chi đậm để rút ngắn thời gian đưa sản phẩm ra thị trường, nhất là khi cuộc đua AI đang dịch chuyển từ huấn luyện sang suy luận. Nếu xu hướng AI agent, chatbot thời gian thực và mô hình reasoning tiếp tục tăng tốc, LPX có thể trở thành một trong những quân bài quan trọng nhất giúp Nvidia giữ ngôi đầu hạ tầng AI trong vài năm tới.

Mini PC – Máy Tính Công Nghiệp IPC

AI PC – Máy tính AI Intel F1A | Intel Ultra 7 155H

14.500.000₫

Thêm vào giỏ hàng Details
AI PC – Máy tính AI Intel F2A | Intel Ultra 7 155H

14.500.000₫

Thêm vào giỏ hàng Details
Máy All In One cho văn phòng – PC Gaming – INTEL i5 12450H 8 lõi 12 luồng

15.500.000₫

Thêm vào giỏ hàng Details
Máy all in one giá rẻ – PC Gaming – INTEL I5 10500H 6 lõi 12 luồng

13.700.000₫

Thêm vào giỏ hàng Details
Máy tính AI – AI PC | Intel I9-12900H + Nvidia RTX3080

28.500.000₫

Thêm vào giỏ hàng Details
Máy tính AI AMD AM18 | Ryzen 7 8845HS + Radeon 780M

14.500.000₫

Thêm vào giỏ hàng Details
Máy tính AI PC M1A | Intel I9-13900H + Nvidia RTX-3080

28.500.000₫

Thêm vào giỏ hàng Details
Máy tính All In One Optori G40 Pro – PC Gaming – INTEL i5 12450H

14.500.000₫

Thêm vào giỏ hàng Details

Màn hình cảm ứng HMI – Panel PC

Sale!

Màn hình cảm ứng HMI – Touch Panel PC BE-PX09 15.6 Inch

Giá gốc là: 21.000.000₫.Giá hiện tại là: 20.200.000₫.

Thêm vào giỏ hàng Details
Máy tính công nghiệp – Fanless Mini PC Công Nghiệp B8000

9.900.000₫

Thêm vào giỏ hàng Details
Máy tính công nghiệp màn hình cảm ứng – Touch Panel HMI QY-P8156 15.6 Inch

Details

Danh mục máy quét mã vạch

Máy quét mã vạch - Quét mã Qr - Quét mã vạch sản phẩm.

DÒNG MÁY CÓ DÂY

Nvidia tung dàn rack AI mới tại GTC 2026, đặt cược lớn vào Groq LPX để tăng tốc suy luận mô hình ngôn ngữ

Canh bạc 20 tỷ USD của Nvidia đã có lời giải

LPX là gì và vì sao Nvidia xem đây là mảnh ghép chiến lược

Điểm mạnh của LPU: tốc độ sinh token cực cao

Test-time scaling: xu hướng mới mà Nvidia muốn kiếm tiền

Vì sao GPU chưa đủ cho bài toán AI tương tác

LP30 khác GPU của Nvidia ở những điểm nào

Ưu và nhược của SRAM: nhanh hơn nhiều, nhưng rất tốn diện tích

Muốn chạy mô hình nghìn tỷ tham số, một rack là chưa đủ

Kết nối dày đặc để ghép nhiều rack thành một siêu cụm suy luận

LPX không hoạt động đơn lẻ, mà đi cùng Vera-Rubin NVL72

KV cache và vì sao GPU vẫn chưa thể bị thay thế

Khách hàng nào thực sự cần LPX

Một cửa mở cho doanh nghiệp: speculative decoding

Rubin CPX tạm lùi bước để nhường đường cho LPX

Không chỉ có LPX: Nvidia dựng cả dây chuyền rack cho AI agent

BlueField-4 STX: nơi cất KV cache để giải phóng GPU

SPX hoàn thiện lớp mạng cho toàn bộ hệ sinh thái

Bức tranh lớn: Nvidia muốn bán cả nhà máy AI, không chỉ bán chip

Mini PC – Máy Tính Công Nghiệp IPC

AI PC – Máy tính AI Intel F1A | Intel Ultra 7 155H

AI PC – Máy tính AI Intel F2A | Intel Ultra 7 155H

Máy All In One cho văn phòng – PC Gaming – INTEL i5 12450H 8 lõi 12 luồng

Máy all in one giá rẻ – PC Gaming – INTEL I5 10500H 6 lõi 12 luồng

Máy tính AI – AI PC | Intel I9-12900H + Nvidia RTX3080

Máy tính AI AMD AM18 | Ryzen 7 8845HS + Radeon 780M

Máy tính AI PC M1A | Intel I9-13900H + Nvidia RTX-3080

Máy tính All In One Optori G40 Pro – PC Gaming – INTEL i5 12450H

Màn hình cảm ứng HMI – Panel PC

Màn hình cảm ứng HMI – Touch Panel PC BE-PX09 15.6 Inch

Máy tính công nghiệp – Fanless Mini PC Công Nghiệp B8000

Máy tính công nghiệp màn hình cảm ứng – Touch Panel HMI QY-P8156 15.6 Inch

Danh mục máy quét mã vạch

DÒNG MÁY CÓ DÂY

DÒNG MÁY KHÔNG DÂY

DÒNG MÁY KIỂM KHO PDA

DÒNG MÁY FITMOUNT

Nvidia tung dàn rack AI mới tại GTC 2026, đặt cược lớn vào Groq LPX để tăng tốc suy luận mô hình ngôn ngữ

Canh bạc 20 tỷ USD của Nvidia đã có lời giải

LPX là gì và vì sao Nvidia xem đây là mảnh ghép chiến lược

Điểm mạnh của LPU: tốc độ sinh token cực cao

Test-time scaling: xu hướng mới mà Nvidia muốn kiếm tiền

Vì sao GPU chưa đủ cho bài toán AI tương tác

LP30 khác GPU của Nvidia ở những điểm nào

Ưu và nhược của SRAM: nhanh hơn nhiều, nhưng rất tốn diện tích

Muốn chạy mô hình nghìn tỷ tham số, một rack là chưa đủ

Kết nối dày đặc để ghép nhiều rack thành một siêu cụm suy luận

LPX không hoạt động đơn lẻ, mà đi cùng Vera-Rubin NVL72

KV cache và vì sao GPU vẫn chưa thể bị thay thế

Khách hàng nào thực sự cần LPX

Một cửa mở cho doanh nghiệp: speculative decoding

Rubin CPX tạm lùi bước để nhường đường cho LPX

Không chỉ có LPX: Nvidia dựng cả dây chuyền rack cho AI agent

BlueField-4 STX: nơi cất KV cache để giải phóng GPU

SPX hoàn thiện lớp mạng cho toàn bộ hệ sinh thái

Bức tranh lớn: Nvidia muốn bán cả nhà máy AI, không chỉ bán chip

Mini PC – Máy Tính Công Nghiệp IPC

Màn hình cảm ứng HMI – Panel PC

Danh mục máy quét mã vạch

DÒNG MÁY CÓ DÂY

DÒNG MÁY KHÔNG DÂY

DÒNG MÁY KIỂM KHO PDA

DÒNG MÁY FITMOUNT

Related Posts