Nvidia tung dàn rack AI mới tại GTC 2026, đặt cược lớn vào Groq LPX để tăng tốc suy luận mô hình ngôn ngữ View Larger Image Canh bạc 20 tỷ USD của Nvidia đã có lời giảiTại GTC 2026, CEO Jensen Huang cuối cùng đã làm rõ vì sao Nvidia chấp nhận chi khoảng 20 tỷ USD để mua quyền sở hữu trí tuệ và đội ngũ kỹ sư từ Groq, thay vì tự phát triển một dòng chip suy luận AI mới. Câu trả lời nằm ở tốc độ ra thị trường. Hệ thống rack Groq 3 LPX vừa ra mắt cho thấy Nvidia cần một lời giải sẵn sàng triển khai ngay trong năm nay để phục vụ làn sóng AI tạo sinh, đặc biệt là các mô hình ngôn ngữ lớn hay LLM, tức Large Language Model – những hệ thống như chatbot, trợ lý lập trình và AI agent có thể tạo văn bản, mã nguồn hoặc lập kế hoạch hành động. LPX là gì và vì sao Nvidia xem đây là mảnh ghép chiến lượcGroq 3 LPX là một hệ thống rack chứa tới 256 chip LP30, còn gọi là LPU, viết tắt của Language Processing Unit. Nếu GPU là bộ xử lý đồ họa đã được tận dụng rộng rãi cho AI nhờ khả năng tính toán song song, thì LPU được thiết kế chuyên biệt cho suy luận ngôn ngữ, tức giai đoạn mô hình tạo ra từng token – đơn vị văn bản nhỏ như từ, âm tiết hoặc mảnh từ. Nvidia đang định vị LPX không phải như một sản phẩm thay thế GPU, mà là bộ tăng tốc bổ sung để giải quyết phần việc mà GPU làm chưa tối ưu, đặc biệt khi yêu cầu tương tác thời gian thực tăng cao. Điểm mạnh của LPU: tốc độ sinh token cực caoCác kiến trúc dùng nhiều SRAM như Groq và Cerebras nổi bật ở tốc độ suy luận. SRAM là loại bộ nhớ tĩnh có độ trễ rất thấp và tốc độ truy cập cao hơn nhiều so với HBM, tức High Bandwidth Memory – bộ nhớ băng thông cao thường thấy trên GPU hiện đại. Theo Nvidia, những hệ thống này có thể đạt hơn 500, thậm chí 1.000 token mỗi giây trong một số tác vụ. Điều đó rất quan trọng với trợ lý lập trình, AI agent hay các mô hình suy luận kiểu reasoning, vì tốc độ phản hồi càng cao thì người dùng càng ít phải chờ, còn hệ thống càng có dư địa để tạo thêm các “thinking tokens” – tức các token trung gian phục vụ quá trình lập luận trước khi đưa ra câu trả lời cuối cùng. Test-time scaling: xu hướng mới mà Nvidia muốn kiếm tiềnJensen Huang đặc biệt nhấn mạnh khái niệm test-time scaling. Đây là cách tăng chất lượng đầu ra không phải bằng cách huấn luyện mô hình lớn hơn, mà bằng cách cho mô hình nhiều thời gian và nhiều token hơn để “nghĩ” khi trả lời. Nói đơn giản, mô hình tạo thêm các bước lập luận nội bộ để cải thiện độ chính xác. Vấn đề là càng tạo nhiều token, độ trễ càng tăng. Vì vậy, phần cứng có khả năng sinh token thật nhanh sẽ giúp test-time scaling trở nên thực tế hơn trong các ứng dụng thương mại. Nvidia thậm chí gợi ý rằng năng lực suy luận hiệu năng cao, độ trễ thấp này có thể được định giá tới 150 USD cho mỗi triệu token trong tương lai. Vì sao GPU chưa đủ cho bài toán AI tương tácGPU vẫn rất mạnh ở xử lý theo lô, còn gọi là batch processing, tức xử lý nhiều yêu cầu cùng lúc để tối ưu thông lượng tổng thể. Nhưng khi chuyển sang các kịch bản cần phản hồi riêng cho từng người dùng với tốc độ token cao, hiệu quả của GPU giảm đi đáng kể. Nvidia vì thế chọn mô hình lai: GPU đảm nhiệm các phần việc cần nhiều bộ nhớ và năng lực tính toán tổng quát, còn LPU gánh phần suy luận cần băng thông bộ nhớ cực lớn và độ trễ thấp. Đây là cách hãng muốn giữ lợi thế trước áp lực từ AMD, Cerebras và cả những đối tác đám mây như AWS đang tự phát triển hạ tầng AI riêng. LP30 khác GPU của Nvidia ở những điểm nàoChip LP30 được sản xuất tại Samsung thay vì TSMC và dùng hoàn toàn SRAM trên chip, không dựa vào HBM ngoài chip. Quan trọng hơn, nó không đi theo kiến trúc Von Neumann truyền thống – mô hình mà bộ xử lý liên tục lấy lệnh từ bộ nhớ, giải mã rồi thực thi – mà dùng kiến trúc data flow. Với data flow, dữ liệu được xử lý khi chảy qua các khối tính toán, giảm nhu cầu nạp và ghi dữ liệu liên tục. Về lý thuyết, cách tiếp cận này giúp tăng mức độ sử dụng tài nguyên tính toán thực tế. Nvidia cho biết mỗi LP30 đạt 1,2 petaFLOPS FP8, trong đó FP8 là định dạng số thực 8 bit đang được dùng ngày càng nhiều trong AI để cân bằng giữa tốc độ và độ chính xác. Ưu và nhược của SRAM: nhanh hơn nhiều, nhưng rất tốn diện tíchLợi thế lớn nhất của LP30 là băng thông bộ nhớ lên tới 150 TB mỗi giây, gần gấp 7 lần so với GPU Rubin của Nvidia. Tuy nhiên, cái giá phải trả là dung lượng rất nhỏ. Mỗi chip chỉ có khoảng 500 MB SRAM trên khuôn chip, trong khi chỉ một mô-đun HBM4 trên GPU Rubin đã có thể chứa 36 GB. Vì SRAM chiếm nhiều diện tích bán dẫn hơn nhiều so với DRAM hay HBM, Nvidia không thể nhồi quá nhiều bộ nhớ vào từng LPU. Điều này khiến LP30 đặc biệt phù hợp với pha decode tự hồi quy, tức auto-regressive decode – giai đoạn mô hình tạo từng token một và phải liên tục đọc các tham số đang hoạt động từ bộ nhớ với tốc độ cực cao. Muốn chạy mô hình nghìn tỷ tham số, một rack là chưa đủVấn đề của các mô hình cực lớn là phải chứa vừa tham số trong bộ nhớ. Với các mô hình cỡ nghìn tỷ tham số, Nvidia cho biết cần từ 4 đến 8 rack LPX, tương đương 1.024 đến 2.048 LPU, tùy trọng số mô hình được lưu ở độ chính xác 4 bit hay 8 bit. Độ chính xác thấp hơn giúp tiết kiệm bộ nhớ nhưng đòi hỏi phần cứng hỗ trợ định dạng tương ứng. Hiện LP30 chưa hỗ trợ phần cứng cho NVFP4 hay các kiểu block floating point 4 bit như MX; tính năng này được hẹn cho LP35 vào năm sau. Kết nối dày đặc để ghép nhiều rack thành một siêu cụm suy luậnMỗi LP30 có tới 96 kết nối SerDes 112 Gbps. SerDes là viết tắt của serializer/deserializer, mạch dùng để truyền dữ liệu tốc độ cao giữa các chip và thiết bị mạng. Tổng băng thông hai chiều đạt khoảng 2,5 TB mỗi giây trên mỗi chip. Trong một rack LPX, 256 LPU được bố trí trên 32 khay tính toán, mỗi khay có 8 LPU, DRAM, logic mở rộng fabric và CPU chủ cùng DPU BlueField-4. DPU, hay Data Processing Unit, là bộ xử lý chuyên xử lý mạng, lưu trữ và luồng dữ liệu để giảm tải cho CPU. Hệ thống còn dùng backplane Ethernet đồng mới mang tên Oberon ETL256 để liên kết nội bộ và cho phép ghép nhiều rack LPX hoặc NVL72 thành một cụm lớn. LPX không hoạt động đơn lẻ, mà đi cùng Vera-Rubin NVL72Nvidia không quảng bá LPX như một hệ thống độc lập cho mọi khách hàng. Thay vào đó, hãng xây dựng kiến trúc tham chiếu trong đó một hoặc nhiều rack LPX kết hợp với Vera-Rubin NVL72. Trong mô hình này, GPU xử lý pha prefill – giai đoạn hấp thụ prompt đầu vào và tạo biểu diễn ban đầu, vốn rất nặng về tính toán. Sau đó tới pha decode, nơi các token được sinh ra liên tục. Ở đây, GPU tiếp tục xử lý các phép attention, tức cơ chế cho phép mô hình tập trung vào những phần quan trọng trong ngữ cảnh, còn các phép feed-forward neural network được đẩy sang LPU qua Ethernet. Toàn bộ quá trình được điều phối bởi nền tảng suy luận tách rời Dynamo của Nvidia. KV cache và vì sao GPU vẫn chưa thể bị thay thếMột lý do khiến GPU vẫn giữ vai trò trung tâm là bộ nhớ lớn để lưu KV cache. KV cache, viết tắt của key-value cache, là vùng nhớ giữ trạng thái ngắn hạn của mô hình sau khi xử lý prompt, giúp các token tiếp theo không phải tính lại từ đầu. Ngữ cảnh càng dài thì KV cache càng phình to. Vì vậy, các tác vụ có cửa sổ ngữ cảnh lớn, nhiều người dùng đồng thời hoặc batch lớn sẽ cần nhiều GPU hơn. Nvidia tận dụng lợi thế bộ nhớ của GPU để giữ attention và KV cache, từ đó giảm số lượng LPU phải triển khai. Khách hàng nào thực sự cần LPXNvidia thừa nhận LPX không dành cho phần lớn doanh nghiệp thông thường. Với quy mô hàng nghìn LPU để phục vụ các mô hình mở cỡ rất lớn, nền tảng này chủ yếu nhắm đến hyperscaler, tức các nhà cung cấp đám mây siêu quy mô; neocloud, tức các công ty đám mây thế hệ mới tập trung vào AI; cùng các nhà phát triển mô hình và nhà cung cấp dịch vụ suy luận. Đối tượng phù hợp nhất là những đơn vị cần phục vụ mô hình trên một nghìn tỷ tham số ở tốc độ trên 500 đến 1.000 token mỗi giây. Một cửa mở cho doanh nghiệp: speculative decodingDù LPX quá lớn với nhiều khách hàng, Nvidia vẫn gợi ra một kịch bản dễ tiếp cận hơn: speculative decoding. Đây là kỹ thuật tăng tốc suy luận bằng cách dùng một mô hình nhỏ hơn, nhanh hơn làm “draft model” để dự đoán trước đầu ra của mô hình lớn. Nếu dự đoán đúng, hệ thống tiết kiệm được rất nhiều thời gian; nếu sai, nó quay về mô hình lớn mà không làm giảm chất lượng kết quả. Nvidia cho biết cách làm này có thể tăng tốc sinh token từ 2 đến 3 lần. Vì mô hình draft thường nhỏ, LPU có thể trở thành phần cứng hấp dẫn cho doanh nghiệp nếu được dùng đúng vai trò. Rubin CPX tạm lùi bước để nhường đường cho LPXMột chi tiết đáng chú ý khác là Nvidia gần như đã gác lại dự án Rubin CPX, dòng chip từng được giới thiệu nhằm tối ưu thời gian tới token đầu tiên, hay time to first token – khoảng chờ từ lúc gửi yêu cầu đến khi mô hình bắt đầu trả lời. Rubin CPX dùng bộ nhớ GDDR7 rẻ hơn và chậm hơn HBM để tăng hiệu quả cho xử lý ngữ cảnh lớn trong pha prefill. Tuy nhiên, đến đầu 2026, Nvidia ngừng nhắc đến CPX và nay xác nhận dự án được đưa xuống ưu tiên thấp hơn để tập trung cho LPX. Dù vậy, công ty nói CPX chưa bị khai tử và ý tưởng này có thể quay lại ở thế hệ sau. Không chỉ có LPX: Nvidia dựng cả dây chuyền rack cho AI agentBên cạnh LPX, Nvidia còn công bố thêm ba thiết kế rack quy mô lớn khác gồm rack CPU Vera, rack lưu trữ BlueField-4 STX và rack mạng Spectrum-6 SPX. Rack Vera CPU có 32 blade tính toán, mỗi blade chứa 8 CPU Vera 88 lõi và tối đa 12 TB bộ nhớ LPDDR5X SOCAMM. Đây là môi trường chạy phù hợp cho các hệ thống agentic – tức các AI agent có thể tự lập kế hoạch, gọi công cụ và thực thi tác vụ nhiều bước – vốn cần hiệu năng đơn luồng tốt và băng thông bộ nhớ cao. BlueField-4 STX: nơi cất KV cache để giải phóng GPURack lưu trữ BlueField-4 STX kết hợp DPU BlueField-4, CPU Vera và NIC ConnectX-9 để làm đích offload cho KV cache. Offload nghĩa là chuyển dữ liệu hoặc tác vụ khỏi GPU sang thiết bị khác phù hợp hơn. Nvidia cho biết nền tảng context-memory storage của hãng có thể tự động chuyển KV cache sang bộ nhớ hệ thống hoặc flash tương thích, từ đó giải phóng tài nguyên GPU cho các phần khác của pipeline suy luận. Theo công ty, cách này có thể tăng tốc độ token lên tới 5 lần trong một số trường hợp. SPX hoàn thiện lớp mạng cho toàn bộ hệ sinh tháiRack mạng Spectrum-6 SPX được xây dựng để đơn giản hóa kết nối giữa các switch Spectrum-X và Quantum-X. Trong hạ tầng AI hiện đại, mạng không còn là phần phụ mà là xương sống của toàn hệ thống, bởi dữ liệu, KV cache và các tác vụ suy luận liên tục di chuyển giữa CPU, GPU, LPU và lưu trữ. Với SPX, STX, Vera CPU rack và LPX, Nvidia đang ghép thành một chuỗi cung ứng AI khép kín: agent chạy trên CPU Vera, gọi mô hình trên hệ Vera-Rubin NVL72, tăng tốc decode bằng LPX, đẩy KV cache sang STX và kết nối tất cả qua SPX. Bức tranh lớn: Nvidia muốn bán cả nhà máy AI, không chỉ bán chipThông điệp lớn nhất từ GTC năm nay là Nvidia không còn chỉ cạnh tranh ở cấp độ GPU. Hãng đang chuyển sang bán cả kiến trúc trung tâm dữ liệu AI hoàn chỉnh, nơi mỗi loại rack đảm nhiệm một công đoạn trong “dây chuyền” tạo ra token. Việc thâu tóm công nghệ Groq cho LPX cho thấy Nvidia sẵn sàng chi đậm để rút ngắn thời gian đưa sản phẩm ra thị trường, nhất là khi cuộc đua AI đang dịch chuyển từ huấn luyện sang suy luận. Nếu xu hướng AI agent, chatbot thời gian thực và mô hình reasoning tiếp tục tăng tốc, LPX có thể trở thành một trong những quân bài quan trọng nhất giúp Nvidia giữ ngôi đầu hạ tầng AI trong vài năm tới. Mini PC – Máy Tính Công Nghiệp IPC AI PC – Máy tính AI Intel F1A | Intel Ultra 7 155H 14.500.000₫ Thêm vào giỏ hàng Details AI PC – Máy tính AI Intel F2A | Intel Ultra 7 155H 14.500.000₫ Thêm vào giỏ hàng Details Máy All In One cho văn phòng – PC Gaming – INTEL i5 12450H 8 lõi 12 luồng 15.500.000₫ Thêm vào giỏ hàng Details Máy all in one giá rẻ – PC Gaming – INTEL I5 10500H 6 lõi 12 luồng 13.700.000₫ Thêm vào giỏ hàng Details Máy tính AI – AI PC | Intel I9-12900H + Nvidia RTX3080 28.500.000₫ Thêm vào giỏ hàng Details Máy tính AI AMD AM18 | Ryzen 7 8845HS + Radeon 780M 14.500.000₫ Thêm vào giỏ hàng Details Máy tính AI PC M1A | Intel I9-13900H + Nvidia RTX-3080 28.500.000₫ Thêm vào giỏ hàng Details Máy tính All In One Optori G40 Pro – PC Gaming – INTEL i5 12450H 14.500.000₫ Thêm vào giỏ hàng Details Màn hình cảm ứng HMI – Panel PC Sale! Màn hình cảm ứng HMI – Touch Panel PC BE-PX09 15.6 Inch 21.000.000₫ Giá gốc là: 21.000.000₫.20.200.000₫Giá hiện tại là: 20.200.000₫. Thêm vào giỏ hàng Details Máy tính công nghiệp – Fanless Mini PC Công Nghiệp B8000 9.900.000₫ Thêm vào giỏ hàng Details Máy tính công nghiệp màn hình cảm ứng – Touch Panel HMI QY-P8156 15.6 Inch Details Danh mục máy quét mã vạch DÒNG MÁY CÓ DÂYDÒNG MÁY KHÔNG DÂY DÒNG MÁY KIỂM KHO PDA DÒNG MÁY FITMOUNT admin2026-03-23T22:18:49+07:00 Related Posts Blue Origin muốn đưa trung tâm dữ liệu AI lên quỹ đạo với 51.600 vệ tinh, nhưng tham vọng này còn vấp nhiều rào cản Blue Origin muốn đưa trung tâm dữ liệu AI lên quỹ đạo với 51.600 vệ tinh, nhưng tham vọng này còn vấp nhiều rào cản Tháng 3 23rd, 2026 Đồng sáng lập Supermicro bị bắt vì cáo buộc tuồn máy chủ gắn GPU Nvidia trị giá 2,5 tỷ USD sang Trung Quốc Đồng sáng lập Supermicro bị bắt vì cáo buộc tuồn máy chủ gắn GPU Nvidia trị giá 2,5 tỷ USD sang Trung Quốc Tháng 3 23rd, 2026 Australia siết điều kiện xây trung tâm dữ liệu, châu Á đồng thời rung chuyển vì sự cố mạng, hàng giả lưu trữ và biến động lương công nghệ Australia siết điều kiện xây trung tâm dữ liệu, châu Á đồng thời rung chuyển vì sự cố mạng, hàng giả lưu trữ và biến động lương công nghệ Tháng 3 23rd, 2026 Elon Musk phác thảo kế hoạch sản xuất chip gấp 50 lần thế giới và đưa phần lớn năng lực tính toán lên không gian Elon Musk phác thảo kế hoạch sản xuất chip gấp 50 lần thế giới và đưa phần lớn năng lực tính toán lên không gian Tháng 3 23rd, 2026 Alibaba đã xuất xưởng 470.000 chip AI, thừa nhận còn thua đối thủ nhưng đặt cược vào chiến lược “tự tối ưu toàn ngăn xếp” Alibaba đã xuất xưởng 470.000 chip AI, thừa nhận còn thua đối thủ nhưng đặt cược vào chiến lược “tự tối ưu toàn ngăn xếp” Tháng 3 23rd, 2026