Trước thềm Nvidia GTC 2026: Jensen Huang có thể tung át chủ bài mới cho cuộc đua AI, từ chip Groq đến siêu rack ngốn điện megawatt

GTC 2026 được chờ đợi như sân khấu lớn nhất của Nvidia

Hội nghị GPU Technology Conference, hay GTC, của Nvidia sẽ diễn ra vào tuần tới và được xem là một trong những sự kiện công nghệ đáng chú ý nhất năm. Trong bối cảnh cơn sốt AI tạo sinh tiếp tục tăng nhiệt, giới quan sát kỳ vọng CEO Jensen Huang sẽ dùng sân khấu này để trình diễn không chỉ chip mới, mà cả chiến lược hạ tầng AI nhiều năm tới. Điểm nóng lớn nhất nằm ở cách Nvidia giải quyết bài toán xử lý khối lượng “token” khổng lồ do các mô hình AI sinh ra. Token có thể hiểu đơn giản là các đơn vị văn bản nhỏ mà mô hình ngôn ngữ xử lý và tạo ra khi trả lời, viết mã hoặc vận hành tác vụ tự động.

Vì sao Nvidia cần Groq để tăng tốc AI thời gian thực

Các hệ thống AI hiện đại như trợ lý lập trình hay “agentic systems” – tức các hệ thống AI có thể tự lên kế hoạch và thực hiện chuỗi hành động nhiều bước – đang đòi hỏi tốc độ sinh token ngày càng cao, đồng thời độ trễ phải cực thấp. Độ trễ thấp nghĩa là phản hồi gần như tức thì, yếu tố sống còn với ứng dụng tương tác trực tiếp. Đây lại là điểm mà GPU truyền thống của Nvidia chưa phải lựa chọn tối ưu nhất. Theo các đánh giá hiệu năng gần đây, kiến trúc thiên về SRAM như của Groq và Cerebras tỏ ra vượt trội trong các kịch bản nhạy cảm với độ trễ. SRAM là loại bộ nhớ tốc độ rất cao, thường đắt hơn nhưng giúp dữ liệu được truy cập cực nhanh. Những hệ thống này có thể đạt tốc độ tạo hơn 500 đến 1.000 token mỗi giây, cao hơn đáng kể so với nhiều kiến trúc dựa trên GPU thông thường.

Thương vụ 20 tỷ USD có thể bắt đầu phát huy tác dụng

Sau khi chi khoảng 20 tỷ USD để thâu tóm tài sản trí tuệ và đội ngũ của Groq vào cuối năm ngoái, Nvidia được cho là đã có trong tay mảnh ghép còn thiếu cho mảng suy luận AI. Suy luận, hay inference, là giai đoạn mô hình đã được huấn luyện xong và bắt đầu phục vụ người dùng thực tế. Đây cũng là nơi chi phí trên mỗi token và tốc độ phản hồi quyết định tính kinh tế của dịch vụ AI. Nếu Nvidia kết hợp được GPU, hệ sinh thái phần mềm CUDA và kiến trúc dataflow của Groq, hãng có thể đồng thời giảm chi phí mỗi token và tăng mạnh thông lượng. Dataflow là cách thiết kế chip tối ưu đường đi của dữ liệu qua các khối xử lý, thay vì phụ thuộc quá nhiều vào bộ nhớ ngoài như kiến trúc truyền thống. Tại GTC, Nvidia nhiều khả năng sẽ ít nhất công bố hỗ trợ bước đầu cho kiến trúc Groq, dù việc tích hợp sâu vào ngăn xếp phần cứng-phần mềm CUDA chắc chắn không đơn giản.

Rubin sẽ là ngôi sao phần cứng mới của trung tâm dữ liệu

Một trọng tâm khác của GTC 2026 gần như chắc chắn là Rubin, thế hệ GPU kế nhiệm Blackwell mà Nvidia đã hé lộ từ CES hồi tháng 1. Rubin được cho là có thể trang bị tối đa 288 GB bộ nhớ HBM4 – loại bộ nhớ băng thông cao xếp chồng nhiều lớp ngay cạnh chip xử lý – cho băng thông tới 22 TB/s. Nvidia cũng nói đến mức hiệu năng 35 đến 50 petaFLOPS ở định dạng NVFP4. PetaFLOPS là đơn vị đo khả năng tính toán ở quy mô hàng triệu tỷ phép tính dấu phẩy động mỗi giây, còn NVFP4 là định dạng số độ chính xác thấp do Nvidia tối ưu cho AI nhằm tăng tốc xử lý và giảm điện năng. So với Blackwell, Rubin được dự đoán mang lại bước nhảy hiệu năng dày đặc lên tới 5 lần. Chip này sẽ xuất hiện trong cả nền tảng HGX 8 GPU lẫn hệ thống rack NVL72, nơi 72 mô-đun Rubin SXM được nhồi vào một hệ thống duy nhất.

Hiệu năng tăng vọt, nhưng bài toán nhiệt và điện ngày càng đáng sợ

Mặt trái của cuộc đua sức mạnh là điện năng và làm mát. Một số ước tính cho rằng Rubin có thể đạt mức công suất thiết kế nhiệt, hay TDP, khoảng 1,8 kW mỗi chip hoặc thậm chí cao hơn. TDP là lượng nhiệt mà hệ thống tản nhiệt phải xử lý khi chip vận hành ở tải cao. Với mức này, làm mát bằng chất lỏng gần như trở thành yêu cầu bắt buộc thay vì tùy chọn. Điều đó có thể khiến một số khách hàng chùn bước, đặc biệt là các doanh nghiệp chưa sẵn sàng nâng cấp hạ tầng trung tâm dữ liệu. Đây là khe cửa để AMD cạnh tranh bằng các hệ thống làm mát bằng không khí. Tuy vậy, giới quan sát cũng không loại trừ khả năng Nvidia sẽ tung ra một biến thể Rubin một khuôn chip, dùng ít stack HBM hơn để giảm nhiệt, từ đó đưa hiệu năng cao hơn Blackwell khoảng 2,5 lần mà vẫn tránh được yêu cầu làm mát lỏng.

Vera CPU có thể giúp Nvidia đối đầu trực diện Intel và AMD

Bên cạnh GPU, Nvidia được dự đoán sẽ nói kỹ hơn về Vera, dòng CPU trung tâm dữ liệu dùng lõi Arm tùy biến. Arm là kiến trúc vi xử lý nổi tiếng nhờ hiệu quả điện năng cao, đang ngày càng phổ biến ngoài điện thoại và tiến vào máy chủ. Vera được giới thiệu từ GTC năm ngoái với 88 lõi, hỗ trợ simultaneous multithreading – kỹ thuật cho phép một lõi xử lý nhiều luồng tác vụ cùng lúc – và bổ sung các tính năng confidential computing, tức cơ chế bảo vệ dữ liệu ngay cả khi đang được xử lý trong bộ nhớ. Trước đây, những tính năng này thường gắn với nền tảng x86 của Intel và AMD. Nếu Vera được bán như CPU độc lập thay vì chỉ đi kèm siêu chip Vera-Rubin, Nvidia sẽ bước vào một cuộc cạnh tranh mới ở các ứng dụng máy chủ phổ thông, không chỉ bó hẹp trong siêu máy tính hay HPC, tức điện toán hiệu năng cao.

Kyber và Feynman hé lộ tương lai trung tâm dữ liệu ngốn điện hơn cả nhà máy nhỏ

GTC 2026 cũng có thể là nơi Nvidia tiếp tục “đặt hàng trước” cho ngành hạ tầng dữ liệu bằng cách công bố thêm chi tiết về rack Kyber và GPU Feynman, dự kiến ra mắt vào 2027 và 2028. Kyber từng được mô tả là một quái vật 600 kW, nhồi 144 socket GPU, mỗi socket chứa bốn die Rubin Ultra, vào một rack tiêu chuẩn. Die là phần khuôn silicon thực tế bên trong chip. Việc Nvidia sớm nói về Kyber không chỉ để khoe công nghệ, mà còn nhằm thúc ép các nhà cung cấp điện, làm mát và cơ sở vật lý trung tâm dữ liệu chuẩn bị từ trước. Với nhịp ra mắt sản phẩm gần như hàng năm, Nvidia không thể chờ toàn ngành bắt kịp. Nếu Feynman được nhắc đến mạnh hơn tại GTC lần này, giới công nghệ có thể sẽ phải làm quen với mục tiêu mới: hơn 1 megawatt cho mỗi rack AI.

Nvidia có thể bất ngờ nhá hàng PC Arm và đồ họa tích hợp cho thị trường Windows

Ngoài trung tâm dữ liệu, một câu hỏi thú vị là liệu Nvidia có “ném cho game thủ một khúc xương” hay không, tức tung ra tín hiệu rõ ràng hơn về tham vọng PC tiêu dùng. Từ lâu, hãng đã bị đồn phát triển SoC nền Arm cho máy tính cá nhân. SoC, viết tắt của system-on-chip, là kiểu chip tích hợp nhiều thành phần như CPU, GPU và các bộ tăng tốc khác vào cùng một gói. Mảnh ghép cho hướng đi này thực tế đã xuất hiện dưới dạng DGX Spark và các hệ thống GB10 đối tác, nhưng hiện chủ yếu nằm trong mini PC workstation chạy Linux. Các báo cáo gần đây cho thấy Nvidia đang làm việc với Lenovo và Dell để đưa sản phẩm tương tự lên thị trường Windows. Song song, hãng còn được cho là hợp tác với Intel để tích hợp die GPU Nvidia vào bộ xử lý thế hệ mới. Dù vậy, khả năng xuất hiện card RTX 50 Super tại GTC bị đánh giá là thấp, nhất là khi thị trường bộ nhớ vẫn căng thẳng.

OpenClaw, NemoClaw và làn sóng AI tác tử có thể chiếm sóng phần mềm

Không chỉ có silicon, phần mềm AI nhiều khả năng cũng sẽ là điểm nhấn lớn. OpenClaw được dự đoán sẽ xuất hiện dày đặc trong các bài phát biểu. Đây là một framework agentic, tức bộ khung phần mềm giúp xây dựng AI có khả năng tự chia nhỏ mục tiêu thành nhiều bước và hành động tương đối độc lập. Tuy nhiên, loại hệ thống này cũng kéo theo nhiều rủi ro bảo mật vì AI có thể được trao quyền truy cập công cụ, dữ liệu hoặc dịch vụ bên ngoài. Nvidia được cho là đang phát triển một phiên bản riêng an toàn hơn mang tên NemoClaw. Nếu điều này thành sự thật, GTC 2026 có thể đánh dấu bước đi quan trọng của Nvidia từ nhà cung cấp chip thành nhà cung cấp nền tảng AI toàn diện, nơi phần cứng, mô hình, framework và công cụ bảo mật gắn chặt với nhau.

Robot, Omniverse và tham vọng đưa AI ra thế giới vật lý

Robot cũng gần như chắc chắn sẽ lại bước lên sân khấu. Kể từ khi công bố nền tảng robotics Isaac GR00T gần hai năm trước, Nvidia liên tục bổ sung toolkit, framework và bo mạch phát triển để biến AI tạo sinh thành các hệ thống có khả năng tương tác với môi trường thật. Để huấn luyện các robot này hoạt động trong thế giới khó đoán, Nvidia nhiều khả năng tiếp tục nhấn mạnh Omniverse. Đây là nền tảng digital twin, hay “bản sao số”, cho phép mô phỏng nhà máy, robot, quy trình công nghiệp hay thậm chí cả trung tâm dữ liệu trong môi trường ảo trước khi triển khai ngoài đời thực. Công nghệ digital twin đặc biệt hữu ích khi doanh nghiệp muốn thử nghiệm, tối ưu và phát hiện lỗi mà không phải trả giá bằng thời gian dừng hệ thống hay chi phí vận hành thực tế.

GTC 2026 có thể cho thấy Nvidia đang chuyển từ hãng GPU thành kiến trúc sư của cả kỷ nguyên AI

Nếu các dự đoán thành hiện thực, thông điệp lớn nhất của GTC năm nay sẽ không chỉ là Nvidia có chip nhanh hơn. Điều đáng chú ý hơn là công ty đang xây dựng một đế chế AI theo chiều dọc: từ GPU Rubin, CPU Vera, công nghệ dataflow của Groq, cho tới rack Kyber, phần mềm agentic, robot và nền tảng mô phỏng Omniverse. Đây là cách tiếp cận kiểm soát toàn bộ chuỗi giá trị, từ silicon đến ứng dụng. Trong ngắn hạn, mọi ánh mắt sẽ đổ dồn vào việc Nvidia giải bài toán token, độ trễ và điện năng ra sao. Nhưng về dài hạn, GTC 2026 có thể được nhớ đến như thời điểm hãng chính thức định nghĩa lại vai trò của mình: không còn chỉ bán GPU, mà bán cả tương lai vận hành của AI quy mô công nghiệp.

Trước thềm Nvidia GTC 2026: Jensen Huang có thể tung át chủ bài mới cho cuộc đua AI, từ chip Groq đến siêu rack ngốn điện megawatt

GTC 2026 được chờ đợi như sân khấu lớn nhất của Nvidia

Vì sao Nvidia cần Groq để tăng tốc AI thời gian thực

Thương vụ 20 tỷ USD có thể bắt đầu phát huy tác dụng

Rubin sẽ là ngôi sao phần cứng mới của trung tâm dữ liệu

Hiệu năng tăng vọt, nhưng bài toán nhiệt và điện ngày càng đáng sợ

Vera CPU có thể giúp Nvidia đối đầu trực diện Intel và AMD

Kyber và Feynman hé lộ tương lai trung tâm dữ liệu ngốn điện hơn cả nhà máy nhỏ

Nvidia có thể bất ngờ nhá hàng PC Arm và đồ họa tích hợp cho thị trường Windows

OpenClaw, NemoClaw và làn sóng AI tác tử có thể chiếm sóng phần mềm

Robot, Omniverse và tham vọng đưa AI ra thế giới vật lý

GTC 2026 có thể cho thấy Nvidia đang chuyển từ hãng GPU thành kiến trúc sư của cả kỷ nguyên AI

Related Posts

Blue Origin muốn đưa trung tâm dữ liệu AI lên quỹ đạo với 51.600 vệ tinh, nhưng tham vọng này còn vấp nhiều rào cản

Đồng sáng lập Supermicro bị bắt vì cáo buộc tuồn máy chủ gắn GPU Nvidia trị giá 2,5 tỷ USD sang Trung Quốc

Australia siết điều kiện xây trung tâm dữ liệu, châu Á đồng thời rung chuyển vì sự cố mạng, hàng giả lưu trữ và biến động lương công nghệ

Elon Musk phác thảo kế hoạch sản xuất chip gấp 50 lần thế giới và đưa phần lớn năng lực tính toán lên không gian

Nvidia tung dàn rack AI mới tại GTC 2026, đặt cược lớn vào Groq LPX để tăng tốc suy luận mô hình ngôn ngữ