Qualcomm tăng tốc tham vọng AI hạ tầng

Qualcomm đang thể hiện tham vọng nghiêm túc hơn trong thị trường hạ tầng AI cho trung tâm dữ liệu, một sân chơi lâu nay bị Nvidia và AMD thống trị. Tại sự kiện dành cho nhà đầu tư năm 2026, hãng công bố hướng đi mới cho bộ tăng tốc AI thế hệ tiếp theo: ghép chồng nhiều lớp DRAM lên trên bộ xử lý XPU để tạo thành một mô-đun hợp nhất giữa tính toán và bộ nhớ, gọi là HBC, viết tắt của high-bandwidth compute. DRAM là loại bộ nhớ truy cập ngẫu nhiên động, thường có mật độ lưu trữ cao hơn SRAM nhưng chậm hơn; còn XPU là cách gọi chung cho các bộ xử lý tăng tốc, có thể bao gồm GPU, NPU hoặc các kiến trúc chuyên biệt cho AI.

HBC là gì và vì sao Qualcomm tin đây là lời giải cho “bức tường bộ nhớ”

Ý tưởng cốt lõi của HBC là đưa phần tính toán đến gần bộ nhớ nhất có thể, thay vì để dữ liệu phải liên tục di chuyển qua lại giữa chip xử lý và các cụm bộ nhớ riêng biệt. Trong ngành bán dẫn, “memory wall” hay “bức tường bộ nhớ” là khái niệm chỉ tình trạng tốc độ xử lý tăng nhanh hơn tốc độ truy xuất dữ liệu từ bộ nhớ, khiến hiệu năng thực tế bị nghẽn bởi khâu cấp dữ liệu. Qualcomm cho rằng bằng cách đặt logic xử lý ngay bên dưới các lớp DRAM, họ có thể rút ngắn quãng đường dữ liệu phải đi, giảm điện năng tiêu thụ và tăng hiệu quả băng thông.

Thông số AI250 gây chú ý, nhưng cụm từ “băng thông hiệu dụng” mới là điểm then chốt

Theo Qualcomm, bộ tăng tốc AI250 trong dòng hệ thống rack Dragonfly sẽ mang lại 768 GB dung lượng bộ nhớ và băng thông bộ nhớ hiệu dụng lên tới 133 TB/giây trên mỗi card. “Băng thông hiệu dụng” ở đây không đơn thuần là tốc độ vật lý của đường truyền bộ nhớ, mà là mức hiệu quả đạt được sau khi giảm lượng dữ liệu phải di chuyển giữa các khối xử lý và bộ nhớ. Nói cách khác, nếu nhiều phép toán được thực hiện ngay sát nơi dữ liệu nằm, hệ thống có thể hoàn thành công việc như thể đang sở hữu băng thông cao hơn rất nhiều so với con số vật lý thuần túy.

Khác biệt giữa HBC và HBM

Qualcomm nhấn mạnh HBC không phải là HBM thông thường. HBM, tức high-bandwidth memory, là công nghệ bộ nhớ băng thông cao dùng các chồng DRAM đặt cạnh chip xử lý và kết nối qua interposer 2.5D, một lớp đế silicon trung gian giúp dẫn rất nhiều đường tín hiệu. Trong khi đó, HBC của Qualcomm được mô tả là kiến trúc near-memory compute, tức tính toán gần bộ nhớ, nơi một phần năng lực xử lý được tích hợp ngay trong cấu trúc xếp chồng 3D. Công nghệ này dùng TSV, viết tắt của through-silicon via, tức các đường dẫn tín hiệu xuyên qua lớp silicon để liên kết trực tiếp các tầng chip chồng lên nhau.

Lợi ích lớn nhất: giảm điện năng và nhiệt lượng

Ở GPU trung tâm dữ liệu truyền thống, dữ liệu phải được chuyển liên tục giữa bộ nhớ HBM và các die tính toán, tức các khối bán dẫn riêng biệt trên cùng gói chip. Dù đã có những công nghệ đóng gói tiên tiến như CoWoS của TSMC — một phương pháp đóng gói cho phép tích hợp nhiều chip hiệu năng cao trong cùng một mô-đun — việc di chuyển dữ liệu vẫn tiêu tốn nhiều điện và sinh nhiệt đáng kể. Qualcomm cho rằng khi DRAM được xếp trực tiếp lên trên logic xử lý, khoảng cách truyền dữ liệu ngắn hơn nhiều, từ đó giảm tải cho hạ tầng kết nối bên trong chip và cắt bớt nhu cầu dùng silicon interposer đắt đỏ.

AI250 có thể đặc biệt mạnh ở giai đoạn decode của mô hình AI

Không phải mọi tác vụ AI đều hưởng lợi như nhau từ HBC. Qualcomm dường như đang tối ưu mạnh cho decode, giai đoạn mô hình ngôn ngữ lớn tạo ra từng token, tức từng đơn vị văn bản nhỏ, theo kiểu tự hồi quy. Tự hồi quy nghĩa là mô hình sinh ra đầu ra từng bước một, mỗi bước dựa trên những gì đã tạo trước đó. Đây là loại tác vụ phụ thuộc lớn vào việc đọc trọng số mô hình từ bộ nhớ, nhưng không nhất thiết đòi hỏi năng lực tính toán đỉnh quá cao. Vì vậy, kiến trúc đặt tính toán gần bộ nhớ có thể đặc biệt phù hợp cho suy luận AI, hay inference, nhất là khi cần phục vụ mô hình ngôn ngữ lớn ở quy mô lớn.

Mô hình triển khai rời rạc có thể là quân bài chiến lược

Qualcomm cho biết AI250 không chỉ có thể hoạt động như một bộ tăng tốc AI độc lập mà còn phù hợp với kiến trúc suy luận rời rạc, hay disaggregated inference. Đây là cách triển khai trong đó nhiều loại chip khác nhau cùng chia nhau các giai đoạn của một tác vụ AI. Ví dụ, GPU có thể đảm nhiệm prefill hoặc prompt processing — bước xử lý đầu vào ban đầu của mô hình — còn AI250 tập trung tăng tốc decode, phần ngốn băng thông bộ nhớ nhất. Cách tiếp cận này giúp khách hàng phối hợp linh hoạt giữa phần cứng của Nvidia, AMD hoặc chính Qualcomm thay vì phải phụ thuộc hoàn toàn vào một nền tảng.

Lợi thế công nghệ chưa chắc là độc quyền

Dù Qualcomm đang quảng bá HBC như một bước nhảy lớn, giới quan sát cho rằng ý tưởng tính toán gần bộ nhớ không phải điều hoàn toàn mới. Nvidia và AMD được cho là cũng đang hợp tác với các nhà cung cấp HBM và TSMC để phát triển các base die tùy biến cho chip thế hệ sau. Base die có thể hiểu là lớp nền logic bên dưới các chồng bộ nhớ, nơi có thể tích hợp thêm chức năng điều khiển hoặc thậm chí một phần xử lý. Ngoài ra, startup d-Matrix cũng đang theo đuổi bộ tăng tốc dùng DRAM xếp chồng 3D để mở rộng khả năng in-memory compute, tức tính toán ngay trong hoặc rất gần vùng lưu trữ dữ liệu.

Phần mềm mới là mặt trận sống còn, và Qualcomm vừa mua Modular

Bên cạnh phần cứng, Qualcomm cũng đang củng cố lớp phần mềm bằng thương vụ thâu tóm startup AI Modular. Đây là công ty do Chris Lattner đồng sáng lập, người đứng sau LLVM, Clang, ngôn ngữ Swift và MLIR. LLVM là hạ tầng biên dịch nổi tiếng, còn MLIR là một kiến trúc biểu diễn trung gian đa tầng giúp tối ưu việc biên dịch cho nhiều loại phần cứng khác nhau. Tài sản đáng chú ý nhất của Modular là Mojo, một giao diện lập trình hiệu năng cao dành cho GPU và các bộ tăng tốc, được xem như lựa chọn thay thế linh hoạt hơn cho CUDA của Nvidia hay HIP/ROCm của AMD.

Mojo và Max có thể giúp Qualcomm né “hào lũy CUDA”

Trong ngành AI, “CUDA moat” là cách nói về lợi thế hệ sinh thái phần mềm khổng lồ của Nvidia, khiến đối thủ khó lôi kéo nhà phát triển dù phần cứng có thể cạnh tranh. Qualcomm kỳ vọng Mojo sẽ giúp khách hàng viết ứng dụng AI có hiệu năng cao nhưng không bị khóa chặt vào một loại chip duy nhất. Song song đó, Modular còn phát triển Max, một nền tảng phục vụ mô hình AI tương tự vLLM hoặc SGLang. Đây là các hệ thống tối ưu cho việc chạy và phân phối mô hình ngôn ngữ lớn trong thực tế. Nếu Max thực sự vận hành tốt trên nhiều loại phần cứng mà không cần tinh chỉnh quá sâu, Qualcomm sẽ có thêm lợi thế ở mảng triển khai LLM, nơi phần mềm ngày càng quan trọng không kém phần cứng.

Lộ trình ra mắt và bài toán kiểm chứng thực tế

Theo kế hoạch, Qualcomm sẽ tung ra các hệ thống Dragonfly dùng AI200 trong giai đoạn sớm, trước khi đưa AI250 dựa trên HBC ra thị trường từ năm 2027. Thế hệ HBC thứ hai, nhiều khả năng là AI300, được định vị cho năm 2028. Dù các tuyên bố về băng thông và hiệu quả năng lượng rất tham vọng, thị trường vẫn chờ những con số đo kiểm thực tế, đặc biệt khi Qualcomm chưa công bố rõ hiệu năng FLOPS đỉnh của AI250. FLOPS là thước đo số phép toán dấu chấm động mà chip có thể xử lý mỗi giây, thường được dùng để đánh giá sức mạnh tính toán thô. Với Qualcomm, câu hỏi lớn lúc này không chỉ là HBC có mới mẻ đến đâu, mà là liệu nó có đủ thuyết phục để giúp hãng chen chân vào cuộc đua AI trung tâm dữ liệu đang nóng hơn bao giờ hết hay không.

Danh mục máy quét mã vạch

Máy quét mã vạch - Quét mã Qr - Quét mã vạch sản phẩm.

DÒNG MÁY CÓ DÂY

máy quét mã vạch không dây

DÒNG MÁY KHÔNG DÂY

DÒNG MÁY KIỂM KHO PDA

DÒNG MÁY FITMOUNT