Galaxy Blackhole chính thức lên kệ với cấu hình dày đặc cho AI

Tenstorrent vừa công bố phát hành rộng rãi nền tảng tính toán AI Galaxy Blackhole, một hệ thống máy chủ cao 6U — tức chuẩn kích thước chiếm 6 đơn vị trong tủ rack datacenter — được nhồi tới 32 chip gia tốc Blackhole. Đây là các bộ xử lý chuyên dụng cho AI, tương tự NPU hay accelerator, được thiết kế để tăng tốc huấn luyện và suy luận mô hình học máy. Theo Tenstorrent, toàn bộ 32 chip trong một máy được kết nối với nhau bằng mạng Ethernet mesh, tức cấu trúc liên kết dạng lưới giúp nhiều chip trao đổi dữ liệu trực tiếp với băng thông tổng cộng 100 Tbps. Công ty cho biết mỗi hệ thống sở hữu 1 TB bộ nhớ GDDR6, loại RAM băng thông cao thường thấy trên GPU, đạt băng thông bộ nhớ 16 TB/s và hiệu năng 23 petaFLOPS ở định dạng FP8 dense. FP8 là kiểu số thực 8-bit đang ngày càng phổ biến trong AI vì giúp tăng tốc xử lý và giảm nhu cầu bộ nhớ, đặc biệt với các mô hình ngôn ngữ lớn.

Giá bán thấp hơn đáng kể so với DGX, nhưng cuộc chơi không chỉ nằm ở phần cứng

Điểm gây chú ý nhất của Galaxy Blackhole là mức giá khoảng 110.000 USD cho mỗi hệ thống. Nếu đặt cạnh các máy chủ DGX 8 GPU của Nvidia — dòng máy vốn được xem là chuẩn vàng trong hạ tầng AI doanh nghiệp — Tenstorrent cho rằng sản phẩm của họ rẻ hơn khoảng 3 đến 5 lần, dù phải thừa nhận DGX vẫn mạnh hơn và có dung lượng lớn hơn. Dù vậy, lợi thế của Tenstorrent nằm ở bài toán chi phí/hiệu năng, một thước đo ngày càng quan trọng khi doanh nghiệp muốn triển khai AI ở quy mô thực tế thay vì chỉ thử nghiệm trong phòng lab.

Kiến trúc mở rộng theo cụm, hỗ trợ hơn 1.000 chip trong một siêu cụm

Tenstorrent không dừng ở một máy đơn lẻ. Hãng cho biết mạng mesh của Blackhole có thể mở rộng theo kiểu cluster, tương tự cách Google ghép các TPU hay Amazon ghép cụm Trainium2 để phục vụ mô hình lớn hơn. TPU, viết tắt của Tensor Processing Unit, là chip AI do Google tự phát triển; còn Trainium là dòng chip huấn luyện AI của AWS. Với Tenstorrent, cấu hình cơ bản mang tên Galaxy Supercluster có giá 440.000 USD, gồm 4 node Blackhole. Trong hạ tầng máy chủ, node là một máy hoặc một đơn vị tính toán độc lập trong cụm. Kiến trúc này có thể mở rộng tối đa lên 32 node, tương đương hơn 1.000 chip, cho phép người dùng tăng thông lượng hoặc cải thiện trải nghiệm tương tác của ứng dụng AI bằng cách điều chỉnh tensor parallelism và pipeline parallelism. Đây là hai kỹ thuật chia nhỏ mô hình AI để chạy song song trên nhiều chip: tensor parallelism chia ma trận tính toán trong cùng một lớp mạng nơ-ron, còn pipeline parallelism chia các lớp của mô hình thành từng công đoạn xử lý nối tiếp trên nhiều thiết bị.

Phần mềm được cải thiện mạnh sau giai đoạn đầu còn nhiều hạn chế

Một trong những điểm từng khiến Tenstorrent bị nghi ngờ là phần mềm. Ở giai đoạn thử nghiệm trước đó, số mô hình hỗ trợ còn ít và nhiều mô hình chưa được tối ưu cho phần cứng Blackhole, khiến hiệu năng mở rộng không thực sự thuyết phục. Theo Jasmina Vasiljevic, senior fellow của Tenstorrent, tình hình hiện đã khác đáng kể. Công ty nói họ đã đầu tư mạnh vào việc chuyển đổi thêm mô hình sang nền tảng Blackhole và tối ưu hiệu năng phần mềm, ngay cả khi trước đó từng hạ một phần thông số hiệu năng của chip. Điều này cho thấy Tenstorrent đang đi theo hướng mà nhiều hãng chip AI mới nổi phải chọn: bù đắp hạn chế phần cứng bằng hệ sinh thái phần mềm tốt hơn, vì trong Vision AI hiện đại, compiler, runtime và framework hỗ trợ mô hình thường quan trọng không kém silicon.

DeepSeek V3, video 720p và tham vọng cạnh tranh trong suy luận AI

Tenstorrent đưa ra một số con số đáng chú ý để chứng minh năng lực thực tế của nền tảng. Với cụm 4 node Galaxy Supercluster, hãng nói có thể xử lý prompt dài 100.000 token cho DeepSeek V3 trong chưa đến 4 giây. Token là đơn vị nhỏ mà mô hình ngôn ngữ dùng để biểu diễn văn bản; 100.000 token tương đương khoảng 166 trang nội dung. Công ty cũng cho biết hệ thống đạt tốc độ tới 300 token/giây cho mỗi người dùng và kỳ vọng nâng lên 350 token/giây nhờ tối ưu phần mềm. Tuy nhiên, vẫn còn một chi tiết quan trọng chưa được công bố: batch size. Đây là số lượng yêu cầu hoặc mẫu dữ liệu được xử lý cùng lúc, là chỉ số then chốt để đánh giá khả năng mở rộng khi triển khai ngoài thực tế. Tốc độ 350 token/giây cho một người dùng là ấn tượng, nhưng giá trị thương mại sẽ cao hơn nhiều nếu hệ thống giữ được tốc độ đó với 32 hay 64 phiên đồng thời. Tenstorrent cho biết nền tảng có thể mở rộng hiệu quả từ batch 8 đến 64, tùy nhu cầu giữa thông lượng và độ trễ tương tác.

Không chỉ LLM, Blackhole còn nhắm tới video generation và hệ sinh thái đám mây

Ngoài mô hình ngôn ngữ lớn, hay LLM (Large Language Model), Tenstorrent còn định vị Galaxy Blackhole như một nền tảng phù hợp cho video generation — tức tạo video bằng AI. Hãng nói rằng trên cụm 4 node, hệ thống có thể tạo video 720p nhanh hơn thời gian thực, một mốc quan trọng với các ứng dụng sáng tạo nội dung và mô phỏng. Công ty cũng tiết lộ đang làm việc để hỗ trợ thêm các frontier model, tức những mô hình AI tiên tiến hàng đầu, bao gồm Kimi K2 của Moonshot AI. Để đẩy nhanh quá trình đưa mô hình mới lên phần cứng, đội ngũ Tenstorrent đã phát triển giao diện lập trình dựa trên Python cho phép viết kernel tối ưu. Trong ngữ cảnh này, kernel là đoạn mã tính toán lõi chạy trực tiếp trên phần cứng tăng tốc, quyết định lớn đến hiệu năng thực tế. Tenstorrent thậm chí tuyên bố 90% mô hình trên Hugging Face có thể chạy trên nền tảng của họ. Hugging Face là kho mô hình AI mã nguồn mở rất phổ biến trong cộng đồng phát triển. Đây là tuyên bố táo bạo và chắc chắn sẽ cần được kiểm chứng kỹ trong các bài thử nghiệm độc lập.

Cơ hội thử nghiệm trước khi mua và tín hiệu cho thị trường chip AI hậu Nvidia

Với những doanh nghiệp chưa muốn đầu tư ngay, Tenstorrent cho biết phần cứng máy tính AI của họ đang được triển khai tại một số nhà cung cấp panel pc, màn hình cảm ứng HMI, colocation và neocloud như Cirrascale, Equinix và ai& của Nhật Bản. Colocation là mô hình thuê chỗ đặt máy chủ trong trung tâm dữ liệu của bên thứ ba, còn neocloud thường dùng để chỉ các nhà cung cấp đám mây thế hệ mới tập trung mạnh vào AI. Sự hiện diện của Galaxy Blackhole tại các đối tác này có thể giúp khách hàng thử nghiệm thực tế trước khi xuống tiền. Nhìn rộng hơn, màn ra mắt lần này cho thấy cuộc đua chip AI đang bước sang giai đoạn mới: thay vì cố tạo ra một con chip đơn lẻ mạnh nhất, các hãng như Tenstorrent đang đặt cược vào kiến trúc mở rộng theo cụm, chi phí hợp lý và phần mềm ngày càng trưởng thành. Nếu những con số hãng công bố được xác nhận trong môi trường sản xuất, Galaxy Blackhole có thể trở thành một lựa chọn đáng chú ý cho các tổ chức muốn xây dựng hạ tầng AI mà không hoàn toàn phụ thuộc vào Nvidia.

Danh mục máy quét mã vạch

Máy quét mã vạch - Quét mã Qr - Quét mã vạch sản phẩm.

DÒNG MÁY CÓ DÂY

máy quét mã vạch không dây

DÒNG MÁY KHÔNG DÂY

DÒNG MÁY KIỂM KHO PDA

DÒNG MÁY FITMOUNT