Startup mới muốn thay đổi cách chip AI xử lý phép nhân

Tensordyne, một startup hạ tầng AI, vừa hoàn tất thiết kế thương mại đầu tiên của bộ gia tốc mang tên Napier và đã đưa chip này vào giai đoạn sản xuất trên tiến trình 3nm của TSMC. “Tape-out” là cột mốc khi thiết kế chip được chốt để gửi sang nhà máy chế tạo, còn tiến trình 3nm là công nghệ sản xuất bán dẫn rất tiên tiến giúp tăng mật độ bóng bán dẫn và cải thiện hiệu suất điện năng. Công ty cho biết họ hợp tác với Juniper Networks và Broadcom để phát triển hệ thống có thể đạt thông lượng cao hơn và tiêu thụ điện thấp hơn GPU truyền thống, đặc biệt trong các tác vụ AI nặng về nhân ma trận.

Bí quyết nằm ở logarit: biến phép nhân đắt đỏ thành phép cộng rẻ hơn

Điểm khác thường nhất trong kiến trúc của Tensordyne là cách xử lý toán học. Trong phần cứng thông thường, phép cộng rẻ hơn nhiều so với phép nhân về mặt tài nguyên tính toán. Tensordyne tận dụng tính chất của logarit, trong đó phép nhân a*b có thể được chuyển thành log(a) + log(b). Nói đơn giản, chip cố gắng thay thế một phần lớn công việc nhân số bằng cộng số trong miền logarit. Đây là ý tưởng không mới trong toán học, nhưng rất khó triển khai hiệu quả trong phần cứng hiện đại vì hệ thống phải liên tục chuyển đổi giá trị sang logarit rồi chuyển ngược lại để cho ra kết quả đúng.

Không dùng LUT cồng kềnh, Tensordyne chọn xấp xỉ Mitchell và sửa sai bằng phần cứng

Một cách phổ biến để tăng tốc các phép chuyển đổi toán học là dùng LUT, viết tắt của lookup table, tức bảng tra cứu chứa sẵn kết quả để truy xuất nhanh. Tuy nhiên, Tensordyne cho rằng LUT đủ lớn cho bài toán này sẽ quá tốn diện tích chip. Thay vào đó, công ty sử dụng “Mitchell approximation” – một phương pháp xấp xỉ logarit và phản logarit bằng heuristic, tức kỹ thuật ước lượng gần đúng để giảm độ phức tạp tính toán. Vì xấp xỉ luôn tạo ra sai số, Tensordyne nói họ đã bổ sung cơ chế hiệu chỉnh theo từng vùng ngay trong phần cứng để đưa độ chính xác lên mức tương đương FP16. FP16 là định dạng số thực dấu phẩy động 16-bit, thường được dùng trong AI vì cân bằng giữa tốc độ và độ chính xác. Napier cũng hỗ trợ FP8 và block floating 4-bit, là các định dạng số có độ chính xác thấp hơn nhưng tiết kiệm băng thông và điện năng hơn cho suy luận AI.

Napier nhắm vào hiệu quả điện năng hơn là chỉ chạy đua FLOPS

Theo Tensordyne, kết quả của cách tiếp cận này là một con chip mà khối MAC, viết tắt của multiply-accumulate, có thể thực hiện công việc cốt lõi của AI mà không phụ thuộc hoàn toàn vào phép nhân theo nghĩa truyền thống. MAC là đơn vị tính toán nền tảng trong mạng nơ-ron, nơi hàng tỷ phép nhân và cộng diễn ra liên tục. Công ty tuyên bố hệ thống rack của họ có thể tạo ra số token trên mỗi watt cao hơn tới 17 lần và thông lượng cao hơn 13 lần so với hệ Blackwell của Nvidia. “Token” là đơn vị văn bản mà mô hình AI tạo ra hoặc xử lý, còn “tokens per watt” là thước đo hiệu quả năng lượng rất quan trọng trong các trung tâm dữ liệu AI.

Thông số Napier: nhỏ hơn tham vọng, nhưng hiệu quả điện đáng chú ý

Về mặt phần cứng, Napier có mức TDP danh định 300W. TDP, hay thermal design power, là lượng nhiệt và điện năng mà hệ thống tản nhiệt cần xử lý khi chip hoạt động ở mức tải thiết kế. Chip được trang bị 144GB bộ nhớ HBM3e trên bốn stack, cung cấp băng thông bộ nhớ 4,7TB/s và hiệu năng tối đa 2,1 petaFLOPS ở FP8 dạng dense. HBM3e là bộ nhớ băng thông cao thế hệ mới, được xếp chồng theo chiều dọc để đặt gần chip xử lý, từ đó tăng tốc độ truyền dữ liệu đáng kể. PetaFLOPS là đơn vị đo hiệu năng tính toán, tương đương một triệu tỷ phép toán dấu phẩy động mỗi giây. Trên giấy tờ, Napier được mô tả là gần với Nvidia H200 công bố năm 2023, nhưng dùng ít điện hơn khoảng 60%. Dù vậy, hiệu năng đỉnh FLOPS thường không phản ánh đầy đủ hiệu năng thực tế khi chạy mô hình AI ngoài đời.

Chiến lược thật sự là mở rộng quy mô theo rack

Tensordyne không chỉ bán một con chip, mà nhấn mạnh vào khả năng mở rộng toàn hệ thống. Mỗi Napier có khoảng 1TB/s băng thông kết nối liên chip, cho phép ghép tối đa 72 bộ gia tốc trong một cụm. Đây là xu hướng “rack-scale”, tức thiết kế cả rack máy chủ như một cỗ máy AI thống nhất thay vì xem từng card tăng tốc là một thực thể riêng lẻ. Mục tiêu của rack-scale là dùng mạng kết nối tốc độ cao để nhiều chip nhỏ phối hợp như một bộ gia tốc khổng lồ.

TDN72: hệ 72 chip Napier, làm mát bằng không khí, nhắm vào trung tâm dữ liệu cũ

Hệ thống đầu tiên của công ty có tên mã TDN72, gồm tám blade tính toán làm mát bằng không khí. Mỗi blade dùng một CPU chủ Intel Xeon-D 10 lõi và chín bộ gia tốc Napier. “Blade” là mô-đun máy chủ mỏng được cắm vào khung chung để tối ưu mật độ triển khai. Các chip được nối với nhau qua một fabric tốc độ cao theo cấu trúc all-to-all, nghĩa là mỗi chip có thể giao tiếp trực tiếp hoặc gần như trực tiếp với mọi chip khác trong cụm. Fabric ở đây là lớp mạng kết nối chuyên dụng bên trong hệ thống, khác với mạng Ethernet thông thường vì được tối ưu cho độ trễ thấp và băng thông cực lớn. Sáu switch blade độc quyền do Juniper phát triển được đặt ở phía sau hệ thống để điều phối lưu lượng giữa các bộ gia tốc.

Lợi thế triển khai: không cần làm mát chất lỏng như nhiều rack AI cao cấp

Dù có vài điểm tương đồng với rack NVL72 của Nvidia, TDN72 được mô tả là nhỏ hơn và không cần làm mát bằng chất lỏng. Đây có thể là lợi thế lớn với các “brownfield datacenter” – tức những trung tâm dữ liệu hiện hữu, hạ tầng cũ, khó nâng cấp sâu để đáp ứng các hệ AI công suất rất lớn. Theo Tensordyne, có thể đặt tối đa bốn hệ TDN72, mỗi hệ 30kW, trong một rack 52U. “U” là đơn vị chiều cao tiêu chuẩn của thiết bị rack. Cấu hình này tương đương 608 petaFLOPS FP8 trong mức công suất 120kW, và theo công ty là cho mật độ tính toán FP8 trên mỗi rack cao hơn khoảng 1,68 lần so với Nvidia GB200 NVL72. Tuy nhiên, so sánh này vẫn cần thận trọng vì Nvidia còn có lợi thế ở NVFP4, một định dạng số cực thấp được tối ưu riêng cho AI, trong khi Napier hiện chỉ giới hạn ở trọng số FP4.

Phần mềm mới là bài kiểm tra sống còn

Tensordyne hiểu rằng phần cứng tốt chưa đủ nếu phần mềm khó dùng. Những nguyên mẫu silicon đầu tiên của hãng trước đây chưa có cơ chế sửa lỗi như trên Napier, buộc người dùng phải áp dụng “quantization-aware training” – tức huấn luyện mô hình với nhận thức về lượng tử hóa để thích nghi với phần cứng độ chính xác thấp. Cách này đặc biệt bất tiện với các mô hình hàng nghìn tỷ tham số. Nay công ty nói trình biên dịch phần cứng của họ đã có thể chuyển đổi các mô hình hiện có để chạy trực tiếp trên thế hệ chip mới, tương tự cách một số startup như Tenstorrent đang làm. Trong suy luận AI, hay inference, Tensordyne cũng phát triển nền tảng serving riêng và môi trường runtime cho phép khách hàng dùng các máy chủ suy luận quen thuộc như vLLM. PyTorch, framework AI mã nguồn mở rất phổ biến, hiện vẫn đang được phát triển hỗ trợ.

Tuyên bố táo bạo trước khi sản phẩm lên kệ

Ngay cả khi chip chưa chính thức xuất xưởng, Tensordyne đã đưa ra những dự báo khá mạnh tay. Công ty kỳ vọng hệ thống có thể đạt hơn 1.000 token mỗi giây mà không cần dựa vào “speculative decoding” hay “multi-token prediction”. Đây là các kỹ thuật tăng tốc sinh văn bản bằng cách dự đoán trước nhiều token hoặc dùng mô hình phụ để rút ngắn thời gian phản hồi. Nếu đạt được hiệu năng như tuyên bố mà vẫn giữ mức điện năng thấp, Tensordyne có thể tạo ra sức hút đáng kể với các nhà cung cấp “neocloud” như Cirrascale và BlueSky Compute, tức những công ty cloud thế hệ mới chuyên tập trung vào hạ tầng AI thay vì dịch vụ đám mây đa mục đích.

Cơ hội có thật, nhưng Nvidia vẫn là bức tường rất cao

Napier dự kiến ra mắt vào quý II hoặc quý III năm 2027, thời điểm mà thị trường có thể đã chứng kiến các hệ Vera Rubin và Vera Rubin Ultra thế hệ mới của Nvidia. Điều đó đồng nghĩa Tensordyne không chỉ phải chứng minh lợi thế phần cứng, mà còn phải giải quyết bài toán tương thích phần mềm, hệ sinh thái công cụ và niềm tin từ khách hàng doanh nghiệp. Trong ngành chip AI, nhiều đối thủ từng có thông số ấn tượng nhưng hụt hơi vì phần mềm chưa đủ trưởng thành. Với Tensordyne, canh bạc logarit rõ ràng rất khác biệt – và cũng vì thế, đây có thể là một trong những thử nghiệm phần cứng AI đáng chú ý nhất trong vài năm tới.

Danh mục máy quét mã vạch

Máy quét mã vạch - Quét mã Qr - Quét mã vạch sản phẩm.

DÒNG MÁY CÓ DÂY

máy quét mã vạch không dây

DÒNG MÁY KHÔNG DÂY

DÒNG MÁY KIỂM KHO PDA

DÒNG MÁY FITMOUNT