SambaNova huy động 350 triệu USD, Intel chọn đứng cùng một đối thủ mới nổi của GPU

SambaNova, công ty hạ tầng AI tập trung vào tăng tốc xử lý cho mô hình trí tuệ nhân tạo, vừa huy động thêm 350 triệu USD để mở rộng kiến trúc dataflow của mình. Dataflow là cách thiết kế chip tối ưu đường đi của dữ liệu giữa các khối tính toán, nhằm giảm thời gian dữ liệu phải di chuyển qua lại trong hệ thống. Đây là điểm khác biệt cốt lõi so với cách tiếp cận dựa trên GPU truyền thống, vốn rất mạnh về tính toán song song nhưng thường chịu chi phí lớn vì di chuyển dữ liệu. Đáng chú ý, Intel Capital góp mặt trong vòng gọi vốn này, cùng Vista Equity, Cambium Capital và nhiều quỹ đầu tư mạo hiểm khác. Động thái này cũng phần nào dập tắt tin đồn Intel muốn mua lại SambaNova, thay vào đó là chọn hợp tác chiến lược dài hạn.

Liên minh Intel – SambaNova nhắm vào AI tạo sinh và bài toán thay thế GPU

Hai bên cho biết sẽ triển khai hợp tác nhiều năm để mang đến cho khách hàng một lựa chọn khác ngoài GPU trong các hệ thống AI tạo sinh. AI tạo sinh, hay generative AI, là nhóm công nghệ có thể tạo ra văn bản, hình ảnh, mã nguồn hoặc nội dung mới từ dữ liệu đã học. Trong liên minh này, các bộ tăng tốc mới của SambaNova sẽ kết hợp với CPU Xeon của Intel. CPU, hay bộ xử lý trung tâm, thường đảm nhiệm điều phối tác vụ tổng quát, còn bộ tăng tốc AI phụ trách khối lượng tính toán chuyên biệt. Hai công ty cũng nhấn mạnh hướng co-design phần cứng – phần mềm, tức thiết kế đồng thời chip và phần mềm để tối ưu hiệu năng thực tế thay vì chỉ chạy theo thông số lý thuyết.

SN50 ra mắt cuối năm, SoftBank đã trở thành khách hàng đầu tiên

SambaNova dự kiến giao bộ tăng tốc SN50 vào cuối năm nay, với SoftBank tại Nhật Bản là một trong những khách hàng sớm nhất. SN50 là thế hệ kế nhiệm của SN40L ra mắt năm 2024 và được định vị như bước nhảy lớn về hiệu năng. Theo công ty, chip mới đạt hiệu suất cao hơn 2,5 lần ở FP16 và gấp 5 lần ở FP8. FP16 và FP8 là các định dạng số dấu phẩy động 16-bit và 8-bit, thường dùng trong AI để cân bằng giữa độ chính xác và tốc độ xử lý. Quy đổi ra năng lực tính toán, SN50 đạt khoảng 1,6 petaFLOPS ở FP16 và 3,2 petaFLOPS ở FP8, trong đó petaFLOPS là đơn vị đo hàng triệu tỷ phép tính dấu phẩy động mỗi giây.

Bộ nhớ ba tầng: lợi thế chiến lược trong AI suy luận

Một trong những điểm SambaNova tiếp tục giữ lại trên SN50 là hệ thống bộ nhớ ba tầng, cho phép chuyển đổi giữa các mô hình chỉ trong một phần nhỏ của giây và xử lý hiệu quả key-value cache. Key-value cache có thể hiểu là vùng nhớ ngắn hạn của mô hình ngôn ngữ lớn, nơi lưu lại ngữ cảnh đã xử lý để tăng tốc phản hồi ở các lượt sinh tiếp theo. Mỗi RDU, viết tắt của Reconfigurable Dataflow Unit hay bộ xử lý dataflow có thể tái cấu hình, được trang bị 432 MB SRAM trên chip, 64 GB HBM2E với băng thông 1,8 TB/s và từ 256 GB đến 2 TB DDR5. SRAM là bộ nhớ tốc độ rất cao nằm sát khối tính toán; HBM2E là bộ nhớ băng thông cao xếp chồng nhiều lớp, còn DDR5 là bộ nhớ hệ thống dung lượng lớn hơn nhưng rẻ hơn. Chính khả năng linh hoạt ở lớp DDR5 được xem là lợi thế khi giá bộ nhớ AI đang leo thang.

Vì sao SambaNova vẫn dùng HBM2E thay vì công nghệ bộ nhớ mới hơn?

Trên giấy tờ, việc chọn HBM2E có thể khiến nhiều người ngạc nhiên vì đây không phải chuẩn bộ nhớ mới nhất. Tuy nhiên, SambaNova cho rằng quyết định này mang tính thực dụng. Trong bối cảnh chuỗi cung ứng bộ nhớ AI ngày càng căng thẳng và giá tăng mạnh, dùng HBM2E giúp công ty tránh cuộc đua tranh nguồn cung với các ông lớn khác. Nói cách khác, SambaNova chấp nhận một phần giới hạn về thông số để đổi lấy khả năng giao hàng ổn định và chi phí kiểm soát tốt hơn. Với các nhà cung cấp hạ tầng AI, đây là yếu tố không kém phần quan trọng so với hiệu năng đỉnh.

Thông số chưa áp đảo Nvidia, nhưng SambaNova đặt cược vào hiệu năng thực tế

Nếu chỉ nhìn bảng thông số, SN50 không hẳn gây choáng ngợp trước GPU hiện đại. SambaNova thừa nhận chip mới chỉ đạt khoảng 64% năng lực tính toán FP8 dạng dense so với Blackwell của Nvidia, cùng dung lượng HBM và băng thông bộ nhớ thấp hơn đáng kể. Dense ở đây chỉ kiểu tính toán đầy đủ, không bỏ qua phần tử nào để tối ưu. Tuy nhiên, công ty lập luận rằng FLOPS cực đại và băng thông tối đa được quảng bá không đồng nghĩa với hiệu năng đạt được trong vận hành thật. Theo SambaNova, kiến trúc dataflow giúp chồng lấp giữa tính toán và truyền dữ liệu, từ đó giảm overhead, tức phần chi phí tài nguyên bị tiêu tốn cho việc điều phối thay vì xử lý tác vụ chính. Nhờ vậy, hệ thống có thể cần ít bộ tăng tốc hơn mà vẫn đạt tốc độ cao.

Thách thức trực diện Nvidia B200 ở mảng suy luận

SambaNova tuyên bố SN50 có thể mang lại tốc độ sinh nội dung trên mỗi người dùng cao hơn tới 5 lần so với Nvidia B200 trong một số kịch bản. Đây là tuyên bố đáng chú ý vì B200 là một trong những GPU AI chủ lực của Nvidia cho trung tâm dữ liệu. Trọng tâm ở đây là AI inference, hay suy luận AI, giai đoạn mô hình đã được huấn luyện xong và bắt đầu phục vụ người dùng thực tế bằng cách tạo câu trả lời hoặc dự đoán. Khác với training là huấn luyện mô hình trên lượng dữ liệu khổng lồ, inference đòi hỏi cân bằng rất kỹ giữa tốc độ, chi phí và khả năng phục vụ đồng thời nhiều yêu cầu. Chính vì vậy, đây đang là mặt trận mà nhiều công ty tin rằng Nvidia chưa thể nắm chắc phần thắng tuyệt đối.

SN40L từng vượt nhiều nền tảng GPU trong các bài đo thực tế

Những tuyên bố của SambaNova không hoàn toàn thiếu cơ sở. Theo dữ liệu từ Artificial Analysis, bộ tăng tốc SN40L của hãng đã từng phục vụ các mô hình ngôn ngữ lớn, hay LLM – Large Language Model, như MiniMax M2 230 tỷ tham số ở tốc độ lên tới 378 token mỗi giây. Token là đơn vị văn bản nhỏ mà mô hình xử lý và sinh ra, có thể là một từ, một phần từ hoặc ký tự tùy hệ thống mã hóa. Mức này cao hơn hơn 100 token mỗi giây so với nhà cung cấp suy luận dựa trên GPU gần nhất trong bài so sánh được nhắc tới. Dù vậy, hiệu năng của SambaNova vẫn thay đổi tùy mô hình, nên hãng chưa thể xem là dẫn đầu tuyệt đối trong mọi tình huống.

Nvidia vẫn tăng tốc, còn SambaNova mở rộng quy mô theo cách khác

Thị trường cũng không đứng yên chờ SambaNova. Các nền tảng suy luận dựa trên GPU đang cải thiện nhanh khi rack NVL72 của Nvidia được triển khai rộng hơn. Rack có thể hiểu là cụm máy chủ tiêu chuẩn trong trung tâm dữ liệu, nơi nhiều chip, bộ nhớ và thiết bị mạng được đóng gói chung để vận hành ở mật độ cao. Trong khi đó, SambaNova cho biết một worker suy luận đơn lẻ trên SN50 có thể mở rộng tới 256 bộ tăng tốc, cao hơn hơn 3,5 lần số chip trong một rack NVL72. Tuy nhiên, mật độ đóng gói của SambaNova thấp hơn đáng kể: mỗi rack chỉ có 16 RDU làm mát bằng không khí và tiêu thụ khoảng 15 đến 30 kW. Để hỗ trợ mở rộng, mỗi RDU được trang bị băng thông chip-to-chip hai chiều 2,2 TB/s thông qua switched fabric, tức mạng liên kết chuyển mạch chuyên dụng cho phép nhiều chip trao đổi dữ liệu tốc độ cao.

Lợi nhuận cho nhà cung cấp dịch vụ mới là bài toán SambaNova muốn giải

Ngoài tốc độ suy luận, SambaNova nhấn mạnh đến hiệu quả khai thác hạ tầng. Nhờ dung lượng DDR5 lớn trên mỗi bộ tăng tốc, hệ thống có thể chuyển mô hình khách hàng và key-value cache ra vào bộ nhớ chỉ trong vài mili giây. Điều này đặc biệt quan trọng khi thị trường chuyển sang các AI agent, tức tác nhân AI có khả năng tự động thực hiện nhiều bước công việc thay người dùng. Khi mỗi khách hàng muốn một mô hình tùy biến riêng, mức sử dụng tài nguyên của rack dễ giảm mạnh vì không còn một mô hình chung để dồn tải. Theo lãnh đạo SambaNova, phần lớn năm 2025 công ty tập trung cải thiện kinh tế trên mỗi rack để các nhà cung cấp dịch vụ thực sự có thể kiếm lời từ việc phục vụ token. Sau khi đạt được mục tiêu đó, hướng đi tiếp theo của hãng là bán hạ tầng AI thay vì xây một đám mây suy luận riêng như một số đối thủ.

Intel cần một cú trở lại, và SambaNova có thể là quân bài chiến lược

Với Intel, khoản đầu tư này mang nhiều ý nghĩa hơn một thương vụ tài chính. Sau nhiều bước đi chệch nhịp ở mảng GPU trung tâm dữ liệu và dòng Gaudi, Intel đang bị xem là hụt hơi trong làn sóng AI tạo sinh. Hợp tác với SambaNova cho phép hãng tiếp tục hiện diện trong hệ sinh thái AI từ biên đến đám mây mà không phải tự mình thắng ngay cuộc chiến chip tăng tốc. Nếu liên minh này thành công, Intel có thể tận dụng thế mạnh CPU Xeon, mạng lưới khách hàng doanh nghiệp và năng lực tích hợp hệ thống để chen chân trở lại thị trường AI. Còn với SambaNova, sự hậu thuẫn của Intel mang lại vốn, khách hàng và độ tin cậy cần thiết để biến RDU thành một lựa chọn nghiêm túc trước thế thống trị của GPU.

Danh mục máy quét mã vạch

Máy quét mã vạch - Quét mã Qr - Quét mã vạch sản phẩm.

DÒNG MÁY CÓ DÂY

máy quét mã vạch không dây

DÒNG MÁY KHÔNG DÂY

DÒNG MÁY KIỂM KHO PDA

DÒNG MÁY FITMOUNT