Trung tâm dữ liệu AI đang vận hành như những “nhà máy token”

Trong làn sóng AI tạo sinh hiện nay, các trung tâm dữ liệu ngày càng được ví như nhà máy: điện năng đi vào, token đi ra. “Token” ở đây là các đơn vị văn bản nhỏ mà mô hình ngôn ngữ lớn, hay LLM (Large Language Model – mô hình AI được huấn luyện trên lượng dữ liệu khổng lồ để tạo và hiểu ngôn ngữ), sinh ra khi trả lời người dùng. Về mặt kinh tế, bài toán nghe có vẻ đơn giản: tạo được càng nhiều token với cùng một lượng điện thì càng tốt. Nếu doanh thu từ token đủ bù chi phí phần cứng, điện, vận hành và mặt bằng, phần còn lại sẽ là lợi nhuận. Nhưng thực tế triển khai suy luận AI, tức inference – giai đoạn mô hình đã huấn luyện xong và đang phục vụ truy vấn thực tế – phức tạp hơn nhiều so với công thức “thêm GPU là xong”.

Không phải mọi token đều có giá trị giống nhau

Một hệ thống có thể được cấu hình để đẩy thông lượng token lên cực cao, nhưng điều đó chưa chắc mang lại trải nghiệm tốt cho người dùng. Trong AI hạ tầng, các nhà cung cấp không chỉ nhìn vào TPS/$/W, tức số token mỗi giây trên mỗi đô la và mỗi watt điện, mà còn phải theo dõi “goodput” – khái niệm chỉ hiệu năng hữu ích thực sự theo mục tiêu dịch vụ. Với LLM, goodput thường gắn với các chỉ số như thời gian đến token đầu tiên chỉ trong vài trăm mili giây, hoặc tốc độ sinh token trên mỗi người dùng đạt một ngưỡng nhất định. Nói cách khác, token rẻ nhưng chậm như xe buýt đông khách thì phù hợp một số bài toán; còn token phản hồi nhanh, độ trễ thấp lại giống dịch vụ cao cấp và phải có giá cao hơn.

Đường cong Pareto cho thấy điểm cân bằng giữa tốc độ, chi phí và tương tác

Các phép đo như InferenceX đang giúp ngành nhìn rõ hơn bài toán này. Đây là bộ benchmark tổng hợp dùng để so sánh hiệu quả suy luận AI giữa các cấu hình phần cứng và phần mềm khác nhau. Dữ liệu cho thấy hiệu năng thường nằm trên một đường cong Pareto – cách biểu diễn những lựa chọn đánh đổi, nơi cải thiện một yếu tố như độ tương tác người dùng có thể làm giảm thông lượng tổng. Ở một đầu là token số lượng lớn, chi phí thấp nhưng phản hồi chậm; ở đầu kia là token độ trễ thấp, đắt đỏ hơn; ở giữa là “vùng Goldilocks”, tức điểm cân bằng vừa đủ nhanh cho người dùng nhưng vẫn đủ rẻ để có lãi. Đây đang là đích ngắm của nhiều nhà cung cấp dịch vụ suy luận.

Phần mềm giờ quan trọng không kém phần cứng

Nếu trước đây cuộc đua AI chủ yếu xoay quanh chip, thì nay phần mềm đang quyết định ai khai thác được nhiều giá trị hơn từ cùng một cụm máy. Các framework phục vụ suy luận như vLLM, SGLang hay TensorRT LLM không cho kết quả giống nhau trên mọi mô hình. “Framework” có thể hiểu là bộ công cụ phần mềm giúp triển khai và tối ưu cách mô hình AI chạy trong thực tế. Một mô hình có thể chạy rất tốt trên vLLM nhưng lại thua khi so với TensorRT LLM trên phần cứng Nvidia, hoặc ngược lại. Đây cũng là lý do Nvidia đẩy mạnh NIMs, tức các vi dịch vụ suy luận đóng gói sẵn, nhằm giảm công sức tinh chỉnh cho khách hàng và đồng thời gắn chặt phần mềm với phần cứng của hãng. Trong khi đó, các hyperscaler – những nhà vận hành đám mây siêu quy mô như AWS, Google hay Microsoft – vẫn chuộng giải pháp mã nguồn mở vì họ có thể tùy biến sâu cho khối lượng công việc riêng.

Suy luận phân tách đang mở ra bước nhảy hiệu suất mới

Một trong những cải tiến lớn nhất gần đây là disaggregated compute, hay tính toán phân tách. Thay vì để mọi GPU làm cùng một loại việc, hệ thống tách khối lượng công việc thành nhiều phần rồi giao cho các nhóm GPU khác nhau. Trong suy luận LLM, giai đoạn prefill – xử lý prompt ban đầu, thường rất nặng về tính toán – có thể chạy trên một nhóm GPU, còn giai đoạn decode – sinh từng token tiếp theo, thường bị giới hạn bởi băng thông bộ nhớ – chạy trên nhóm khác. Các nền tảng như Nvidia Dynamo hay AMD MoRI theo đuổi hướng này. Tỷ lệ GPU dành cho prefill và decode sẽ thay đổi theo từng mô hình và mục tiêu dịch vụ: ứng dụng cần phục vụ nhiều người cùng lúc sẽ tối ưu khác với trợ lý lập trình, nơi độ trễ thấp là yếu tố sống còn. Khi kết hợp với multi-token prediction, một kỹ thuật dự đoán nhiều token cùng lúc thuộc nhóm speculative decoding, tức “giải mã suy đoán” để tăng tốc sinh văn bản, hiệu quả hệ thống có thể cải thiện rõ rệt.

Kiến trúc MoE đang thúc đẩy kỷ nguyên rack-scale

Sự trỗi dậy của MoE, viết tắt của mixture of experts – kiến trúc mô hình chỉ kích hoạt một phần các “chuyên gia” bên trong thay vì toàn bộ mạng nơ-ron cho mỗi truy vấn – đang thay đổi cách xây dựng hạ tầng AI. Vì các expert phải trao đổi dữ liệu liên tục, nhu cầu kết nối tốc độ cực cao giữa nhiều bộ gia tốc ngày càng lớn. Điều đó thúc đẩy các hệ thống rack-scale, tức kiến trúc quy mô cả tủ máy với hàng chục GPU hoặc XPU được nối bằng liên kết tốc độ cao. Nvidia hiện có NVL72, AMD chuẩn bị Helios, còn AWS theo đuổi Trainium3. Lợi thế của rack-scale là duy trì mức tương tác cao hơn mà không phải hy sinh quá nhiều thông lượng. Tuy nhiên, để tận dụng hết lợi ích, nhà vận hành phải giải bài toán song song hóa rất phức tạp, bao gồm expert parallelism, pipeline parallelism, data parallelism và tensor parallelism – các cách chia mô hình, dữ liệu và phép toán ra nhiều chip để cùng xử lý.

Hệ thống 8 GPU vẫn chưa biến mất

Dù rack-scale đang được xem là tương lai, các máy chủ AI nhỏ hơn với 8 GPU vẫn có chỗ đứng rõ ràng. Trong nhiều kịch bản cần độ tương tác rất cao, những hệ thống này vẫn đạt khoảng 85% hiệu năng của cấu hình rack-scale nhưng có chi phí đầu tư thấp hơn đáng kể và dễ triển khai hơn trong các trung tâm dữ liệu làm mát bằng không khí truyền thống. Điều đó giải thích vì sao cả AMD lẫn Nvidia vẫn tiếp tục phục vụ phân khúc này, thay vì dồn toàn lực cho các siêu rack. Với các nhà cung cấp neocloud – nhóm công ty đám mây mới nổi tập trung vào hạ tầng GPU cho AI – quyết định chọn rack-scale hay máy 8 GPU sẽ phụ thuộc mạnh vào loại ứng dụng mà họ muốn bán: khối lượng lớn, giá rẻ hay phản hồi nhanh, giá cao.

Cuộc đua phần mềm thay đổi theo từng tuần, thậm chí từng ngày

Một điểm đáng chú ý là chênh lệch hiệu năng giữa các hãng không còn cố định. Cùng một con chip, kết quả suy luận có thể cải thiện mạnh chỉ sau vài tuần cập nhật phần mềm. Trường hợp AMD MI355X là ví dụ điển hình: trên lý thuyết, con chip này cạnh tranh trực tiếp với Nvidia B200 và B300, nhưng ban đầu bị bỏ xa trong framework SGLang. Chỉ chưa đầy một tháng sau, AMD đã thu hẹp đáng kể khoảng cách, thậm chí vượt lên trong một số cấu hình FP8. FP8 là định dạng số thực 8-bit, một kiểu biểu diễn dữ liệu giúp giảm dung lượng bộ nhớ và tăng tốc tính toán so với định dạng chính xác cao hơn như BF16. Điều này cho thấy các nhà cung cấp suy luận nếu không cập nhật ngăn xếp phần mềm thường xuyên có thể đang bỏ lại rất nhiều hiệu năng trên bàn.

FP4 và lượng tử hóa mở thêm đòn bẩy tối ưu chi phí

Ngoài phần cứng và phần mềm, độ chính xác số học cũng là một đòn bẩy ngày càng quan trọng. Các GPU mới từ Nvidia và AMD đã hỗ trợ tăng tốc FP4, tức số thực 4-bit, nhưng hệ sinh thái mô hình ở mức này chỉ mới bắt đầu hình thành. Về nguyên tắc, dùng độ chính xác thấp hơn giúp mô hình cần ít bộ nhớ, ít băng thông và ít năng lực tính toán hơn, từ đó giảm chi phí suy luận. Tuy nhiên, lượng tử hóa – quá trình nén trọng số mô hình xuống ít bit hơn – thường bị chỉ trích vì có thể làm giảm chất lượng đầu ra nếu làm quá tay. Điểm mới là các định dạng FP4 hiện đại như MXFP4 hay NVFP4 không chỉ đơn giản cắt bớt bit, mà còn dùng hệ số tỷ lệ trên từng khối trọng số để giữ được độ chính xác tốt hơn. Nhờ đó, chất lượng đầu ra có thể tiệm cận FP8, thậm chí gần BF16 trong một số trường hợp, trong khi thông lượng tăng lên đáng kể nếu có kernel tối ưu. “Kernel” ở đây là đoạn mã tính toán lõi được tinh chỉnh sát phần cứng để chạy nhanh nhất có thể.

Token đang trở thành hàng hóa, và biên lợi nhuận ngày càng mỏng

Với các mô hình open-weight – mô hình công khai trọng số để doanh nghiệp có thể tự triển khai hoặc tùy biến – token ngày càng mang tính hàng hóa. Khi đó, thị trường trở thành cuộc đua giảm giá: ai cung cấp token chất lượng hơn, nhanh hơn hoặc rẻ hơn sẽ thắng. Một số công ty chọn khác biệt bằng độ trễ cực thấp, như Cerebras với kiến trúc phần cứng riêng phục vụ các ứng dụng cần phản hồi tức thì. Số khác như Fireworks tập trung vào công cụ tinh chỉnh mô hình cho từng nhu cầu doanh nghiệp. Fine-tuning, hay tinh chỉnh có giám sát, là cách huấn luyện bổ sung để mô hình hiểu sâu hơn dữ liệu và nghiệp vụ riêng của khách hàng. Nhưng ngay cả mảng này cũng đang dần bị phổ thông hóa khi các nhà cung cấp đám mây lớn đều tung ra dịch vụ tương tự. Điều đó buộc các công ty inference-as-a-service, tức dịch vụ suy luận AI theo mô hình thuê bao, phải liên tục tối ưu toàn bộ ngăn xếp công nghệ và xác định rõ họ khác biệt ở đâu.

Bức tranh lớn: AI hạ tầng đang bước vào giai đoạn tối ưu hóa cực đoan

Thông điệp lớn nhất từ thị trường hiện nay là kinh tế token không còn là câu chuyện mua thật nhiều GPU. Thành công phụ thuộc vào sự kết hợp giữa chip, phần mềm, kiến trúc hệ thống, độ chính xác số học và cách phân bổ tài nguyên cho từng loại tác vụ. Trong thế giới đó, mỗi watt điện, mỗi mili giây độ trễ và mỗi quyết định phần mềm đều có thể ảnh hưởng trực tiếp đến doanh thu. Khi chất lượng giữa mô hình đóng và mô hình mở dần thu hẹp, lợi thế cạnh tranh sẽ ngày càng nghiêng về những ai biết tối ưu “nhà máy token” của mình tốt hơn đối thủ.

Danh mục máy quét mã vạch

Máy quét mã vạch - Quét mã Qr - Quét mã vạch sản phẩm.

DÒNG MÁY CÓ DÂY

máy quét mã vạch không dây

DÒNG MÁY KHÔNG DÂY

DÒNG MÁY KIỂM KHO PDA

DÒNG MÁY FITMOUNT