“Hộp thần” bộ nhớ CXL có thể cứu trung tâm dữ liệu khỏi cơn khát RAM do AI gây ra

Bộ nhớ trong trung tâm dữ liệu đang bước vào kỷ nguyên “dùng chung”

Trong các trung tâm dữ liệu hiện đại, lưu trữ đã từ lâu không còn bị bó buộc trong từng máy chủ riêng lẻ: dữ liệu có thể nằm trên ổ cục bộ, trên hệ thống mạng hoặc trong các cụm chia sẻ. Giờ đây, bộ nhớ hệ thống cũng đang đi theo con đường tương tự. Thế hệ máy chủ sắp tới nhiều khả năng vẫn giữ một phần RAM DDR5 gắn trực tiếp trên máy, nhưng phần dung lượng lớn hơn có thể được truy cập từ các thiết bị bộ nhớ dùng chung qua mạng tốc độ cao, thứ mà một số người trong ngành gọi ví von là “memory godbox” – tạm hiểu là một “hộp bộ nhớ khổng lồ” cấp phát RAM cho nhiều máy cùng lúc.

Cơn khủng hoảng DRAM và vì sao CXL bất ngờ thành ngôi sao

Sự bùng nổ AI đang đẩy nhu cầu DRAM – loại bộ nhớ truy cập ngẫu nhiên động dùng làm RAM chính trong máy chủ – lên mức rất cao. Khi nguồn cung bị siết và giá tăng mạnh, các doanh nghiệp bắt đầu nghiêm túc nhìn vào mô hình “pooling” bộ nhớ, tức gom RAM từ nhiều mô-đun thành một hồ tài nguyên chung rồi phân bổ linh hoạt cho từng máy chủ khi cần. Đây chính là thời điểm Compute Express Link, hay CXL, có cơ hội tỏa sáng. CXL là chuẩn kết nối tốc độ cao, đồng bộ bộ nhớ đệm, cho phép CPU, bộ nhớ, bộ tăng tốc như GPU và các thiết bị ngoại vi giao tiếp với nhau theo cách nhất quán hơn so với các kết nối truyền thống.

CXL hoạt động ra sao và vì sao giới hạ tầng quan tâm

CXL được xây dựng dựa trên PCIe – chuẩn giao tiếp phần cứng quen thuộc trong máy chủ – nên về lý thuyết có tính tương thích rộng. Công nghệ này có nhiều lớp chức năng như CXL.mem, CXL.cache và CXL.io. Nói đơn giản, chúng giúp hệ thống không chỉ kết nối thiết bị mà còn chia sẻ bộ nhớ và duy trì tính nhất quán dữ liệu giữa các thành phần. Điều này mở đường cho “disaggregated compute”, tức hạ tầng tính toán tách rời: một rack có thể gồm node CPU, node GPU, node bộ nhớ và node lưu trữ độc lập, nhưng vẫn phối hợp như một hệ thống thống nhất. Với doanh nghiệp, đây là cách hứa hẹn để dùng tài nguyên hiệu quả hơn thay vì phải mua dư RAM cho từng máy.

Từ mở rộng RAM đến chia sẻ RAM giữa nhiều máy

Phiên bản CXL 1.0 trước hết cho phép tạo các mô-đun mở rộng bộ nhớ, cắm vào khe PCIe tương thích CXL để tăng thêm RAM cho máy chủ. Với Linux, phần bộ nhớ này gần như hiện ra minh bạch với hệ điều hành, giống như bộ nhớ gắn ở một socket CPU khác. Đến CXL 2.0, chuẩn này bổ sung khả năng switching – tức dùng switch chuyên dụng để kết nối và điều phối tài nguyên – giúp bộ nhớ được gom lại thành một pool rồi cấp phát cho nhiều hệ thống. Các dòng CPU máy chủ hiện nay như AMD Epyc và Intel Xeon đã hỗ trợ kiểu thiết bị này. Tuy nhiên, ở giai đoạn đó, bộ nhớ chủ yếu vẫn chỉ được chia phần cho từng máy riêng biệt, chưa thực sự cho phép nhiều máy cùng thao tác đồng thời trên cùng một vùng dữ liệu.

CXL 3.0 mới là bước ngoặt thật sự

Điểm hấp dẫn nhất nằm ở CXL 3.0, phiên bản được kỳ vọng xuất hiện rộng rãi trên thế hệ Epyc và Xeon tiếp theo, và theo một số thông tin, thậm chí đã hiện diện trên CPU Graviton5 của Amazon. CXL 3.0 mang đến hai thay đổi lớn. Thứ nhất là hỗ trợ topology lớn hơn: nhiều switch CXL có thể ghép thành một “fabric”, tức mạng liên kết tốc độ cao giữa các tài nguyên phần cứng. Thứ hai là memory sharing, hay chia sẻ bộ nhớ thật sự giữa nhiều máy. Thay vì cắt RAM thành từng lát chỉ một máy dùng tại một thời điểm, nhiều máy chủ có thể cùng truy cập một vùng bộ nhớ chung. Về mặt ý tưởng, điều này giống với deduplication cho bộ nhớ – deduplication là kỹ thuật loại bỏ dữ liệu trùng lặp để tiết kiệm tài nguyên – vốn từng quen thuộc trong môi trường ảo hóa như KVM, nhưng nay được mở rộng ra giữa các máy vật lý.

Hiệu năng: băng thông cao, nhưng độ trễ vẫn là bài toán

Một trong những lo ngại lớn nhất với bộ nhớ gắn qua mạng là tốc độ. Về băng thông, CXL 3.0 dựa trên PCIe 6.0, cung cấp 16 GB/giây băng thông hai chiều trên mỗi lane, tức mỗi làn truyền dữ liệu. Nếu một CPU có 64 lane CXL, tổng băng thông bổ sung có thể đạt 512 GB/giây – con số đủ lớn cho nhiều ứng dụng doanh nghiệp. Tuy nhiên, độ trễ, tức thời gian phản hồi khi CPU truy cập dữ liệu, vẫn cao hơn RAM gắn trực tiếp. Bộ nhớ qua CXL thường thêm độ trễ ở mức tương đương một bước nhảy NUMA. NUMA, viết tắt của Non-Uniform Memory Access, là kiến trúc trong đó thời gian truy cập bộ nhớ thay đổi tùy vị trí vật lý của bộ nhớ so với CPU. Mức trễ vòng khứ hồi được nhắc tới vào khoảng 170 đến 250 nano giây, và sẽ tăng nếu thiết bị bộ nhớ nằm xa CPU hơn trong hệ thống.

Bảo mật cũng được đưa vào cuộc chơi

Khi nhiều máy cùng chia sẻ tài nguyên bộ nhớ, câu hỏi về cô lập dữ liệu và bảo mật trở nên đặc biệt quan trọng. Vì vậy, từ CXL 3.1 trở đi, liên minh phát triển chuẩn này đã bổ sung các tính năng liên quan đến confidential computing, hay điện toán bảo mật, điện toán Vision AI trên Edge Computing (mini pc, industrial pc), Đây là nhóm công nghệ giúp bảo vệ dữ liệu ngay cả khi đang được xử lý trong bộ nhớ, đồng thời tăng khả năng cô lập giữa các tác vụ hoặc tenant khác nhau. Với các doanh nghiệp chạy hạ tầng đa người dùng hoặc dịch vụ đám mây, đây là điều kiện gần như bắt buộc nếu muốn triển khai bộ nhớ chia sẻ ở quy mô lớn.

CXL 4.0 còn nhanh hơn, nhưng thị trường phải chờ

Cuối năm ngoái, đặc tả CXL 4.0 đã được phê chuẩn. Phiên bản này chuyển nền tảng sang PCIe 7.0 và tăng gấp đôi băng thông lên 32 GB/giây mỗi lane. Dù vậy, từ tiêu chuẩn đến sản phẩm thương mại luôn có độ trễ nhiều năm. Điều đó có nghĩa là trong ngắn hạn, thị trường thực tế vẫn sẽ xoay quanh các thiết bị CXL 2.0 và 3.x, trước khi thế hệ 4.0 xuất hiện trong các hệ thống sản xuất đại trà.

Những “hộp bộ nhớ” đầu tiên đã bắt đầu lộ diện

Nhiều công ty đã phát triển phần cứng theo hướng bộ nhớ mạng hóa này. Panmnesia là một trong những cái tên nổi bật với PanSwitch tương thích CXL 3.2, một switch có tới 256 lane kết nối cho mô-đun bộ nhớ CXL, thiết bị hoặc CPU để kết nối, gom và chia sẻ tài nguyên. Nếu doanh nghiệp chỉ cần pooling bộ nhớ mà chưa cần đầy đủ tính năng chia sẻ của CXL 3.0, thị trường cũng đã có sản phẩm thương mại. Chẳng hạn, nền tảng composable memory của Liqid – “composable” nghĩa là hạ tầng có thể lắp ghép, tái cấu hình tài nguyên theo nhu cầu – có thể cung cấp tới 100 TB DDR5 cho 32 máy chủ. Trong khi đó, các hệ thống UnifabriX Max hỗ trợ CXL 1.1 hoặc 2.0 cho từ 16 hệ thống trở lên, và đang tiếp tục phát triển hỗ trợ CXL 3.2.

Nghịch lý lớn: AI vừa tạo ra vấn đề, vừa có thể nuốt luôn giải pháp

Dù bộ nhớ CXL hứa hẹn giúp doanh nghiệp giảm chi phí hạ tầng bằng cách dùng RAM linh hoạt hơn, chính những ưu điểm đó lại khiến công nghệ này trở nên hấp dẫn với AI – tác nhân đang đẩy thị trường vào “RAMpocalypse”, tức cuộc khủng hoảng thiếu RAM. Ngoài HBM, loại bộ nhớ băng thông cao gắn với GPU để tăng tốc AI, DDR5 còn được dùng để offload KV cache trong giai đoạn inference, tức lúc mô hình AI đã huấn luyện xong và đang tạo phản hồi thực tế cho người dùng. KV cache là vùng lưu trạng thái trung gian của mô hình, đặc biệt quan trọng với các mô hình ngôn ngữ lớn vì nó giúp tăng tốc quá trình sinh token tiếp theo. Trong môi trường phục vụ nhiều người dùng cùng lúc, lượng cache này có thể ngốn bộ nhớ còn nhiều hơn cả bản thân mô hình.

Vì sao bộ nhớ CXL hấp dẫn hơn cả flash trong hạ tầng AI

Một cách tiếp cận phổ biến là đẩy KV cache từ GPU hoặc RAM cục bộ sang bộ nhớ hệ thống, rồi xa hơn nữa là lưu trên flash. Nhưng flash có giới hạn về độ bền ghi, gọi là write endurance: ghi xóa quá nhiều lần sẽ khiến thiết bị xuống cấp theo thời gian. Đây là lý do các nhà cung cấp bộ nhớ CXL đang quảng bá giải pháp của họ như một lựa chọn bền bỉ hơn để giữ các trạng thái mô hình và cache AI. Nói cách khác, thay vì chỉ là công cụ cứu doanh nghiệp khỏi thiếu RAM, các “memory godbox” có thể nhanh chóng bị các cụm AI tiêu thụ mạnh nhất giành lấy trước.

Triển vọng phía trước: cứu cánh cho doanh nghiệp hay tài nguyên mới cho các cụm AI?

Xu hướng đã khá rõ ràng: khi ngày càng nhiều CPU và GPU hỗ trợ CXL 3.0 trở lên xuất hiện, số lượng thiết bị bộ nhớ dùng chung cũng sẽ tăng theo. Về mặt kỹ thuật, đây là một bước tiến lớn hướng tới hạ tầng máy chủ linh hoạt, nơi bộ nhớ trở thành tài nguyên có thể cấp phát như điện hay băng thông mạng. Nhưng về mặt thị trường, lợi ích cho doanh nghiệp có thể không đến sớm như kỳ vọng. Nếu AI tiếp tục hút sạch DRAM và biến các thiết bị CXL thành hạ tầng phục vụ suy luận quy mô lớn, “hộp thần” bộ nhớ có thể không phải là lối thoát hoàn hảo cho cơn khát RAM, mà chỉ là chiến tuyến mới trong cuộc cạnh tranh tài nguyên giữa doanh nghiệp truyền thống và các hệ thống AI.

Mini PC – Máy Tính Công Nghiệp IPC

AI PC – Máy tính AI Intel F1A | Intel Ultra 7 155H

14.500.000₫

Thêm vào giỏ hàng Details
AI PC – Máy tính AI Intel F2A | Intel Ultra 7 155H

14.500.000₫

Thêm vào giỏ hàng Details
Máy All In One cho văn phòng – PC Gaming – INTEL i5 12450H 8 lõi 12 luồng

15.500.000₫

Thêm vào giỏ hàng Details
Máy all in one giá rẻ – PC Gaming – INTEL I5 10500H 6 lõi 12 luồng

13.700.000₫

Thêm vào giỏ hàng Details
Máy tính AI – AI PC | Intel I9-12900H + Nvidia RTX3080

28.500.000₫

Thêm vào giỏ hàng Details
Máy tính AI AMD AM18 | Ryzen 7 8845HS + Radeon 780M

14.500.000₫

Thêm vào giỏ hàng Details
Máy tính AI PC M1A | Intel I9-13900H + Nvidia RTX-3080

28.500.000₫

Thêm vào giỏ hàng Details
Máy tính All In One Optori G40 Pro – PC Gaming – INTEL i5 12450H

14.500.000₫

Thêm vào giỏ hàng Details

Màn hình cảm ứng HMI – Panel PC

Danh mục máy quét mã vạch

Máy quét mã vạch - Quét mã Qr - Quét mã vạch sản phẩm.

DÒNG MÁY CÓ DÂY

“Hộp thần” bộ nhớ CXL có thể cứu trung tâm dữ liệu khỏi cơn khát RAM do AI gây ra

Bộ nhớ trong trung tâm dữ liệu đang bước vào kỷ nguyên “dùng chung”

Cơn khủng hoảng DRAM và vì sao CXL bất ngờ thành ngôi sao

CXL hoạt động ra sao và vì sao giới hạ tầng quan tâm

Từ mở rộng RAM đến chia sẻ RAM giữa nhiều máy

CXL 3.0 mới là bước ngoặt thật sự

Hiệu năng: băng thông cao, nhưng độ trễ vẫn là bài toán

Bảo mật cũng được đưa vào cuộc chơi

CXL 4.0 còn nhanh hơn, nhưng thị trường phải chờ

Những “hộp bộ nhớ” đầu tiên đã bắt đầu lộ diện

Nghịch lý lớn: AI vừa tạo ra vấn đề, vừa có thể nuốt luôn giải pháp

Vì sao bộ nhớ CXL hấp dẫn hơn cả flash trong hạ tầng AI

Triển vọng phía trước: cứu cánh cho doanh nghiệp hay tài nguyên mới cho các cụm AI?

Mini PC – Máy Tính Công Nghiệp IPC

AI PC – Máy tính AI Intel F1A | Intel Ultra 7 155H

AI PC – Máy tính AI Intel F2A | Intel Ultra 7 155H

Máy All In One cho văn phòng – PC Gaming – INTEL i5 12450H 8 lõi 12 luồng

Máy all in one giá rẻ – PC Gaming – INTEL I5 10500H 6 lõi 12 luồng

Máy tính AI – AI PC | Intel I9-12900H + Nvidia RTX3080

Máy tính AI AMD AM18 | Ryzen 7 8845HS + Radeon 780M

Máy tính AI PC M1A | Intel I9-13900H + Nvidia RTX-3080

Máy tính All In One Optori G40 Pro – PC Gaming – INTEL i5 12450H

Màn hình cảm ứng HMI – Panel PC

Giải pháp HMI Panel PC chống cháy nổ cho nhà máy sản xuất hiện đại | HazardView HV-17EX-T

Khi nào cần dùng Panel PC chống cháy nổ thay cho Panel PC công nghiệp thông thường? | HazardView HV-17EX

Màn hình cảm ứng HMI – Touch Panel PC BE-PX09 15.6 Inch

Máy tính công nghiệp – Fanless Mini PC Công Nghiệp B8000

Máy tính công nghiệp màn hình cảm ứng – Touch Panel HMI QY-P8156 15.6 Inch

So sánh máy tính công nghiệp chống cháy nổ và máy tính công nghiệp tiêu chuẩn | HazardView HV-238EX

Xu hướng ứng dụng màn hình HMI chống cháy nổ trong nhà máy thông minh | HazardView HV-19EX-R

Danh mục máy quét mã vạch

DÒNG MÁY CÓ DÂY

DÒNG MÁY KHÔNG DÂY

DÒNG MÁY KIỂM KHO PDA

DÒNG MÁY FITMOUNT

“Hộp thần” bộ nhớ CXL có thể cứu trung tâm dữ liệu khỏi cơn khát RAM do AI gây ra

Bộ nhớ trong trung tâm dữ liệu đang bước vào kỷ nguyên “dùng chung”

Cơn khủng hoảng DRAM và vì sao CXL bất ngờ thành ngôi sao

CXL hoạt động ra sao và vì sao giới hạ tầng quan tâm

Từ mở rộng RAM đến chia sẻ RAM giữa nhiều máy

CXL 3.0 mới là bước ngoặt thật sự

Hiệu năng: băng thông cao, nhưng độ trễ vẫn là bài toán

Bảo mật cũng được đưa vào cuộc chơi

CXL 4.0 còn nhanh hơn, nhưng thị trường phải chờ

Những “hộp bộ nhớ” đầu tiên đã bắt đầu lộ diện

Nghịch lý lớn: AI vừa tạo ra vấn đề, vừa có thể nuốt luôn giải pháp

Vì sao bộ nhớ CXL hấp dẫn hơn cả flash trong hạ tầng AI

Triển vọng phía trước: cứu cánh cho doanh nghiệp hay tài nguyên mới cho các cụm AI?

Mini PC – Máy Tính Công Nghiệp IPC

Màn hình cảm ứng HMI – Panel PC

Danh mục máy quét mã vạch

DÒNG MÁY CÓ DÂY

DÒNG MÁY KHÔNG DÂY

DÒNG MÁY KIỂM KHO PDA

DÒNG MÁY FITMOUNT

Related Posts