Meta biến bộ nhớ cũ thành tài nguyên mới cho hạ tầng AI

Meta vừa hé lộ một cách tiếp cận đáng chú ý để cắt giảm chi phí trung tâm dữ liệu: tháo các thanh RAM DDR4 từ máy chủ đời cũ, lắp chúng vào hệ thống mới và dùng một chip chuyên dụng tự phát triển để chia sẻ phần bộ nhớ này giữa nhiều ứng dụng. Công nghệ đó mang tên Vistara, và theo Meta, nó đã được triển khai trong môi trường thực tế với quy mô lên tới hàng triệu máy chủ. Kết quả nổi bật nhất là một số tác vụ suy luận AI có thể giảm tới 25% số lượng máy chủ cần dùng. Trong đó, “suy luận” hay inference là giai đoạn mô hình AI đã được huấn luyện xong và bắt đầu đưa ra dự đoán hoặc phản hồi cho người dùng.

Bài toán lớn: vòng đời server ngắn hơn vòng đời bộ nhớ

Theo tài liệu kỹ thuật của Meta, khoảng 40% đội máy chủ khổng lồ của hãng không thể nâng thêm dung lượng RAM, khiến nhiều hệ thống không còn đủ sức gánh các khối lượng công việc mới. Đây là vấn đề không nhỏ vì tuổi thọ sử dụng của máy chủ thường chỉ khoảng 3 đến 5 năm, trong khi bộ nhớ có thể tiếp tục hữu ích trong 7 đến 10 năm. Nói cách khác, phần cứng xử lý có thể lỗi thời trước, nhưng RAM vẫn còn giá trị. Meta muốn tận dụng khoảng chênh lệch đó thay vì loại bỏ toàn bộ linh kiện khi thay máy.

Vistara hoạt động ra sao?

Trọng tâm của giải pháp là một ASIC tùy biến mang tên Vistara. ASIC, viết tắt của Application-Specific Integrated Circuit, là loại chip được thiết kế cho một mục đích rất cụ thể thay vì phục vụ đa năng như CPU. Trong trường hợp này, chip Vistara đóng vai trò cầu nối giữa bộ nhớ DDR4 cũ và bộ xử lý hiện đại thông qua CXL. CXL, hay Compute Express Link, là chuẩn kết nối tốc độ cao cho phép CPU, bộ nhớ và thiết bị tăng tốc chia sẻ tài nguyên hiệu quả hơn qua nền tảng PCIe. Meta cho biết chip của họ kết nối qua giao tiếp PCIe Gen5 x16 tuân thủ CXL 2.0/1.1, đồng thời tích hợp hai kênh bộ nhớ DDR4 72-bit, hỗ trợ tốc độ tới 3.200 MT/s và dung lượng tối đa 256 GB mỗi chip khi dùng DIMM 64 GB. DIMM là dạng mô-đun RAM cắm trên bo mạch chủ. Bên trong ASIC còn có hai bộ xử lý RISC-V tùy chỉnh, tức kiến trúc lệnh mở đang ngày càng phổ biến nhờ tính linh hoạt và khả năng tối ưu chi phí.

Tại sao Meta không dùng giải pháp CXL bán sẵn?

Meta cho rằng các sản phẩm CXL thương mại hiện nay chưa phù hợp với mục tiêu tái sử dụng RAM cũ. Một số giải pháp đi kèm sẵn DRAM với bộ điều khiển, khiến doanh nghiệp không thể tận dụng lại DIMM đã có. Nhiều sản phẩm khác lại không hỗ trợ DDR4, trong khi đây chính là điều kiện bắt buộc nếu muốn “hồi sinh” bộ nhớ từ máy chủ thế hệ trước. Ngoài ra, Meta cũng phàn nàn về mức tiêu thụ điện cao và chi phí lớn của thiết bị bán sẵn. Đây là lý do công ty chọn tự phát triển ASIC để trộn nhiều thế hệ bộ nhớ trong cùng một hệ thống mà vẫn giữ hiệu năng ở mức chấp nhận được.

MemServer: nơi DDR5 mới và DDR4 cũ cùng tồn tại

Phần cứng Vistara được đặt trong một thiết bị mà Meta gọi là MemServer. Hệ thống này sử dụng bộ xử lý AMD Turin với 158 lõi và 316 luồng, nhắm tới các tải công việc quy mô lớn trong trung tâm dữ liệu. Mỗi MemServer kết hợp 768 GB bộ nhớ DDR5 mới với 256 GB DDR4 kết nối qua các ASIC Vistara. DDR5 là thế hệ RAM mới hơn, có băng thông cao hơn DDR4, trong khi DDR4 ở đây được tận dụng như một lớp dung lượng bổ sung. Meta lắp các card CXL Vistara vào các khe riêng ở mặt sau khung máy và phải thiết kế lại luồng gió làm mát bằng quạt công suất cao để xử lý tải nhiệt tăng thêm. Điều này cho thấy bài toán không chỉ nằm ở chip và phần mềm, mà còn ở cơ khí và nhiệt học của cả máy chủ.

Thách thức lớn nhất của CXL là độ trễ và băng thông

Dù CXL thường được nhắc đến như một bước tiến quan trọng cho hạ tầng tính toán, việc đưa công nghệ này vào sản xuất ở quy mô lớn không hề đơn giản. Khi bộ nhớ được chia sẻ hoặc tách rời khỏi máy chủ vật lý, hệ thống có thể gặp băng thông thấp hơn, độ trễ cao hơn và phát sinh thêm chi phí xử lý để quản lý nhiều lớp bộ nhớ. “Độ trễ” ở đây là khoảng thời gian hệ thống phải chờ để truy cập dữ liệu; với các ứng dụng dữ liệu lớn hoặc AI, chỉ một mức tăng nhỏ cũng có thể ảnh hưởng đáng kể đến hiệu năng. Meta nói họ đã giải quyết bài toán này bằng cách để hệ điều hành nhìn thấy phần DDR4 qua CXL như một nút NUMA riêng biệt không có CPU. NUMA, viết tắt của Non-Uniform Memory Access, là kiến trúc trong đó thời gian truy cập bộ nhớ phụ thuộc vào vị trí vật lý của bộ nhớ so với bộ xử lý. Nói đơn giản, hệ thống sẽ ưu tiên dùng bộ nhớ gần CPU trước, rồi mới mở rộng sang vùng bộ nhớ CXL khi cần.

Linux cũng phải được chỉnh sửa để theo kịp phần cứng

Ở lớp phần mềm, Meta cho biết họ đã điều chỉnh trình điều khiển CXL của Linux để Vistara hoạt động trơn tru trong môi trường sản xuất. Trình điều khiển, hay driver, là thành phần giúp hệ điều hành giao tiếp với phần cứng. Theo công ty, các đoạn mã kernel Linux mà họ dùng cho Vistara hoặc đã có sẵn trong nhánh chính thức, hoặc đang trên đường được đưa vào đó. Điều này khá quan trọng vì nó giúp giảm nguy cơ bị khóa vào một nhánh phần mềm riêng khó bảo trì về lâu dài.

Đã chạy thực tế trên nhiều loại tải công việc

Meta khẳng định Vistara không còn là thử nghiệm trong phòng lab mà đã được triển khai trên hạ tầng hyperscale, tức mô hình trung tâm dữ liệu siêu lớn có thể mở rộng tới hàng triệu máy chủ. Công nghệ này đang phục vụ nhiều nhóm ứng dụng khác nhau, từ suy luận máy học tách rời tài nguyên, hệ thống gợi ý dùng embedding table, xử lý dữ liệu lớn, cơ sở dữ liệu, bộ nhớ đệm phân tán cho tới hệ thống CI/CD. CI/CD là quy trình tích hợp và triển khai liên tục trong phát triển phần mềm, giúp mã nguồn được kiểm thử và đưa vào vận hành nhanh hơn. Embedding table là bảng biểu diễn dữ liệu dạng vector, thường được dùng trong hệ thống gợi ý để mã hóa người dùng, sản phẩm hoặc hành vi thành các con số mà mô hình AI có thể xử lý.

Lợi ích không chỉ là tiết kiệm tiền, mà còn giảm lỗi hết bộ nhớ

Với các công cụ dữ liệu lớn như Spark và Hive, nhiều tác vụ phải xử lý tập dữ liệu ở quy mô terabyte hoặc petabyte và cần hàng trăm GB RAM cho mỗi job. Nếu hệ thống rơi vào tình trạng OOM, tức Out Of Memory, tác vụ có thể thất bại giữa chừng, kéo theo việc phải khởi động lại, lãng phí tài nguyên và làm gián đoạn các pipeline phân tích hoặc máy học. Meta cho biết phần dung lượng bộ nhớ mở rộng nhờ CXL đã giúp giảm 33% mức phân mảnh tài nguyên và chi phí liên quan đến việc khởi động lại công việc sau lỗi OOM. Nói cách khác, thêm bộ nhớ không chỉ giúp chạy được việc lớn hơn mà còn giúp hệ thống ổn định hơn.

Một tín hiệu đáng chú ý cho tương lai phần cứng trung tâm dữ liệu

Điều đáng chú ý trong câu chuyện của Meta không chỉ là con số giảm tới 25% số máy chủ cho một số tải suy luận, mà còn là thông điệp rộng hơn: trong kỷ nguyên giá RAM cao và nhu cầu AI tăng chóng mặt, các hãng công nghệ lớn đang tìm mọi cách kéo dài giá trị của phần cứng cũ thay vì chỉ mua thêm thiết bị mới. Cách Meta kết hợp DDR4 tái sử dụng, DDR5 mới, chip ASIC riêng, chuẩn CXL và phần mềm Linux được tinh chỉnh cho thấy trung tâm dữ liệu tương lai có thể ngày càng “rời rạc hóa” tài nguyên, tức CPU, bộ nhớ và bộ tăng tốc không còn gắn chặt trong một hộp máy duy nhất mà có thể được ghép linh hoạt theo nhu cầu. Nếu mô hình này tiếp tục chứng minh hiệu quả, nó có thể trở thành hướng đi hấp dẫn cho toàn ngành hạ tầng đám mây và AI.

Danh mục máy quét mã vạch

Máy quét mã vạch - Quét mã Qr - Quét mã vạch sản phẩm.

DÒNG MÁY CÓ DÂY

máy quét mã vạch không dây

DÒNG MÁY KHÔNG DÂY

DÒNG MÁY KIỂM KHO PDA

DÒNG MÁY FITMOUNT