LineShine dẫn đầu TOP500 với hơn 2 exaflop

Danh sách TOP500, bảng xếp hạng 500 siêu máy tính mạnh nhất thế giới, vừa có quán quân mới là LineShine đặt tại Trung tâm Siêu máy tính Quốc gia ở Thâm Quyến. Hệ thống này đạt 2,198 exaflop/giây, tức hơn 2 tỷ tỷ phép tính mỗi giây. Đây là cột mốc đáng chú ý trong lĩnh vực HPC, viết tắt của High Performance Computing, hay điện toán hiệu năng cao, vốn được dùng cho mô phỏng khoa học, dự báo thời tiết, AI và nghiên cứu quốc phòng.

Không dùng Nvidia, Intel hay AMD, nhưng chưa hoàn toàn tách khỏi công nghệ quốc tế

Điểm gây chú ý lớn nhất là LineShine không sử dụng phần cứng từ Nvidia, Intel hay AMD, ba tên tuổi lâu nay thống trị mảng siêu máy tính. Tuy nhiên, hệ thống này không phải là một sản phẩm hoàn toàn tách biệt khỏi hệ sinh thái công nghệ toàn cầu. Theo tài liệu kỹ thuật công bố trước báo chí, bộ xử lý LX2 do Trung Quốc phát triển nhưng dựa trên kiến trúc Armv9. Arm là kiến trúc CPU nổi tiếng của Anh, được thiết kế theo hướng tiết kiệm điện và đang hiện diện từ điện thoại thông minh đến máy chủ. Ngoài ra, LineShine chạy KylinOS, một bản phân phối Linux, tức hệ điều hành mã nguồn mở được cộng đồng quốc tế đóng góp rộng rãi.

Cấu hình phần cứng cực lớn: hơn 20.000 nút tính toán

LineShine được xây dựng từ 20.480 nút tính toán. Mỗi bộ xử lý LX2 tích hợp hai compute die, có thể hiểu là hai khối chip xử lý chính trong cùng một gói chip, với tổng cộng 304 lõi CPU. Bộ xử lý này còn đi kèm 8 chồng bộ nhớ HBM ngay trên package. HBM, hay High Bandwidth Memory, là loại bộ nhớ băng thông cao được thiết kế để truyền dữ liệu cực nhanh, rất phù hợp cho siêu máy tính và AI. Tổng dung lượng HBM trên mỗi chip là 32 GB, với băng thông cộng dồn đạt 4 TB/giây.

NUMA, DDR và động cơ SDMA giúp tối ưu luồng dữ liệu

Mỗi compute die chứa 152 lõi và 128 GB bộ nhớ DDR đặt ngoài package. DDR là loại RAM phổ biến trong máy chủ, dùng để cung cấp dung lượng lớn hơn dù tốc độ không cao bằng HBM. Tài liệu cho biết bộ nhớ được tổ chức thành bốn miền NUMA. NUMA, viết tắt của Non-Uniform Memory Access, là mô hình trong đó thời gian truy cập bộ nhớ phụ thuộc vào vị trí của bộ nhớ so với lõi xử lý; cách tổ chức này giúp mở rộng hệ thống nhiều lõi nhưng đòi hỏi phần mềm tối ưu tốt. Bên cạnh đó, một động cơ SDMA chuyên dụng đảm nhận việc di chuyển dữ liệu giữa DDR và HBM. SDMA có thể hiểu là cơ chế truyền dữ liệu trực tiếp, giảm gánh nặng cho lõi CPU để tăng hiệu quả toàn hệ thống.

Hỗ trợ nhiều chuẩn tính toán cho khoa học và AI

LX2 hỗ trợ các định dạng tính toán FP64, FP32, FP16 và INT8 thông qua các đơn vị SME và SVE. FP64 là số thực dấu phẩy động 64-bit, thường được dùng trong mô phỏng khoa học cần độ chính xác cao. FP32 và FP16 là các mức độ chính xác thấp hơn, phổ biến trong AI và xử lý tăng tốc. INT8 là kiểu số nguyên 8-bit, rất quan trọng cho suy luận AI nhờ hiệu năng cao và tiết kiệm năng lượng. SME và SVE là các phần mở rộng tập lệnh của Arm, cho phép xử lý vector và ma trận hiệu quả hơn, tức thực hiện cùng lúc nhiều phép toán trên nhiều phần tử dữ liệu. Theo công bố, mỗi chip đạt tối đa 60,3 teraflop ở FP64 và 120,6 teraflop ở FP32; teraflop là đơn vị đo hàng nghìn tỷ phép tính dấu phẩy động mỗi giây.

Mạng LingQi nội địa kết nối toàn hệ thống ở tốc độ 1,6 Tb/s mỗi nút

Các nút trong LineShine được kết nối bằng mạng tốc độ cao LingQi, một công nghệ do Hangzhou LingQi Technology phát triển. Hệ thống dùng kiến trúc dual-plane multi-rail fat-tree. Đây là một kiểu topo mạng thường thấy trong siêu máy tính: fat-tree giúp tăng băng thông ở các tầng trên để tránh nghẽn cổ chai, multi-rail nghĩa là có nhiều đường truyền song song, còn dual-plane là hai mặt phẳng mạng hoạt động đồng thời để tăng thông lượng và độ dự phòng. Băng thông đạt 1,6 terabit/giây cho mỗi nút, cho thấy Trung Quốc không chỉ tự phát triển CPU mà còn đang xây dựng cả hạ tầng liên kết nội địa.

Cột mốc đầu tiên: vượt 2 exaflop bền vững chỉ với CPU

Theo ban tổ chức TOP500, LineShine là hệ thống đầu tiên trong bảng xếp hạng vượt mốc 2 exaflop hiệu năng FP64 duy trì mà chỉ dùng CPU, không cần GPU tăng tốc. Trong siêu máy tính hiện đại, GPU thường được dùng để tăng tốc các tác vụ song song nhờ khả năng xử lý hàng loạt phép toán cùng lúc. Việc một hệ thống CPU-only đạt cột mốc này là thành tựu kỹ thuật đáng kể. Đáng chú ý, kết quả hiện tại mới chỉ tương đương khoảng 80% mức đỉnh lý thuyết 2,736 exaflop, nghĩa là LineShine vẫn còn dư địa để cải thiện trong các đợt kiểm thử sau.

Bối cảnh địa chính trị: tự chủ công nghệ đang trở thành ưu tiên của Bắc Kinh

Việc LineShine vươn lên dẫn đầu diễn ra trong bối cảnh chính phủ Trung Quốc ngày càng thúc đẩy các tổ chức trong nước mua công nghệ sản xuất nội địa. Mục tiêu là giảm phụ thuộc vào nguồn cung nước ngoài, đặc biệt khi AI, bán dẫn và điện toán hiệu năng cao được xem là nền tảng cho tăng trưởng kinh tế lẫn năng lực quân sự. Các lệnh hạn chế xuất khẩu GPU từ Mỹ sang Trung Quốc đã cho Bắc Kinh thêm lý do để kiểm soát chuỗi cung ứng công nghệ quan trọng. Với LineShine, Trung Quốc giờ có thể chứng minh rằng chính sách tự chủ đã tạo ra hệ thống đơn lẻ mạnh nhất hành tinh.

Trung Quốc tiến nhanh, nhưng chưa thống trị toàn cầu

Dù vậy, bức tranh toàn ngành cho thấy Trung Quốc vẫn còn khoảng cách đáng kể với các thế lực truyền thống. Nvidia, AMD và Intel vẫn áp đảo phần lớn danh sách TOP500, như nhiều năm qua. Ngành GPU nội địa của Trung Quốc hiện vẫn ở giai đoạn đầu và được cho là chậm hơn các đối thủ Mỹ khoảng 4 đến 5 năm về hiệu năng. Điều đó có nghĩa là Bắc Kinh đang tiến rất nhanh trong cuộc đua siêu máy tính, nhưng để giành vị thế thống trị toàn cầu, đặc biệt ở mảng GPU và hệ sinh thái phần mềm tăng tốc, họ vẫn còn nhiều việc phải làm.

Danh mục máy quét mã vạch

Máy quét mã vạch - Quét mã Qr - Quét mã vạch sản phẩm.

DÒNG MÁY CÓ DÂY

máy quét mã vạch không dây

DÒNG MÁY KHÔNG DÂY

DÒNG MÁY KIỂM KHO PDA

DÒNG MÁY FITMOUNT