OpenAI chọn Cerebras cho bước đi mới ngoài Nvidia và AMD

OpenAI vừa giới thiệu GPT-5.3-Codex-Spark, mô hình đầu tiên của hãng được triển khai trên phần cứng của Cerebras Systems thay vì chỉ dựa vào các nền tảng quen thuộc như GPU của Nvidia hay AMD. Đây là một cột mốc đáng chú ý vì Cerebras nổi tiếng với dòng chip AI kích thước cực lớn CS3, thường được mô tả như một “đĩa ăn tối” do thiết kế wafer-scale — tức kiến trúc dùng gần như toàn bộ tấm wafer bán dẫn làm một chip thống nhất, thay vì cắt nhỏ thành nhiều khuôn chip truyền thống. Theo OpenAI, mô hình mới được tối ưu cho Codex, trợ lý lập trình AI của hãng, nhằm mang lại trải nghiệm tương tác nhanh hơn rõ rệt cho người dùng.

Tốc độ phản hồi là điểm nhấn lớn nhất của GPT-5.3-Codex-Spark

Điểm gây chú ý nhất của GPT-5.3-Codex-Spark là tốc độ sinh văn bản và mã nguồn vượt 1.000 token mỗi giây. Token là đơn vị nhỏ mà mô hình ngôn ngữ dùng để xử lý dữ liệu, có thể là từ, dấu câu, con số hoặc một phần của từ. Trong thực tế, tốc độ này đồng nghĩa AI có thể phản hồi gần như tức thì khi lập trình viên yêu cầu chỉnh sửa đoạn mã, giải thích lỗi hoặc viết thêm chức năng. OpenAI cho biết chính nhờ kết hợp phần cứng Cerebras với các tối ưu trong quy trình suy luận, hay inference — giai đoạn mô hình đã huấn luyện xong và bắt đầu tạo đầu ra cho người dùng — mà Spark đạt được độ trễ cực thấp.

Vì sao chip Cerebras có thể nhanh đến vậy?

Lợi thế cốt lõi của Cerebras nằm ở việc sử dụng lượng lớn SRAM tích hợp ngay trên chip. SRAM, viết tắt của Static Random-Access Memory, là loại bộ nhớ cực nhanh thường dùng cho cache vì có độ trễ rất thấp, nhưng đổi lại tốn diện tích silicon và không hiệu quả về mật độ lưu trữ. Cerebras tuyên bố bộ nhớ trên chip của họ nhanh hơn khoảng 1.000 lần so với HBM4 trong một số khía cạnh về độ trễ. HBM4, hay High Bandwidth Memory thế hệ 4, là loại bộ nhớ băng thông cao xếp chồng nhiều lớp, được xem là tiêu chuẩn cho GPU AI hiện đại như dòng Rubin sắp ra mắt của Nvidia. Nói cách khác, Cerebras đánh đổi dung lượng để lấy tốc độ truy cập dữ liệu cực nhanh, rất phù hợp cho các tác vụ cần phản hồi tức thì.

Spark là mô hình gọn nhẹ nhưng có cửa sổ ngữ cảnh lớn

OpenAI chưa công bố số lượng tham số, hay parameter count, của GPT-5.3-Codex-Spark. Tham số là các giá trị nội bộ quyết định khả năng học và suy luận của mô hình; số tham số càng lớn thường đồng nghĩa mô hình càng mạnh, nhưng cũng đòi hỏi nhiều tài nguyên hơn. Dù vậy, hãng xác nhận đây là mô hình chỉ xử lý văn bản và có cửa sổ ngữ cảnh 128.000 token. Cửa sổ ngữ cảnh, hay context window, có thể hiểu như bộ nhớ ngắn hạn của mô hình: nó xác định AI có thể “nhớ” bao nhiêu nội dung trong một lần làm việc. Với lập trình, con số 128.000 token nghe có vẻ lớn, nhưng thực tế có thể bị tiêu tốn rất nhanh vì mô hình phải theo dõi cả mã nguồn cũ lẫn phần mã mới được tạo ra.

Nhanh nhưng không phải không có giới hạn

Chính OpenAI cũng thừa nhận tốc độ quá cao có thể khiến cửa sổ ngữ cảnh bị lấp đầy chỉ sau khoảng hai phút nếu mô hình liên tục sinh 1.000 token mỗi giây từ một phiên làm việc mới. Đây có thể là lý do Spark mặc định hoạt động theo phong cách “lightweight”, tức ưu tiên các chỉnh sửa nhỏ, có mục tiêu rõ ràng, thay vì viết lại quá nhiều hoặc tự động chạy kiểm thử gỡ lỗi nếu người dùng chưa yêu cầu. Cách tiếp cận này cho thấy OpenAI đang cố cân bằng giữa tốc độ, chi phí tính toán và tính hữu ích thực tế trong môi trường phát triển phần mềm.

Hiệu năng lập trình được cho là vượt bản Mini, nhưng vẫn nhường bản lớn về năng lực tổng thể

Theo OpenAI, GPT-5.3-Codex-Spark đạt độ chính xác cao hơn GPT-5.1-Codex-Mini trong bài đánh giá Terminal-Bench 2.0, một bộ kiểm thử dùng để đo khả năng xử lý các tác vụ lập trình trong môi trường dòng lệnh. Tuy nhiên, Spark vẫn được định vị là lựa chọn siêu nhanh hơn là mô hình mạnh nhất tuyệt đối. Hãng cho biết nó nhanh hơn đáng kể so với GPT-5.3-Codex, phiên bản được xem là “thông minh” hơn nhưng chậm hơn. Điều này phản ánh chiến lược ngày càng phổ biến trong AI tạo sinh: thay vì một mô hình làm tất cả, các nhà cung cấp bắt đầu phân tầng sản phẩm theo nhu cầu, từ mô hình tối ưu tốc độ đến mô hình tối ưu chất lượng.

OpenAI chưa rời bỏ GPU, nhưng đang mở rộng hạ tầng AI

Dù bước sang nền tảng Cerebras, OpenAI nhấn mạnh GPU vẫn là nền tảng chủ lực cho cả huấn luyện lẫn suy luận ở quy mô lớn. GPU, hay Graphics Processing Unit, ban đầu được thiết kế cho đồ họa nhưng hiện là xương sống của AI hiện đại nhờ khả năng xử lý song song rất mạnh. Theo OpenAI, GPU hiện vẫn tạo ra chi phí trên mỗi token hợp lý hơn cho phần lớn nhu cầu phổ thông. Cerebras chỉ đóng vai trò bổ sung ở các quy trình đòi hỏi độ trễ cực thấp, tức thời gian từ lúc gửi yêu cầu đến khi nhận phản hồi phải ngắn nhất có thể.

Nhược điểm của Cerebras: bộ nhớ ít hơn nhiều so với GPU hiện đại

Tốc độ không đồng nghĩa toàn diện hơn. Hạn chế lớn của CS3 là dung lượng bộ nhớ chỉ 44 GB cho toàn bộ chip, thấp hơn rất nhiều so với các GPU AI thế hệ mới. Để so sánh, Nvidia Rubin được cho là sẽ có 288 GB HBM4, còn AMD MI455X có thể đạt 432 GB. Sự chênh lệch này rất quan trọng vì các mô hình AI lớn cần bộ nhớ khổng lồ để chứa trọng số, dữ liệu trung gian và ngữ cảnh dài. Nói ngắn gọn, SRAM rất nhanh nhưng không “rộng rãi”, trong khi HBM chậm hơn về độ trễ nhưng phù hợp hơn cho các mô hình cỡ lớn cần chạy kinh tế ở quy mô rộng.

Thỏa thuận 10 tỷ USD cho thấy Cerebras không chỉ là thử nghiệm ngắn hạn

Bước đi mới của OpenAI không dừng ở một bản demo công nghệ. Chỉ một tháng trước, công ty đã ký hợp đồng trị giá 10 tỷ USD với Cerebras để triển khai tới 750 megawatt silicon AI tùy biến phục vụ thế hệ mô hình GPT mới. Con số megawatt ở đây phản ánh quy mô điện năng và hạ tầng trung tâm dữ liệu cần thiết cho việc vận hành AI hiện đại, cho thấy đây là một kế hoạch triển khai công nghiệp thực thụ chứ không phải thử nghiệm nhỏ lẻ. OpenAI cũng gợi ý rằng khi Cerebras đưa thêm năng lực tính toán lên mạng lưới, các mô hình lớn hơn của hãng có thể sẽ xuất hiện trên nền tảng này, nhiều khả năng dành cho nhóm khách hàng sẵn sàng trả thêm để đổi lấy tốc độ suy luận cao.

Hiện mới mở quyền truy cập giới hạn

Ở giai đoạn hiện tại, GPT-5.3-Codex-Spark mới được phát hành dưới dạng preview cho người dùng Codex Pro và thông qua API cho một số đối tác được chọn. API, hay Application Programming Interface, là giao diện cho phép doanh nghiệp và nhà phát triển tích hợp trực tiếp mô hình AI vào ứng dụng hoặc dịch vụ của mình. Việc triển khai có kiểm soát cho thấy OpenAI vẫn đang đánh giá phản hồi thực tế trước khi mở rộng quy mô. Tuy nhiên, thông điệp đã khá rõ ràng: cuộc đua hạ tầng AI đang bước sang giai đoạn mới, nơi tốc độ phản hồi trở thành lợi thế cạnh tranh quan trọng không kém quy mô mô hình.

Danh mục máy quét mã vạch

Máy quét mã vạch - Quét mã Qr - Quét mã vạch sản phẩm.

DÒNG MÁY CÓ DÂY

máy quét mã vạch không dây

DÒNG MÁY KHÔNG DÂY

DÒNG MÁY KIỂM KHO PDA

DÒNG MÁY FITMOUNT