Grok-3 Vượt Trội Các Mô Hình AI Hàng Đầu Trong Đánh Giá Chuẩn, xAI Khẳng Định

Grok-3, mô hình AI mới nhất từ xAI, được cho là đã vượt trội hơn ChatGPT, Gemini và DeepSeek trong một bài kiểm tra mù do cộng đồng thực hiện, thiết lập điểm số chuẩn mới theo đánh giá nội bộ của xAI.

Phiên bản đầu tiên của Grok-3 vừa được ra mắt, một mô hình ngôn ngữ lớn AI (LLM), đã vượt qua các hệ thống AI đối thủ từ Google, OpenAI và DeepSeek trong một đánh giá mù do cộng đồng thực hiện.

Vào ngày 18 tháng 2, Elon Musk đã công bố việc phát hành mô hình AI mới nhất của xAI, Grok-3, trong một buổi phát trực tiếp trên X. Nhóm xAI tiết lộ rằng họ đã phát hành một phiên bản sớm của Grok-3 trên LMarena, sử dụng bí danh 'chocolate' để kiểm tra cộng đồng.

Grok-3 Xuất Sắc Trong Nhiều Chỉ Số Hiệu Suất AI

Chatbot Arena, một nền tảng đánh giá AI do cộng đồng điều hành, cho phép người dùng so sánh các mô hình AI trong một bài kiểm tra mù bằng cách xếp hạng các phản hồi từ hai chatbot ẩn danh. Nền tảng này tuyên bố đã ghi nhận hơn một triệu phiếu bầu từ người dùng.

Theo so sánh nội bộ của xAI, Grok-3 đã đạt điểm số cao hơn ít nhất 10 điểm so với các đối thủ chính của nó - ChatGPT o3mini, o1, Deepseek-R1 và Gemini-2 Flash Thinking - trong các lĩnh vực toán học, khoa học và lập trình.

Bot, United States, Space, Elon Musk — *So sánh giữa Grok-3 và các mô hình AI khác. Nguồn: xAI*

Grok-3 Thống Trị Các Chatbot AI Trong Tất Cả Các Hạng Mục

LMArena cũng lưu ý rằng phiên bản sớm của mô hình Grok-3 hiện đang xếp hạng đầu tiên trong tất cả các hạng mục, bao gồm tổng thể với kiểm soát phong cách, lời nhắc khó, lời nhắc khó với kiểm soát phong cách, lập trình, toán học, viết sáng tạo, tuân theo hướng dẫn, truy vấn dài hơn và nhiều lượt.

*Hiệu suất của Grok-3 trên tất cả các hạng mục hàng đầu. Nguồn: LMArena*

Musk và nhóm xAI đã xác nhận phát hiện của LMArena rằng phiên bản sớm của mô hình Grok-3, có mã hiệu 'chocolate', đã đạt điểm số mốc kỷ lục là 1400. 'Và nó vẫn đang tăng. Vì vậy, chúng tôi phải tiếp tục cập nhật nó. Nó đang ở mức 1400 và tiếp tục tăng,' Musk phát biểu.

Chưa được LMArena xác nhận độc lập liệu xếp hạng của Grok-3 có đại diện cho một bước đột phá quan trọng so với các đối thủ hay không, hoặc liệu các yếu tố bên ngoài, như nhân khẩu học của khán giả, có thể đã ảnh hưởng đến xếp hạng của mô hình.

Elon Musk Lên Kế Hoạch Cho Các Robot Tesla Được Cung Cấp Bởi Grok Để Khám Phá Không Gian

Trong thông báo, Musk tiết lộ kế hoạch gửi một Robot Tesla, được cung cấp bởi mô hình trí tuệ nhân tạo của xAI là Grok, trên sứ mệnh tiếp theo của SpaceX đến sao Hỏa vào cuối năm 2026.

Trong một cuộc thảo luận, ông đã đề cập rằng hầu hết các dự án của SpaceX cho việc khám phá sao Hỏa được lên kế hoạch cho khoảng quý 4 năm 2026.

Ông giải thích rằng cửa sổ quá cảnh Trái Đất-Sao Hỏa xảy ra mỗi 26 tháng, khiến tháng 11 năm 2026 trở thành cơ hội lý tưởng tiếp theo để phóng tên lửa đến Hành Tinh Đỏ.

Musk cũng gợi ý khả năng gửi một Robot Tesla và Grok trên sứ mệnh đến sao Hỏa:

"Nếu mọi thứ diễn ra suôn sẻ, SpaceX sẽ gửi các tên lửa Starship đến sao Hỏa với các robot Optimus và Grok."

Kỹ Sư Grok-3 Rời Đi Sau Tối Hậu Thư

Vào ngày 12 tháng 2, một kỹ sư của xAI đã từ chức sau một bài đăng trên X trong đó ông đã xếp hạng Grok-3 thấp hơn ChatGPT, bày tỏ ý kiến cá nhân của mình trước khi mô hình được phát hành.

"Tôi hoặc phải xóa bài đăng được trích dẫn dưới đây hoặc đối mặt với việc bị sa thải," DeKraker viết, thêm vào:

"Sau khi xem xét mọi thứ và suy nghĩ rất nhiều, tôi đã quyết định rằng tôi sẽ không xóa bài đăng - điều này rất rõ ràng là một ý kiến cá nhân vô hại."

Theo Cointelegraph

Tin khác

Elon Musk's DOGE Nhắm Đến SEC trong Sáng Kiến Cắt Giảm Chi Phí

18/02/2025

Người sáng lập Pump.fun kêu gọi các biện pháp bảo vệ memecoin sau sự sụp đổ của LIBRA

18/02/2025

Hàn Quốc Tạm Dừng Tải Về DeepSeek Do Lo Ngại Về Dữ Liệu Người Dùng

18/02/2025

Tether Hợp Tác Với Guinea Để Phát Triển Công Nghệ Blockchain

18/02/2025

Ethereum Thể Hiện Dấu Hiệu Phục Hồi Khi Nhà Đầu Tư Chuyển ETH Vào Ví Lạnh

18/02/2025