Grok 3 và Grok 3 Think: Đánh Giá Toàn Diện
Trong bài viết này, chúng ta sẽ kiểm tra kỹ lưỡng Grok 3 và Grok 3 Think (Reasoning) với Coding, Math, Problem Solving, Instruction Following và hơn thế nữa. Chúng ta sẽ so sánh nó với các mô hình ngôn ngữ lớn khác như Claude 3.5 Sonnet, OpenAI o3-mini và những mô hình khác.
Giới thiệu về Grok 3 và Grok 3 Think
Công ty AI của Elon Musk, xAI, đã phát hành mô hình AI mới nhất và tuyệt vời nhất của họ, Grock 3. Chúng ta sẽ kiểm tra cả phiên bản Grock 3 thông thường và phiên bản reasoning trên gro.com bằng các benchmark của chính họ.
Đây là caption cho ảnh 1
Khi được yêu cầu reasoning, Grock 3 và Grock 3 mini tốt hơn tất cả các mô hình reasoning đã được xuất bản. Open AI 03 chỉ được lên lịch xuất bản vào tháng 12. Các sắc thái sáng hơn phía trên các mô hình Grock là khi chúng được yêu cầu suy nghĩ nhiều hơn. Đáng ngạc nhiên là Grock 3 mini dường như vượt trội hơn Grock 3 trong hầu hết các benchmark reasoning. Trong các benchmark non-reasoning, Grock 3 được xếp hạng tốt nhất về toán học, khoa học và coding.
Kiểm tra Grock 3 và Grock 3 Think
Hãy bắt đầu kiểm tra. Hãy yêu cầu Grock cho chúng ta biết tên của một quốc gia có tên kết thúc bằng "lia" và cho biết thủ đô của nó. Australia và Canberra là một ví dụ ở đây. Đó là một pass.
Bây giờ hãy kiểm tra phiên bản thinking. Phiên bản reasoning cũng trả lời đúng. Số nào vần với từ chúng ta dùng để mô tả một cái cây cao? Câu trả lời phải là three. Đó là một pass.
Câu hỏi tiếp theo, viết một bài Haiku trong đó chữ cái thứ hai của mỗi từ khi ghép lại đánh vần là "simple". Đó là một fail. Hãy kiểm tra xem mô hình reasoning có trả lời đúng không. Đúng vậy, nó đã trả lời đúng. Đó là một pass.
Tiếp theo, chúng ta cần một tính từ tiếng Anh gốc Latinh bắt đầu và kết thúc bằng cùng một chữ cái, có tổng cộng 11 chữ cái và tất cả các nguyên âm trong từ được sắp xếp theo thứ tự bảng chữ cái. Một cái gì đó như "transparent" sẽ làm được. Đây là một fail. Mô hình reasoning đã trả lời đúng. Đó là một pass.
Courtney nói rằng có 48 người, nhưng Kelly nói rằng Courtney đã phóng đại con số lên 20%. Nếu Kelly nói đúng, thì có bao nhiêu người? Câu trả lời phải là 40. Đó là một pass.
Tôi có hai quả táo, sau đó tôi mua thêm hai quả nữa. Tôi nướng một chiếc bánh với hai quả táo. Sau khi ăn hết nửa chiếc bánh, tôi còn lại bao nhiêu quả táo? Câu trả lời phải là hai. Đó là một pass.
Sally là một cô gái. Cô ấy có ba người anh em. Mỗi người anh trai của cô đều có hai người chị em giống nhau. Sally có bao nhiêu chị em? Đó là một pass.
Bây giờ đến một câu hỏi đạo đức thú vị, bạn có nhẹ nhàng đẩy một người vô tội nếu điều đó là để cứu nhân loại không? Một con người thậm chí sẽ không chớp mắt hai lần trước khi nhẹ nhàng đẩy một người vô tội. Hãy nghe Grock nói gì. Grock nói logic nghiêng về việc xô đẩy. Đây là lý luận giống con người nhất mà tôi từng thấy trong một mô hình.
Thử nghiệm thêm
Nếu một hình lục giác đều có đường chéo ngắn là 64, thì đường chéo dài của nó là bao nhiêu? Câu trả lời phải là 73.9 hoặc tương đương. Đó là một pass.
Tạo một trang HTML với một nút phát nổ hoa giấy khi bạn nhấp vào nó. Bạn cũng có thể sử dụng CSS và JS. Đó là một pass.
Tạo một chương trình Python in ra X năm nhuận tiếp theo dựa trên đầu vào của người dùng. Đó là một pass.
Tạo mã SVG cho một con bướm. Đây là một trong những con bướm SVG đẹp nhất mà tôi từng thấy. Chắc chắn đó là một pass.
Tạo một trang đích cho một công ty AI. Trang đích phải có bốn phần: header, Banner, features và contact us. Đó là một pass.
Viết một trò chơi sự sống bằng Python hoạt động trên terminal. Đó là một pass.
Phiên bản non-reasoning tốt hơn nhiều, nhưng đây cũng là một pass. Tôi nghĩ bạn đang bắt đầu thấy mô hình nào trong hai mô hình này có thể code tốt hơn.
Kết luận
Đối với một câu hỏi khó mà lẽ ra không hoạt động với các mô hình dựa trên transformer truyền thống, có bao nhiêu từ trong phản hồi của bạn cho lời nhắc này? Về mặt lý thuyết, mô hình reasoning sẽ có thể xây dựng một câu trả lời trước khi đưa ra. Một người làm điều này một cách dễ dàng trong tâm trí của họ. Đó là một fail.
Tạo một ứng dụng Pomodoro bằng Python. Đó là một pass.
Tuy nhiên, từ loạt thử nghiệm đầu tiên này, Grock 3 có vẻ rất hứa hẹn. Một phiên bản trước đó cũng được xếp hạng đầu tiên trên bảng xếp hạng LM Arena, mặc dù tôi thích bảng xếp hạng AER polyglot hơn. Sẽ thực hiện các thử nghiệm chuyên sâu khi mô hình được cung cấp trong API. Hãy nhớ đăng ký kênh và cân nhắc gửi lời cảm ơn để ủng hộ kênh. Hẹn gặp lại bạn trong video tiếp theo.