DeepSeek R1 vs OpenAI o1 và o3-mini Models: A Comprehensive Comparison
Thế giới AI đang thay đổi nhanh chóng, với các mô hình mới xuất hiện hàng tuần. Trong bài viết này, chúng tôi sẽ so sánh hiệu năng của DeepSeek R1, OpenAI o1, và o3-mini, cũng như mô hình Qwen 2.5 Max mới của Alibaba, trên ba nhiệm vụ: giải quyết vấn đề, lập trình, và thiết kế web.
Giới thiệu về các Mô hình
DeepSeek R1 hiện là mô hình hàng đầu trên App Store, và chúng tôi sẽ so sánh nó với các mô hình phổ biến khác, bao gồm o3-mini, o1, và Quen 2.5 Max. Chúng tôi cũng sẽ thử nghiệm phiên bản được host cục bộ của DeepSeek R1 với 14 tỷ tham số.
Giới thiệu về Mô hình DeepSeek R1
Nhiệm vụ Giải quyết Vấn đề
Nhiệm vụ đầu tiên là một thách thức giải quyết vấn đề, nơi chúng tôi cung cấp một đoạn mã có lỗi được đưa vào cố ý và yêu cầu các mô hình xác định và sửa chữa các vấn đề. DeepSeek R1 mất 21 giây để phản hồi và xác định hai vấn đề chính: một lỗi chính tả và một lỗi CSS. Quen 2.5 Max phản hồi nhanh chóng, không chỉ xác định lỗi chính tả và lỗi CSS mà还在 Qwen 2.5 Max还识别了一个事件委托问题。OpenAI o1在12秒内作出反应,识别了拼写错误和CSS错误,但没有识别事件委托问题。
Phản hồi của Mô hình Quen 2.5 Max
Nhiệm vụ Lập trình
Nhiệm vụ thứ hai là một thách thức lập trình, nơi chúng tôi yêu cầu các mô hình tạo mã để tạo con trỏ chuột tùy chỉnh khi di chuột qua các liên kết. DeepSeek R1 mất 58 giây để phản hồi và cung cấp giải pháp tạo ra một đường tròn màu teal nhưng không thay thế con trỏ gốc. Quen 2.5 Max phản hồi nhanh chóng và cung cấp giải pháp tạo con trỏ tùy chỉnh. OpenAI o1 mất 38 giây để phản hồi và cung cấp giải pháp tạo con trỏ SVG tùy chỉnh.
Phản hồi của Mô hình OpenAI o1
Nhiệm vụ Thiết kế Web
Nhiệm vụ thứ ba là một thách thức thiết kế web, nơi chúng tôi cung cấp một thiết kế có lỗi được đưa vào cố ý và yêu cầu các mô hình xác định và đề xuất các sửa chữa. DeepSeek R1 xác định các lỗi chính tả, cấu trúc trực quan kém, và khoảng cách kém nhưng không cung cấp các đề xuất cụ thể. OpenAI o1 xác định các vấn đề cụ thể, chẳng hạn như tiêu đề không hoạt động, thông tin liên hệ không rõ ràng, và cấu trúc trực quan không chính xác.
Phản hồi Thiết kế Web của DeepSeek R1
Kết luận
Dựa trên kết quả, OpenAI o1 thể hiện tốt trên tất cả các nhiệm vụ, sau đó là Quen 2.5 Max và DeepSeek R1. Phiên bản được host cục bộ của DeepSeek R1 với 14 tỷ tham số không hoạt động tốt như mong đợi.
Tổng thể, mặc dù DeepSeek R1 cho thấy hứa hẹn, hiệu suất của nó không ấn tượng như sự hào hứng xung quanh nó. Quen 2.5 Max thể hiện tốt trong các nhiệm vụ lập trình, và OpenAI o1 thường xuyên cung cấp các phản hồi thông minh và phù hợp trên tất cả các nhiệm vụ.