DeepSeek R1 vs OpenAI o1 và o3-mini Models: A Comprehensive Comparison

Thế giới AI đang thay đổi nhanh chóng, với các mô hình mới xuất hiện hàng tuần. Trong bài viết này, chúng tôi sẽ so sánh hiệu năng của DeepSeek R1, OpenAI o1, và o3-mini, cũng như mô hình Qwen 2.5 Max mới của Alibaba, trên ba nhiệm vụ: giải quyết vấn đề, lập trình, và thiết kế web.

Giới thiệu về các Mô hình

DeepSeek R1 hiện là mô hình hàng đầu trên App Store, và chúng tôi sẽ so sánh nó với các mô hình phổ biến khác, bao gồm o3-mini, o1, và Quen 2.5 Max. Chúng tôi cũng sẽ thử nghiệm phiên bản được host cục bộ của DeepSeek R1 với 14 tỷ tham số.

DeepSeek R1 Model Giới thiệu về Mô hình DeepSeek R1

Nhiệm vụ Giải quyết Vấn đề

Nhiệm vụ đầu tiên là một thách thức giải quyết vấn đề, nơi chúng tôi cung cấp một đoạn mã có lỗi được đưa vào cố ý và yêu cầu các mô hình xác định và sửa chữa các vấn đề. DeepSeek R1 mất 21 giây để phản hồi và xác định hai vấn đề chính: một lỗi chính tả và một lỗi CSS. Quen 2.5 Max phản hồi nhanh chóng, không chỉ xác định lỗi chính tả và lỗi CSS mà还在 Qwen 2.5 Max还识别了一个事件委托问题。OpenAI o1在12秒内作出反应，识别了拼写错误和CSS错误，但没有识别事件委托问题。

Quen 2.5 Max Model Phản hồi của Mô hình Quen 2.5 Max

Nhiệm vụ Lập trình

Nhiệm vụ thứ hai là một thách thức lập trình, nơi chúng tôi yêu cầu các mô hình tạo mã để tạo con trỏ chuột tùy chỉnh khi di chuột qua các liên kết. DeepSeek R1 mất 58 giây để phản hồi và cung cấp giải pháp tạo ra một đường tròn màu teal nhưng không thay thế con trỏ gốc. Quen 2.5 Max phản hồi nhanh chóng và cung cấp giải pháp tạo con trỏ tùy chỉnh. OpenAI o1 mất 38 giây để phản hồi và cung cấp giải pháp tạo con trỏ SVG tùy chỉnh.

OpenAI o1 Model Phản hồi của Mô hình OpenAI o1

Nhiệm vụ Thiết kế Web

Nhiệm vụ thứ ba là một thách thức thiết kế web, nơi chúng tôi cung cấp một thiết kế có lỗi được đưa vào cố ý và yêu cầu các mô hình xác định và đề xuất các sửa chữa. DeepSeek R1 xác định các lỗi chính tả, cấu trúc trực quan kém, và khoảng cách kém nhưng không cung cấp các đề xuất cụ thể. OpenAI o1 xác định các vấn đề cụ thể, chẳng hạn như tiêu đề không hoạt động, thông tin liên hệ không rõ ràng, và cấu trúc trực quan không chính xác.

DeepSeek R1 Web Design Phản hồi Thiết kế Web của DeepSeek R1

Kết luận

Dựa trên kết quả, OpenAI o1 thể hiện tốt trên tất cả các nhiệm vụ, sau đó là Quen 2.5 Max và DeepSeek R1. Phiên bản được host cục bộ của DeepSeek R1 với 14 tỷ tham số không hoạt động tốt như mong đợi.

Final Scoreboard Bảng Điểm Cuối cùng

Tổng thể, mặc dù DeepSeek R1 cho thấy hứa hẹn, hiệu suất của nó không ấn tượng như sự hào hứng xung quanh nó. Quen 2.5 Max thể hiện tốt trong các nhiệm vụ lập trình, và OpenAI o1 thường xuyên cung cấp các phản hồi thông minh và phù hợp trên tất cả các nhiệm vụ.

Read Your Video

Submitted successfully!

DeepSeek R1 vs OpenAI o1 và o3-mini Models: A Comprehensive Comparison

Giới thiệu về các Mô hình

Nhiệm vụ Giải quyết Vấn đề

Nhiệm vụ Lập trình

Nhiệm vụ Thiết kế Web

Kết luận

Read Your Video

Submitted successfully!

DeepSeek R1 vs OpenAI o1 và o3-mini Models: A Comprehensive Comparison

Giới thiệu về các Mô hình

Nhiệm vụ Giải quyết Vấn đề

Nhiệm vụ Lập trình

Nhiệm vụ Thiết kế Web

Kết luận

Top Articles