DeepSeek R1 बनाम OpenAI o1 और o3-mini मॉडल्स: एक व्यापक तुलना
AI का परिदृश्य तेजी से विकसित हो रहा है, हर हफ्ते नए मॉडल्स उभर रहे हैं। इस लेख में, हम तीन कार्यों में DeepSeek R1, OpenAI o1, और o3-mini मॉडल्स, साथ ही Alibaba के नए Qwen 2.5 Max मॉडल के प्रदर्शन की तुलना करेंगे: समस्या-समाधान, कोडिंग और वेब डिज़ाइन।
मॉडल्स का परिचय
DeepSeek R1 वर्तमान में App Store पर नंबर एक मॉडल है, और हम इसकी तुलना अन्य लोकप्रिय मॉडल्स, जिनमें o3-mini, o1 और Quen 2.5 Max शामिल हैं, से करेंगे। हम 14 बिलियन पैरामीटर के साथ DeepSeek R1 के स्थानीय रूप से होस्ट किए गए संस्करण का भी परीक्षण करेंगे।
समस्या-समाधान कार्य
पहला कार्य एक समस्या-समाधान चुनौती है, जहाँ हम जानबूझकर शुरू की गई गलतियों के साथ कोड का एक टुकड़ा प्रदान करते हैं और मॉडल्स से समस्याओं की पहचान करने और उन्हें ठीक करने के लिए कहते हैं। DeepSeek R1 को जवाब देने में 21 सेकंड लगते हैं और दो मुख्य मुद्दों की पहचान करता है: एक वर्तनी की गलती और एक CSS त्रुटि। Quen 2.5 Max जल्दी से जवाब देता है, न केवल वर्तनी की गलती और CSS त्रुटि की पहचान करता है, बल्कि एक इवेंट डेलिगेशन समस्या की भी पहचान करता है। OpenAI o1 को जवाब देने में 12 सेकंड लगते हैं और वर्तनी की गलती और CSS त्रुटि की पहचान करता है, लेकिन इवेंट डेलिगेशन समस्या की नहीं।
Quen 2.5 Max Model प्रतिक्रिया
कोडिंग कार्य
दूसरा कार्य एक कोडिंग चुनौती है, जहाँ हम मॉडल्स से लिंक पर होवर करते समय एक कस्टम माउस कर्सर बनाने के लिए कोड उत्पन्न करने के लिए कहते हैं। DeepSeek R1 को जवाब देने में 58 सेकंड लगते हैं और एक ऐसा समाधान प्रदान किया जाता है जो एक Teal Circle बनाता है लेकिन मूल कर्सर को प्रतिस्थापित नहीं करता है। Quen 2.5 Max जल्दी से जवाब देता है और एक ऐसा समाधान प्रदान करता है जो एक कस्टम कर्सर बनाता है। OpenAI o1 को जवाब देने में! 38 सेकंड लगते हैं और एक ऐसा समाधान प्रदान किया जाता है जो एक कस्टम SVG कर्सर बनाता है।
वेब डिजाइन कार्य
तीसरा कार्य एक वेब डिज़ाइन चुनौती है, जहाँ हम जानबूझकर शुरू की गई गलतियों के साथ एक डिज़ाइन प्रदान करते हैं और मॉडल्स से पहचान करने और सुधारों की सिफारिश करने के लिए कहते हैं। DeepSeek R1 टाइपो, खराब दृश्य पदानुक्रम और खराब रिक्ति की पहचान करता है, लेकिन विशिष्ट सिफारिशें प्रदान नहीं करता है। OpenAI o1 विशिष्ट मुद्दों की पहचान करता है, जैसे कि शीर्षक काम नहीं कर रहा है, संपर्क जानकारी स्पष्ट नहीं है और दृश्य पदानुक्रम गलत है।
DeepSeek R1 वेब डिज़ाइन प्रतिक्रिया
निष्कर्ष
परिणामों के आधार पर, OpenAI o1 सभी कार्यों में अच्छा प्रदर्शन करता है, इसके बाद Quen 2.5 Max और DeepSeek R1 का स्थान है। 14 बिलियन पैरामीटर के साथ DeepSeek R1 का स्थानीय रूप से होस्ट किया गया संस्करण अपेक्षा के अनुरूप प्रदर्शन नहीं करता है।
कुल मिलाकर, DeepSeek R1 वादा दिखाता है, लेकिन इसका प्रदर्शन इसके आसपास की हाइप जितना प्रभावशाली नहीं है। Quen 2.5 Max कोडिंग कार्यों में अच्छा प्रदर्शन करता है और OpenAI o1 लगातार सभी कार्यों में Smart और प्रासंगिक प्रतिक्रियाएँ प्रदान करता है।