Grok 3 और Grok 3 Think: एक व्यापक समीक्षा
इस लेख में, हम Grok 3 और Grok 3 Think (Reasoning) का कोडिंग, गणित, समस्या समाधान, निर्देश पालन, और बहुत कुछ के साथ पूरी तरह से परीक्षण करेंगे। हम इसकी तुलना Claude 3.5 Sonnet, OpenAI o3-mini, और अन्य जैसे अन्य बड़े भाषा मॉडल के साथ करेंगे।
Grok 3 और Grok 3 Think का परिचय
Elon Musk की AI कंपनी, xAI ने अपना नवीनतम और सबसे महान AI मॉडल, Grok 3 जारी किया है। हम gro.com पर उनके अपने बेंचमार्क का उपयोग करके सामान्य और रीजनिंग Grok 3 संस्करणों दोनों का परीक्षण करने जा रहे हैं।
यह छवि 1 के लिए कैप्शन है
जब रीज़न करने के लिए कहा जाता है, तो Grok 3 और Grok 3 mini सभी प्रकाशित रीज़निंग मॉडलों से बेहतर हैं। Open AI 03 को केवल दिसंबर में प्रकाशित किया जाना है। Grok मॉडल के ऊपर के हल्के शेड तब होते हैं जब उन्हें कड़ी मेहनत करने के लिए कहा जाता है। आश्चर्यजनक रूप से, Grok 3 mini लगभग सभी रीज़निंग बेंचमार्क में Grok 3 से बेहतर प्रदर्शन करता हुआ प्रतीत होता है। गैर-रीज़निंग बेंचमार्क में, Grok 3 को गणित, विज्ञान और कोडिंग में सर्वश्रेष्ठ के रूप में रखा गया है।
Grok 3 और Grok 3 Think का परीक्षण
चलिए परीक्षण शुरू करते हैं। आइए Grok से हमें उस देश का नाम बताने के लिए कहें जिसका नाम "lia" से समाप्त होता है और उसकी राजधानी का नाम बताएं। Australia और Canberra यहाँ एक उदाहरण हैं। यह पास है।
अब हम थिंकिंग वर्जन का परीक्षण करते हैं। रीजनिंग वर्जन भी सही निकला। वह कौन सी संख्या है जो उस शब्द के साथ तुकबंदी करती है जिसका उपयोग हम एक लंबे पौधे का वर्णन करने के लिए करते हैं? जवाब तीन होना चाहिए। यह पास है।
अगला प्रश्न, एक हाइकू लिखें जहाँ प्रत्येक शब्द का दूसरा अक्षर एक साथ "simple" की वर्तनी बनाता है। यह फ़ैल है। आइए देखें कि क्या रीजनिंग मॉडल को यह मिला है। सही है, यह सही हो गया। ये पास है।
अगला, हमें लैटिन मूल का एक अंग्रेजी विशेषण चाहिए जो एक ही अक्षर से शुरू और समाप्त होता है, जिसमें कुल 11 अक्षर होते हैं, और जिसके लिए शब्द में सभी स्वर वर्णानुक्रम में व्यवस्थित होते हैं। "transparent" जैसा कुछ काम करेगा। यह फ़ैल है। रीजनिंग मॉडल को यह सही मिला। ये पास है।
Courtney ने कहा कि 48 लोग थे, लेकिन Kelly ने कहा कि Courtney ने संख्या को 20% बढ़ा-चढ़ाकर बताया था। अगर Kelly सही थी, तो वहां कितने लोग थे? जवाब 40 होना चाहिए। यह पास है।
मेरे पास दो सेब हैं, फिर मैं दो और खरीदता हूं। मैं दो सेबों से पाई बनाता हूँ। पाई का आधा हिस्सा खाने के बाद, मेरे पास कितने सेब बचे हैं? जवाब दो होना चाहिए। यह पास है।
Sally एक लड़की है। उसके तीन भाई हैं। उसके प्रत्येक भाई की दो समान बहनें हैं। Sally की कितनी बहनें हैं? यह पास है।
अब एक दिलचस्प नैतिक सवाल के लिए, क्या आप मानवता को बचाने के लिए एक निर्दोष व्यक्ति को धीरे से धक्का देंगे? एक इंसान एक निर्दोष व्यक्ति को धीरे से धक्का देने से पहले दो बार भी नहीं सोचेगा। आइए सुनते हैं कि Grok को क्या कहना है। Grok का कहना है कि तर्क धक्का की ओर झुकता है। यह मैंने किसी मॉडल में अब तक देखी गई सबसे मानवीय तर्क है।
अधिक परीक्षण
यदि एक नियमित षट्भुज का एक छोटा विकर्ण 64 है, तो उसका लंबा विकर्ण क्या है? उत्तर 73.9 या समकक्ष होना चाहिए। यह पास है।
एक HTML पेज बनाएं जिसमें एक बटन हो जिस पर क्लिक करने पर कंफ़ेद्दी फूटती है। आप CSS और JS का भी उपयोग कर सकते हैं। यह पास है।
एक Python प्रोग्राम बनाएं जो उपयोगकर्ता इनपुट के आधार पर अगले X लीप वर्षों को प्रिंट करता है। यह पास है।
एक तितली के लिए SVG कोड जेनरेट करें। यह मैंने अब तक देखी गई सबसे खूबसूरत SVG तितलियों में से एक है। यह निश्चित रूप से एक पास है।
एक AI कंपनी के लिए एक लैंडिंग पेज बनाएं। लैंडिंग पेज में चार सेक्शन होने चाहिए: हेडर, बैनर, सुविधाएँ और हमसे संपर्क करें। यह पास है।
टर्मिनल पर काम करने वाला Python में गेम ऑफ़ लाइफ़ लिखें। यह पास है।
गैर-रीज़निंग वर्जन बहुत बेहतर था, लेकिन यह भी एक पास है। मुझे लगता है कि आप यह देखना शुरू कर रहे हैं कि दोनों में से कौन सा मॉडल बेहतर कोडिंग कर सकता है।
निष्कर्ष
एक मुश्किल सवाल के लिए जो पारंपरिक ट्रांसफार्मर-आधारित मॉडलों के साथ काम करने वाला नहीं है, इस प्रॉम्प्ट के आपके उत्तर में कितने शब्द हैं? सैद्धांतिक रूप से, रीजनिंग मॉडल को आउटपुट करने से पहले एक उत्तर तैयार करने में सक्षम होना चाहिए। एक इंसान इसे अपने दिमाग में सहजता से करता है। यह फ़ैल है।
Python में एक Pomodoro ऐप बनाएं। यह पास है।
फिर भी, परीक्षणों के इस पहले बैच से, Grok 3 बहुत आशाजनक दिखता है। एक पिछला वर्जन LM Arena लीडरबोर्ड पर भी पहले स्थान पर है, हालाँकि मैं AER पॉलीग्लॉट लीडरबोर्ड को पसंद करूंगा। मॉडल को API में उपलब्ध कराए जाने के बाद गहन परीक्षण करेंगे। कृपया चैनल को सब्सक्राइब करना याद रखें और चैनल को सपोर्ट करने के लिए धन्यवाद देने पर विचार करें। अगले में मिलते हैं।