दुनिया के पहले ओपन-सोर्स वीडियो एडिटिंग एजेंट का परिचय
दुनिया के पहले ओपन-सोर्स वीडियो एडिटिंग एजेंट के परिचय के साथ वीडियो एडिटिंग की दुनिया और भी रोमांचक हो गई है। यह नवीन तकनीक Diffusion Studio और Re-Skill के बीच सहयोग का परिणाम है, और यह हमारे वीडियो संपादित करने के तरीके में क्रांति लाने के लिए तैयार है।
समस्या और समाधान
इस एजेंट के विकास का कारण बनी समस्या Re-Skill के लिए वीडियो संपादित करने के लिए एक स्वचालित उपकरण की आवश्यकता थी, जो व्यक्तिगत सीखने के लिए एक मंच है। टीम ने जल्दी से FFMPEG जैसे मौजूदा समाधानों की सीमाओं को महसूस किया और अधिक सहज और लचीले विकल्पों की तलाश शुरू कर दी। विभिन्न विकल्पों की खोज के बाद, उन्होंने इस एजेंट को बनाने के लिए Diffusion Studio Core लाइब्रेरी के लेखक के साथ सहयोग करने का निर्णय लिया।
एजेंट का परिचय, जहां टीम समस्या और समाधान पर चर्चा करती है
एजेंट के पीछे की तकनीक
यह एजेंट Python-आधारित ढांचे का उपयोग करके बनाया गया है और Diffusion Studio Core लाइब्रेरी का उपयोग करता है, जो WebCodecs का उपयोग करके ब्राउज़र में सीधे वीडियो रेंडर करने के लिए JavaScript-आधारित इंजन प्रदान करता है। यह तकनीक प्रोग्रामेटिक इंटरफ़ेस के माध्यम से जटिल कंपोज़िशन की अनुमति देती है, जिससे कोड उत्पन्न करने और इसे ब्राउज़र में चलाने के लिए Large Language Models (LLMs) का उपयोग करना संभव हो जाता है।
एजेंट के पीछे की तकनीक, यह बताते हुए कि यह कैसे काम करता है
एजेंट कैसे काम करता है
एजेंट Playwright का उपयोग करके एक ब्राउज़र सेशन शुरू करता है और ऑपरेटर UI से कनेक्ट होता है, जो विशेष रूप से AI एजेंटों के लिए डिज़ाइन किया गया एक वीडियो एडिटिंग UI है। यह WebCodecs API का उपयोग करके सीधे ब्राउज़र में वीडियो रेंडर करता है और Chrome DevTools Protocol के माध्यम से Python से ब्राउज़र में और वापस फ़ाइलें स्थानांतरित करने के लिए सहायक फ़ंक्शन हैं।
एजेंट कैसे काम करता है, एजेंट के प्रवाह को समझाते हुए
एजेंट का प्रवाह
एजेंट के तीन मुख्य उपकरण हैं: वीडियो एडिटिंग टूल, डॉक सर्च टूल और विजुअल फीडबैक टूल। वीडियो एडिटिंग टूल उपयोगकर्ता के संकेतों के आधार पर कोड उत्पन्न करता है और इसे ब्राउज़र में चलाता है। यदि अतिरिक्त संदर्भ की आवश्यकता है, तो डॉक सर्च टूल प्रासंगिक जानकारी प्राप्त करने के लिए RAG का उपयोग करता है। प्रत्येक निष्पादन चरण के बाद, कंपोज़िशन का नमूना लिया जाता है और विजुअल फीडबैक टूल का उपयोग करके विश्लेषण किया जाता है।
एजेंट का प्रवाह, यह समझाते हुए कि उपकरण एक साथ कैसे काम करते हैं
उपकरण और उनके कार्य
वीडियो एडिटिंग टूल उपयोगकर्ता के संकेतों के आधार पर कोड उत्पन्न करता है और इसे ब्राउज़र में चलाता है। जब अतिरिक्त संदर्भ की आवश्यकता होती है तो डॉक सर्च टूल प्रासंगिक जानकारी प्राप्त करने के लिए RAG का उपयोग करता है। विजुअल फीडबैक टूल कंपोज़िशन का विश्लेषण करता है और एजेंट को प्रतिक्रिया प्रदान करता है।
उपकरण और उनके कार्य, यह समझाते हुए कि वे एक साथ कैसे काम करते हैं
एजेंट के लाभ
एजेंट वीडियो संपादित करने का एक लचीला और सहज तरीका प्रदान करता है, जिससे कोड उत्पन्न करने और इसे ब्राउज़र में चलाने के लिए LLMs का उपयोग करना संभव हो जाता है। यह तकनीक प्रोग्रामेटिक इंटरफ़ेस के माध्यम से जटिल कंपोज़िशन की भी अनुमति देती है, जिससे कस्टम वीडियो एडिटिंग वर्कफ़्लो बनाना संभव हो जाता है।
एजेंट के लाभ, यह समझाते हुए कि इसका उपयोग कैसे किया जा सकता है
एजेंट का भविष्य
एजेंट वर्तमान में अपने पहले संस्करण में है, जिसे Python का उपयोग करके बनाया गया है, लेकिन एक Typescript कार्यान्वयन चल रहा है। टीम एजेंट को और अधिक लचीला और स्केलेबल बनाने पर भी काम कर रही है, जिससे यह WebSockets के माध्यम से एक दूरस्थ ब्राउज़र सेशन से जुड़ सके और इसके पीछे एक लोड बैलेंसर प्रदान किया जा सके।
एजेंट का भविष्य, भविष्य के विकास की योजनाओं को समझाते हुए
विजुअल फीडबैक टूल
विजुअल फीडबैक टूल एजेंट का एक महत्वपूर्ण हिस्सा है, जो प्रत्येक निष्पादन चरण के बाद एजेंट को प्रतिक्रिया प्रदान करता है। इस टूल का उपयोग जनरेटर और डिस्क्रिमिनेटर के रूप में किया जा सकता है, जो प्रसिद्ध GAN आर्किटेक्चर के समान है।
विजुअल फीडबैक टूल, यह समझाते हुए कि यह कैसे काम करता है
LM.TXT फ़ाइल
LM.TXT फ़ाइल एजेंट का एक महत्वपूर्ण हिस्सा है, जो कोड उत्पन्न करने के लिए LLM के लिए टेम्पलेट और संकेत निर्दिष्ट करने का एक तरीका प्रदान करता है। यह फ़ाइल robots.txt फ़ाइल के समान है लेकिन विशेष रूप से एजेंटों के लिए उपयोग की जाती है।
LM.TXT फ़ाइल, यह समझाते हुए कि इसका उपयोग कैसे किया जाता है
निष्कर्ष
दुनिया का पहला ओपन-सोर्स वीडियो एडिटिंग एजेंट एक क्रांतिकारी तकनीक है जो वीडियो संपादित करने का एक लचीला और सहज तरीका प्रदान करती है। कोड उत्पन्न करने और इसे ब्राउज़र में चलाने के लिए LLMs का उपयोग करने की अपनी क्षमता के साथ, यह एजेंट हमारे वीडियो संपादित करने के तरीके को हमेशा के लिए बदलने के लिए तैयार है।