एमडीएम में खोजें

बुलेटिन

आर्टिफिशियल इंटेलिजेंस (एआई) के माध्यम से मीडिया पीढ़ी का क्षेत्र एक लंबवत गति से विकसित हो रहा है, और वीडियो पीढ़ी सबसे सक्रिय और प्रतिस्पर्धी सीमाओं में से एक बन गई है। इस संदर्भ में, Google ने I See 2, अपने मॉडल का विकास मैं 1 और इसके प्रमुख प्रस्ताव को इस उभरते हुए स्थान में प्रतिस्पर्धा करने के लिए प्रस्तुत किया है। Google DeepMind द्वारा विकसित, I See 2 को एक नवीनतम पीढ़ी के मॉडल के रूप में तैनात किया गया है, जिसे उच्च गुणवत्ता और यथार्थवाद वीडियो का उत्पादन करने के लिए डिज़ाइन किया गया है, जिसका उद्देश्य एक "अभूतपूर्व रचनात्मक नियंत्रण" की पेशकश है।

वीई 2 का आगमन गहन प्रतिस्पर्धा के एक क्षण में होता है, जिसमें ओपनई सोरा, रनवे, क्लिंग और अन्य जैसे प्रमुख अभिनेताओं के साथ एक उल्लेखनीय गति से नवाचार को बढ़ावा मिलता है। Google बताता है कि मैं AI द्वारा वीडियो की पीढ़ी में 2 पुनर्परिभाषित गुणवत्ता और नियंत्रण देखता हूं, जिसमें विभिन्न उद्योगों में रचनात्मक वर्कफ़्लोज़ को महत्वपूर्ण रूप से बदलने की क्षमता है।

यह लेख आपको Google I See 2 के एक विस्तृत विश्लेषण में प्रवेश करता है। हम विभिन्न Google प्लेटफार्मों, इसके तकनीकी विनिर्देशों और इसके पूर्ववर्ती के संबंध में महत्वपूर्ण सुधारों के माध्यम से इसकी उपलब्धता की जांच करते हैं, मैं 1 देखता हूं। हम मॉडल की वर्तमान सीमाओं को भी संबोधित करते हैं, I See 1 और प्रासंगिक प्रतियोगियों के साथ तुलनात्मक विश्लेषण करते हैं, प्रारंभिक विशेषज्ञों और उपयोगकर्ताओं की राय के साथ, Google दृष्टिकोण और Google दृष्टिकोण के साथ। 

एक्सेसिंग आई देखें 2: प्लेटफॉर्म, कीमतें और उपलब्धता

2 देखने के लिए Google की लॉन्चिंग रणनीति एक क्रमिक और खंडित तैनाती की विशेषता है। यह रचनाकारों और चयनित फिल्म निर्माताओं के लिए निजी भविष्यवाणियों के साथ शुरू हुआ और विभिन्न Google उत्पादों और प्लेटफार्मों के माध्यम से उत्तरोत्तर विस्तार किया है। प्रमुख तिथि 15 अप्रैल, 2025 को मिथुन उन्नत उपयोगकर्ताओं के लिए इसकी उपलब्धता की घोषणा की गई है।

वर्तमान में, मैं 2 देखने के लिए कई मार्ग हैं, प्रत्येक अपनी विशेषताओं और सीमाओं के साथ:

  • GEMINI API / VERTEX AI: यह डेवलपर्स और व्यावसायिक ग्राहकों के लिए मुख्य मार्ग है जो मुझे अपने स्वयं के अनुप्रयोगों में 2 को एकीकृत करना चाहते हैं। इसे उत्पादन के लिए तैयार माना जाता है। एक्सेस के लिए एपीआई कुंजियों की आवश्यकता होती है और, कुछ उन्नत कार्यों जैसे कि विशिष्ट चैम्बर संस्करण या नियंत्रण के लिए, अनुमत उपयोगकर्ताओं की सूची में होना आवश्यक हो सकता है। WPP, AGODA, MONDELEZ और POE जैसी कंपनियां पहले से ही उपयोग या परीक्षण कर रही हैं, मैं 2 वर्टेक्स एआई के माध्यम से 2 देख रहा हूं।
  • Google AI स्टूडियो: I See 2 की क्षमताओं का परीक्षण करने के लिए डेवलपर्स के लिए एक प्रयोगात्मक वातावरण प्रदान करता है। प्रारंभिक पहुंच आमतौर पर मुफ्त होती है, लेकिन बहुत सख्त उपयोग कोटा के अधीन है।
  • VideOfx (Google Labs): यह एक प्रयोगात्मक उपकरण है जिसका उद्देश्य रचनाकारों के लिए है, जो Google Labs के माध्यम से सुलभ है। इसके लिए एक प्रतीक्षा सूची में पंजीकरण की आवश्यकता है। प्रारंभ में, अमेरिका में 18 से अधिक उपयोगकर्ताओं के लिए शुरुआती पहुंच को प्रतिबंधित किया गया था, हालांकि Google ने एक्सेस का विस्तार करने की योजना बनाई थी।
  • GEMINI ADVANCED: मैं देख रहा हूं कि 2 प्रीमियम Google One AI प्लान के ग्राहकों के लिए एक फ़ंक्शन के रूप में एकीकृत है। यह 720p रिज़ॉल्यूशन पर 8 सेकंड वीडियो उत्पन्न करने की अनुमति देता है, मासिक उपयोग सीमाओं के साथ स्पष्ट रूप से परिभाषित नहीं किया गया है (यह संकेत दिया जाता है कि जब हम सीमा तक पहुंच रहे हैं तो हमें सूचित किया जाएगा)। यह वैश्विक रूप से उन देशों और भाषाओं में उपलब्ध है जहां मिथुन ऐप्स का समर्थन किया जाता है।
  • WHISK ANIMATE (Google Labs): यह प्रायोगिक फ़ंक्शन, Google Labs के भीतर भी, मैं स्टेटिक इमेज को 8 -second एनिमेटेड वीडियो क्लिप में बदलने के लिए 2 देखता हूं। यह 60 से अधिक देशों में Google वन एआई प्रीमियम के ग्राहकों के लिए उपलब्ध है।
  • YouTube शॉर्ट्स (ड्रीम स्क्रीन): YouTube शॉर्ट्स पर VAS 2 का एकीकरण ड्रीम स्क्रीन फ़ंक्शन के माध्यम से लागू किया जा रहा है। यह रचनाकारों को एआई के माध्यम से अद्वितीय वीडियो फंड उत्पन्न करने या यहां तक कि पाठ संकेतों से स्वतंत्र वीडियो क्लिप बनाने की अनुमति देगा। प्रारंभिक तैनाती अमेरिका, कनाडा, ऑस्ट्रेलिया और न्यूजीलैंड में की जाएगी।

विभिन्न कीमतों के लिए, वे इन प्लेटफार्मों के बीच काफी भिन्न होते हैं:

  • एपीआई/वर्टेक्स एआई: लागत उत्पन्न वीडियो समय पर आधारित है। स्रोत $ 0.35 - $ 0.50 प्रति सेकंड के बीच कीमतों का संकेत देते हैं। यह $ 21- $ 30 प्रति मिनट या $ 1260- $ 1800 प्रति घंटे उत्पन्न वीडियो के बराबर है। Google लॉन्च मोड ने मुफ्त क्रेडिट ($ 300) की पेशकश की है और वर्टेक्स एआई में बेकार उपयोग की प्रारंभिक अवधि हो सकती है।
  • सदस्यता: मिथुन एडवांस्ड और व्हिस्क चेतन के माध्यम से एक्सेस Google वन एआई प्रीमियम ($ 20/माह, स्पेन में € 21.99) की सदस्यता में शामिल है। इसकी तुलना में, सोरा डे ओपनई को CHATGPT PLUS ($ 20/माह) और PRO ($ 200/माह) की सदस्यता के हिस्से के रूप में पेश किया जाता है।
  • नि: शुल्क/प्रायोगिक: Google AI स्टूडियो और VideOfx (प्रतीक्षा सूची के साथ) जैसे प्लेटफ़ॉर्म मुफ्त पहुंच प्रदान करते हैं, लेकिन कोटा और कार्यक्षमता के संदर्भ में महान सीमाओं के साथ उपलब्ध हैं।

निम्न तालिका मैं 2 देखने के लिए पहुंच सड़कों को संक्षेप में प्रस्तुत करता है:

तालिका 1: Google एक्सेस सारांश मैं 2 देखता हूं

प्लैटफ़ॉर्म

अभिगम पद्धति

विशिष्ट उपयोगकर्ता

प्रमुख विनिर्देश

लागत मॉडल

उपलब्धता राज्य

मिथुन एपीआई/वर्टेक्स एआई

एपीआई कुंजी, AllowList (कुछ फ़ंक्शन।)

डेवलपर, कंपनी

4K/मिनट की क्षमता, API: 720p/8s

प्रति सेकंड ($ 0.35- $ 0.50)

जीए, पूर्वावलोकन (संपादित करें)

Google AI स्टूडियो

लॉग इन करें

डेवलपर

720p/8s

नि: शुल्क (कम कोटा)

प्रयोगात्मक

VideoFx (प्रयोगशाला)

लॉगिन + प्रतीक्षा करें

निर्माता

720p/8s

नि: शुल्क (कम कोटा)

सूची प्रतीक्षा (reg।)

मिथुन एडवांस्ड

Google एक AI प्रीमेक।

उपभोक्ता

720p/8s (16: 9)

सदस्यता ($ 20/माह)

गा (वैश्विक)

व्हिस्क चेतन (प्रयोगशाला)

Google एक AI प्रीमेक।

उपभोक्ता, निर्माता

वीडियो छवि (8s)

सदस्यता ($ 20/माह)

जीए (60+ देश)

YouTube शॉर्ट्स

ऐप में एकीकृत

सामग्री निर्माता

फंड / क्लिप (8s?)

नि: शुल्क (एकीकृत)

परिनियोजन (reg।)

 

एक्सेस पॉइंट्स और प्राइस मॉडल की यह विविधता Google द्वारा एक कंपित एक्सेस रणनीति का खुलासा करती है। उच्चतम क्षमता (संभावित 4K, लंबे वीडियो, उन्नत नियंत्रण) और उच्चतम कीमतें एपीआई के माध्यम से व्यावसायिक उपयोगकर्ताओं और डेवलपर्स के लिए आरक्षित हैं, जहां कथित मूल्य और भुगतान करने की इच्छा अधिक है। इसी समय, अधिक सीमित संस्करणों की पेशकश की जाती है (720p, 8 सेकंड) लेकिन मुफ्त सदस्यता या भविष्यवाणियों के माध्यम से उपभोक्ताओं और रचनाकारों के लिए अधिक आर्थिक रूप से सुलभ। यह खंडित दृष्टिकोण Google को तैनाती की जटिलता, वीडियो उत्पादन से जुड़े उच्च प्रसंस्करण लागतों का प्रबंधन करने और संभावित आय को अधिकतम करने की अनुमति देता है, विभिन्न बाजार खंडों की जरूरतों को पूरा करता है।

हालांकि, यह मूल्य रणनीति मुझे प्रतियोगिता के सामने एक दिलचस्प स्थिति में 2 देखती है। एपीआई की प्रति सेकंड उच्च लागत ($ 0.35- $ 0.50) CHATGPT ($ 20/$ 200 प्रति माह) के अपेक्षाकृत सस्ती सदस्यता में सोरा को शामिल करने के साथ स्पष्ट रूप से विरोधाभास है। हालांकि सोरा के पास अभी भी परिभाषित कीमतों के साथ व्यापक रूप से उपलब्ध सार्वजनिक एपीआई नहीं है, लेकिन एक्सेस मॉडल में यह मौलिक अंतर Google मूल्य पर प्रतिस्पर्धी दबाव उत्पन्न कर सकता है। यदि Openai या अन्य प्रतियोगी कम इकाई लागत के साथ API की पेशकश करते हैं, या यदि उच्च गुणवत्ता वाले मॉडल सस्ती सदस्यता के माध्यम से सुलभ हो जाते हैं, तो पेशेवर उपयोगकर्ता जिन्हें बड़े वीडियो वॉल्यूम उत्पन्न करने की आवश्यकता होती है, वे I See 2 के API की तुलना में अधिक आकर्षक विकल्प पा सकते हैं, संभावित रूप से Google को उस प्रमुख खंड में प्रतिस्पर्धा बनाए रखने के लिए अपनी कीमत संरचना पर पुनर्विचार करने के लिए मजबूर कर सकते हैं।

2 तकनीकी क्षमताएं देखें: जेनेरिक वीडियो में एक कूद

मैं देख रहा हूं कि 2 मुख्य रूप से दो तौर -तरीकों के माध्यम से संचालित होता है: पाठ की पीढ़ी (T2V), जहां एक पाठ्य विवरण एक वीडियो दृश्य में बदल दिया जाता है, और वीडियो की पीढ़ी वीडियो (I2V) के लिए, जो शैली और आंदोलन को परिभाषित करने के लिए एक अतिरिक्त शाब्दिक संकेत के आधार पर एक स्थिर छवि को प्रोत्साहित करता है। यह मॉडल वीडियो जनरेशन में Google अनुसंधान के वर्षों का परिणाम है, आर्किटेक्चर का लाभ उठाता है और पिछली परियोजनाओं जैसे कि GQN, DVD-GAN, IMAGE-VIDEO, PHENAKI, वॉल्ट, Videopoet और Lumiere, ट्रांसफार्मर आर्किटेक्चर और जेमिनी मॉडल के अलावा।

तकनीकी आउटपुट विनिर्देशों के लिए, मैं देखता हूं कि 2 एक महत्वपूर्ण अग्रिम प्रस्तुत करता है, हालांकि इसकी संभावित और वर्तमान पहुंच के बीच महत्वपूर्ण बारीकियों के साथ:

  • रिज़ॉल्यूशन: बेस मॉडल 4K.3 तक के रिज़ॉल्यूशन के साथ वीडियो बनाने में सक्षम है। यह I See 1 के संबंध में एक सुधार है, जो 1080p तक पहुंच गया। हालांकि, जनता के लिए सुलभ वर्तमान कार्यान्वयन (एपीआई/वर्टेक्स एआई, एआई स्टूडियो, मिथुन एडवांस्ड, वीडऑफएक्स) कुछ संदर्भों में 720p 14 या 1080p तक सीमित हैं।
  • वीडियो अवधि: मुझे लगता है कि 2 में क्लिप उत्पन्न करने की क्षमता है जो "मिनट से अधिक" या दो मिनट तक की निरंतर अवधि तक पहुंचती है, और यहां तक कि संभावित रूप से अधिक। यह 1 (> 60 के दशक) को देखने की क्षमता में सुधार करता है। हालांकि, एपीआई, एआई स्टूडियो और मिथुन एडवांस्ड के माध्यम से वर्तमान पहुंच अक्सर 8 सेकंड क्लिप तक सीमित है।
  • फोटोग्राम दर (फ्रेम दर): एपीआई और वर्टेक्स एआई का प्रलेखन 24 फ्रेम प्रति सेकंड (एफपीएस) की दर निर्दिष्ट करता है। कुछ तुलनाओं में, 30-60 एफपीएस का उल्लेख किया गया है।
  • उपस्थिति अनुपात: एपीआई/वर्टेक्स एआई के माध्यम से, प्रारूप 16: 9 (लैंडस्केप) और 9:16 (चित्र) समर्थित हैं। मिथुन एडवांस्ड में प्रस्थान 16: 9 है।
  • आउटपुट प्रारूप: MP4 प्रारूप का उपयोग मिथुन उन्नत के माध्यम से उत्पन्न आउटपुट के लिए किया जाएगा।

बुनियादी विनिर्देशों से परे, मैं देखता हूं कि 2 प्रमुख गुणात्मक सुधारों का परिचय देता है:

मैं 2 देखता हूं

 

  • बेहतर समझ और यथार्थवाद: मॉडल प्राकृतिक भाषा और दृश्य शब्दार्थ की एक उन्नत समझ को प्रदर्शित करता है, जो टोन, बारीकियों और लंबे संकेतों के विवरण की व्याख्या करता है। पाठ को संसाधित करने के लिए ट्रांसफार्मर आर्किटेक्चर (संभवतः UL2 एनकोडर) का उपयोग करें। मौलिक रूप से, Google एक महत्वपूर्ण सुधार के रूप में वास्तविक दुनिया के भौतिक के अनुकरण पर प्रकाश डालता है। उंगलियों को प्रभावित किए बिना जल भौतिकी, बर्न पेपर या टमाटर के सटीक कट जैसे उदाहरण इस क्षमता को स्पष्ट करते हैं, इसे सोरा जैसे प्रतियोगियों के खिलाफ एक प्रमुख अंतर के रूप में स्थिति में रखते हैं। यह भौतिक समझ यथार्थवादी पात्रों और वस्तुओं के द्रव आंदोलनों के साथ उच्च परिशुद्धता आंदोलन के प्रतिनिधित्व में तब्दील हो जाती है। परिणाम अधिक यथार्थवाद और निष्ठा के साथ वीडियो हैं, ठीक विवरण के साथ और पिछले मॉडल की तुलना में दृश्य कलाकृतियों (जैसे अतिरिक्त उंगलियों या अप्रत्याशित वस्तुओं) की एक महत्वपूर्ण कमी के साथ, अनुकूली दृश्यों और गन्स के न्यूरोनल रेंडरिंग जैसी तकनीकों का उपयोग करते हुए। इसके अलावा, अस्थायी स्थिरता में सुधार किया गया है, जो अव्यक्त प्रसार मॉडल द्वारा पूरे फ्रेम में वर्णों और वस्तुओं की स्थिरता को बनाए रखता है। बेशक, जैसा कि वीडियो में देखा जा सकता है, असंभव छवियां अक्सर टमाटर के एक टुकड़े के उस अद्भुत कट के रूप में उत्पन्न होती हैं जो कटौती के बाद आधे टमाटर में बदल जाती है।
  • सिनेमैटोग्राफिक कंट्रोल और स्टाइल: मैं 2 देखता हूं कि "सिनेमैटोग्राफी की अनूठी भाषा" की व्याख्या करता है। "टाइमलेप्स", "एयर टेक", "ड्रोन", "ट्रैवलिंग", "डॉली", "फोरग्राउंड", "काउंटरपिकैडो", "पनीओ ऑन द राइट" जैसे शब्दों को समझें, और यहां तक कि आपको वांछित शैली को निर्दिष्ट करने की अनुमति देता है। यह लेने, कोण और आंदोलनों, एक उत्कृष्ट महत्वपूर्ण लाभ पर व्यापक कक्ष नियंत्रण प्रदान करता है। यह विशिष्ट लेंस प्रभावों (जैसे, चौड़े कोण के लिए "18 मिमी लेंस") और "कम क्षेत्र की गहराई" जैसे प्रभावों का अनुकरण कर सकता है, जिसमें लेंस फ्लैश (लेंस फ्लेयर) शामिल हैं। यह दृश्य और सिनेमैटोग्राफिक शैलियों की एक विस्तृत श्रृंखला का समर्थन करता है।
  • संपादन क्षमताएं (पूर्वावलोकन/AllowList): मैं देखता हूं कि 2 अधिक परिष्कृत संपादन कार्यों का परिचय देता है, हालांकि उन्हें वर्तमान में वर्टेक्स एआई की अनुमति की सूची द्वारा पहुंच की आवश्यकता है। इनमें नकाबपोश संस्करण या inpainting शामिल हैं, परिभाषित वीडियो क्षेत्रों में अवांछित तत्वों (लोगो, विकर्षण) को खत्म करने के लिए, और आउटपैनिंग, वीडियो के फ्रेमिंग को नए क्षेत्रों को भरने के लिए उकसाने के लिए उकसाने के लिए, जो कि दिखने वाले संबंधों को बदलने के लिए उपयोगी हैं। प्रक्षेप का उल्लेख निश्चित छवियों और सामान्य संपादन क्षमताओं के बीच नरम संक्रमण बनाने के लिए भी किया गया है, जो खरोंच से शुरू किए बिना सामग्री को परिष्कृत या समीक्षा करने के लिए है।

I See 2 द्वारा भौतिकी और आंदोलन की समझ पर Google का मजबूत जोर आकस्मिक नहीं है। यह एक केंद्रीय वास्तुशिल्प फोकस प्रतीत होता है, जिसका उद्देश्य पिछले मॉडल और सोरा (टमाटर के कटिंग के उदाहरण द्वारा स्पष्ट) में पिछले मॉडल और प्रतियोगियों में देखी गई एक महत्वपूर्ण कमजोरी को सही करना है। यथार्थवाद को मुख्य मूल्य प्रस्ताव के रूप में स्थिति में करके, Google सीधे पेशेवर मामलों (फिल्म पूर्वावलोकन, विज्ञापन, प्रशिक्षण) की ओर इशारा करता है, जहां विरोधी -विरोधी आंदोलन विसर्जन और विश्वसनीयता को तोड़ता है। यह ध्यान रणनीतिक रूप से अलग करता है कि मैं बाजार में 2 देखता हूं, उन उपयोगकर्ताओं को आकर्षित करता है जो निष्ठा को प्राथमिकता देते हैं, शायद, शुद्ध गति या अधिक अमूर्त रचनात्मक स्वतंत्रता।

हालांकि, घोषित क्षमता और कई उपयोगकर्ताओं के लिए सुलभ वास्तविकता के बीच एक उल्लेखनीय अंतर है। कई मिनटों के 4K वीडियो उत्पन्न करने की प्रचारित क्षमता और 720p क्लिप और 8 सेकंड प्राप्त करने का वास्तविक अनुभव एक मार्केटिंग चुनौती बनाता है और निराशा पैदा कर सकता है। यह बताता है कि, हालांकि केंद्रीय मॉडल शक्तिशाली है, व्यापक और सस्ती पहुंच के लिए इसे चढ़ना और अनुकूलन करना काफी तकनीकी बाधा है, संभवतः उच्च कम्प्यूटेशनल लागत, अनुमानों या लंबे समय तक अवधि में निरंतरता और सुरक्षा की संभावित समस्याओं के कारण। यह विसंगति उपयोगकर्ता की धारणा को प्रभावित करती है: वे अद्भुत प्रदर्शनों को देखते हैं लेकिन एक कम सक्षम उपकरण के साथ बातचीत करते हैं, जो इसकी अंतर्निहित क्षमता के बावजूद उत्पाद की प्रतिष्ठा को नुकसान पहुंचा सकता है।

अंत में, विशिष्ट सिनेमैटोग्राफिक नियंत्रणों (लेंस, विमान के प्रकार, क्षेत्र की गहराई) पर जोर स्पष्ट रूप से पेशेवर फिल्म निर्माताओं और रचनाकारों के लिए उन्मुख है। यह दृष्टिकोण एपीआई और व्यावसायिक सहयोग के उच्चतम मूल्य निर्धारण मॉडल के साथ संरेखित है, जो पेशेवर वर्कफ़्लोज़ में टूटने के प्रारंभिक उद्देश्य का सुझाव देता है। Google पेशेवर सामग्री (विज्ञापन, फिल्म पूर्वावलोकन, विपणन) के निर्माण में एक मुख्य बाजार की पहचान करता है, जहां ये नियंत्रण एक महत्वपूर्ण मूल्य प्रदान करते हैं जो उपभोक्ता के लिए सरल मनोरंजन से परे लागत को सही ठहराता है।

से मैं 1 देखता हूं कि मैं 2 देखता हूं

सी 2 की प्रगति को पूरी तरह से समझने के लिए, अपने पूर्ववर्ती की आधार रेखा को पहले स्थापित करना उपयोगी है। मैं 1 पहले से ही उल्लेखनीय क्षमताओं की पेशकश करता हूं: वीडियो पीढ़ी 1080p तक, 60 सेकंड से अधिक की अवधि, सिनेमैटोग्राफिक शब्दों की समझ, वीडियो में वीडियो पीढ़ी, संपादन कमांड का अनुप्रयोग, अव्यक्त प्रसार द्वारा निरंतरता में सुधार, और सिंथिड जल ब्रांडों और सुरक्षा फिल्टर के कार्यान्वयन।

मैं देख रहा हूं कि 2 इस आधार पर एक महत्वपूर्ण विकास का प्रतिनिधित्व करता है, कई क्षेत्रों में महत्वपूर्ण सुधार के साथ:

  • रिज़ॉल्यूशन: सबसे स्पष्ट कूद 2 का संकल्प उद्देश्य है, जो 4K तक पहुंचता है, अधिकतम 1080p से अधिक देखें 1।
  • यथार्थवाद और निष्ठा: मैं देखता हूं कि पिछले और प्रतियोगियों के मॉडल की तुलना में कलाकृतियों के विस्तार, यथार्थवाद और कमी में "महत्वपूर्ण सुधार" का परिचय देता है। यह कम दृश्य "मतिभ्रम का उत्पादन करता है, हालांकि जैसा कि आप इस समाचार के वीडियो में जांच सकते हैं यह हमेशा नहीं होता है।
  • आंदोलन और भौतिकी: इसमें "उन्नत आंदोलन क्षमताएं" हैं और वास्तविक विश्व भौतिकी का एक बेहतर अनुकरण है, जो कि मैं 1 की स्थिरता पर ध्यान से परे जा रहा है।
  • चैंबर नियंत्रण: यह "पुराने" और अधिक सटीक कैमरा नियंत्रण विकल्प प्रदान करता है, सिनेमैटोग्राफिक शब्दों की समझ का विस्तार करता है जो मैं पहले से ही स्वामित्व में था मैं 1 देखता हूं।
  • वीडियो अवधि: अवधि की क्षमता फैली हुई है, उस मिनट से अधिक की पेशकश की जो मैं 1 देखता हूं।
  • संस्करण: अधिक परिष्कृत संपादन क्षमताओं जैसे कि inpainting और outpainting (पूर्वावलोकन में) का परिचय दें, जो 1 देखने के लिए वर्णित संस्करण कमांड से परे हैं।

निम्न तालिका सीधे I See 1 की प्रमुख क्षमताओं की तुलना करती है और मैं 2 देखता हूं:

तालिका 2: सुविधाओं की तुलना मैं देखता हूं 1 बनाम मैं 2 देखता हूं 

विशेषता

क्षमता मैं देखता हूं 1

क्षमता मैं 2 देख रहा हूँ

अधिकतम समाधान

1080p

4K तक (क्षमता)

अधिकतम अवधि

> 60 सेकंड

2 मिनट या उससे अधिक तक

भौतिकी / आंदोलन

स्थिरता पर ध्यान दें

उन्नत शारीरिक सिमुलेशन, यथार्थवादी आंदोलन

यथार्थवाद / निष्ठा

उच्च गुणवत्ता

महत्वपूर्ण, कम विरूपण साक्ष्य सुधार

सिनेमैटोग्राफिक नियंत्रण

शर्तों की समझ

ग्रेटर सटीक और विकल्प (लेंस, आदि)

संपादन कार्य

मूल संपादन आदेश

Inpainting, outpainting (पूर्वावलोकन)

 

I देखने के लिए I देखने की यह प्रगति 2 देखती है 2 Google द्वारा एक पुनरावृत्ति सुधार रणनीति दिखाती है। संकल्प, यथार्थवाद, भौतिकी और नियंत्रण में अग्रिम यादृच्छिक नहीं हैं; वे गुणवत्ता और वीडियो नियंत्रण के बुनियादी पहलुओं पर ध्यान केंद्रित करते हैं जो पेशेवर अपनाने के लिए महत्वपूर्ण हैं। यह पैटर्न एक संरचित विकास प्रक्रिया का सुझाव देता है, जो अंतर्निहित प्रौद्योगिकी को परिष्कृत करने के लिए एक लंबी प्रतिबद्धता का प्रदर्शन करता है।

सीमाएं और चुनौतियां देखें 2

अपनी प्रभावशाली क्षमताओं के बावजूद, मैं देख रहा हूं कि 2 सीमाओं और चुनौतियों से मुक्त नहीं है, दोनों एआई द्वारा वर्तमान वीडियो उत्पादन प्रौद्योगिकी के लिए निहित हैं और इसके कार्यान्वयन और तैनाती के लिए विशिष्ट हैं।

  • संकेत की जटिलता और पालन: हालांकि प्राकृतिक भाषा की समझ में स्पष्ट रूप से सुधार हुआ है, मुझे लगता है कि 2 को अभी भी बेहद जटिल या विस्तृत संकेतों के साथ कठिनाइयाँ हैं, सटीकता के साथ सभी निर्देशों का पालन करने में विफल। अच्छे परिणाम प्राप्त करने के लिए अभी भी इंजीनियरिंग इंजीनियरिंग महत्वपूर्ण है। जबकि बेंचमार्क प्रॉम्प्ट के लिए उच्च आसंजन स्कोर का संकेत देते हैं, ऐसे मामले हैं जहां मॉडल अपेक्षाओं को पूरा नहीं करता है।
  • कलाकृतियों और स्थिरता: दृश्य कलाकृतियों की पीढ़ी, हालांकि कम हो गई है, पूरी तरह से समाप्त नहीं किया गया है। सामयिक विकृति विषयों, अवैध पाठ, या "मतिभ्रम" जैसे अतिरिक्त उंगलियों या अप्रत्याशित वस्तुओं में दिखाई दे सकती है। अस्थायी स्थिरता बहुत जटिल दृश्यों में या तेजी से आंदोलनों के साथ विफल हो सकती है, और भौतिक सिमुलेशन को विशेष रूप से जटिल परिदृश्यों में तोड़ा जा सकता है। उपयोगकर्ताओं द्वारा उत्पन्न कुछ उदाहरणों को "अप्राकृतिक" या "परेशान करने वाले" के रूप में वर्णित किया गया है।
  • पीढ़ी की गति: वीडियो उत्पन्न करने के लिए आवश्यक समय काफी हो सकता है। ऐसी तुलनाएं हैं जो प्रति क्लिप के बारे में 10 मिनट का हवाला देते हैं, जो सोरा को जिम्मेदार लगभग 5 मिनट के साथ विपरीत करता है। हालांकि, कुछ एकीकरण, जैसे कि YouTube शॉर्ट्स, बहुत तेजी से काम करते हैं। एपीआई की विलंबता को आधिकारिक तौर पर "आमतौर पर कुछ मिनटों में" के रूप में वर्णित किया जाता है, लेकिन इसमें अधिक समय लग सकता है। "
  • संस्करण उपकरण: कुछ एक्सेस इंटरफेस (एपीआई, संभवतः मिथुन एडवांस्ड का प्रारंभिक संस्करण) में एकीकृत संपादन टूल की कमी उपयोगकर्ताओं को संशोधनों को करने के लिए बाहरी सॉफ्टवेयर का सहारा लेने के लिए मजबूर करती है। वर्टेक्स एआई में सबसे उन्नत संपादन कार्यों को अनुमत उपयोगकर्ताओं की सूची द्वारा पहुंच की आवश्यकता होती है। दूसरी ओर, सोरा में एकीकृत संपादन उपकरण शामिल हैं।
  • उपलब्ध नियंत्रण: विज़ के पहले उपयोगकर्ताओं में से कुछ, ने देखा कि VI 2 के संस्करण का उन्होंने परीक्षण किया था कि सोरा की तुलना में वीडियो के संकल्प या अवधि के लिए नियंत्रण का अभाव था। हालांकि, एपीआई/वर्टेक्स एआई अवधि, उपस्थिति अनुपात, नकारात्मक संकेतों और पीढ़ी के बीज को नियंत्रित करने के लिए मापदंडों की पेशकश करता है।
  • पहुंच और लागत: जैसा कि हमारे पास विस्तृत, खंडित पहुंच, प्रतीक्षा सूची, भौगोलिक प्रतिबंध और एपीआई की उच्च लागत गोद लेने के लिए महत्वपूर्ण बाधाओं का प्रतिनिधित्व करती है। फिलहाल मुक्त स्तरों पर फीस बेहद कम है, हालांकि हाल ही में उनकी लैंडिंग को अभी भी इसका मूल्यांकन करने के लिए थोड़ी देर इंतजार करना होगा।
  • सामग्री प्रतिबंध और सुरक्षा फ़िल्टर: Google द्वारा लागू सुरक्षा फ़िल्टर सख्त हैं और स्पष्ट रूप से हानिरहित संकेतों के लिए भी, अप्रत्याशित रूप से सामग्री की पीढ़ी को अवरुद्ध कर सकते हैं। लोगों की पीढ़ी के लिए विशिष्ट प्रतिबंध हैं, विशेष रूप से मामूली (AllowDult जैसे मापदंडों द्वारा नियंत्रित या API में अस्वीकृत)। उपयोगकर्ताओं ने लोगों को, या उनके बिना दृश्यों में भी वीडियो उत्पन्न करने के लिए समस्याओं की सूचना दी है। यह अत्यधिक सेंसरशिप कुछ उपयोग के मामलों के लिए उपकरण को अनुपयोगी बना सकता है।
  • क्षमता की कमी: सुलभ संस्करणों में वर्तमान में ध्वनि उत्पादन की कमी है। यथार्थवादी हाथ पैदा करने में कठिनाई अभी भी सभी एआई मॉडल में एक आम समस्या है।

ये सीमाएँ क्षमता और प्रयोज्य के बीच एक अंतर्निहित प्रतिबद्धता दिखाती हैं। यद्यपि मुझे 2 उच्चतर क्षमताओं (4K क्षमता, यथार्थवादी भौतिकी), गति प्रतिबंध, सुलभ नियंत्रण (कुछ संस्करणों में), एकीकृत संपादन और सख्त सामग्री फ़िल्टर की कमी से व्यावहारिक प्रयोज्यता पर काफी प्रभाव पड़ता है। प्रतियोगियों की तुलना में जो तेजी से, अधिक एकीकृत या कम प्रतिबंधात्मक (जैसे सोरा या रनवे) हो सकते हैं, 2 उपयोगकर्ताओं को देखकर अधिक बोझिल या सीमित उपयोगकर्ता अनुभव की लागत पर एक उच्च संभावित गुणवत्ता प्राप्त हो सकती है। यह अपनाने को प्रभावित कर सकता है, विशेष रूप से पुनरावृत्त या संवेदनशील वर्कफ़्लो के लिए।

इसके अलावा, अत्यधिक आक्रामक सामग्री फ़िल्टर पर रिपोर्ट जो हानिरहित संकेतों को अवरुद्ध करती है, वह Google द्वारा ब्रांड के लिए सुरक्षा और जोखिम शमन की प्राथमिकता में संभव ओवररिएक्शन का सुझाव देती है। यह सावधानी अन्य एआई मॉडल (जैसे कि मिथुन छवियों) के साथ पिछले विवादों से ली जा सकती है। जबकि सुरक्षा आवश्यक है, बहुत सख्त फ़िल्टर कई सामान्य उपयोग के मामलों के लिए उपकरण का उपयोग कर सकते हैं (उदाहरण के लिए, परिवार की तस्वीरों को प्रोत्साहित करें), जो जोखिम के लाभ से प्रेरित एक महत्वपूर्ण सीमा पैदा करता है।

अंत में, क्षमता अंतराल (720p/8s बनाम 4K/मिनट), प्रयोज्य समस्याओं (गति, चर नियंत्रण) और एक्सेस बाधाओं का संयोजन "प्रदर्शन बनाम वास्तविकता" की समस्या को बढ़ाता है। औसत उपयोगकर्ता अनुभव Google द्वारा प्रस्तुत पॉलिश प्रदर्शनों से दूर हो सकता है, जो कि उम्मीदों को ध्यान से प्रबंधित नहीं किया जाता है, तो विश्वसनीयता को नुकसान पहुंचा सकता है। उपयोगकर्ता द्वारा अनुभव किए गए वादे और वास्तविकता के बीच यह महत्वपूर्ण अंतर निराशा और एक नकारात्मक धारणा का कारण बन सकता है, तकनीकी उपलब्धि के बावजूद जो मैं 2 देखता हूं।

मैं 2 बनाम सोरा और अन्य देखता हूं

बाजार में सी 2 की स्थिति काफी हद तक इसकी मुख्य प्रतिद्वंद्वी, सोरा डे ओपनई, साथ ही रनवे के साथ इसकी तुलना द्वारा परिभाषित की गई है।

प्रत्यक्ष तुलना (मैं 2 बनाम सोरा देखता हूं):

  • गुणवत्ता/यथार्थवाद: कई प्रारंभिक स्रोत और उपयोगकर्ता मुझे यथार्थवाद, शारीरिक सिमुलेशन और दृश्य विवरण के संदर्भ में 2 को बेहतर देखते हैं। दूसरी ओर, सोरा कभी -कभी ठीक विवरण (जैसे हाथों) और भौतिकी के साथ कठिनाइयों को दर्शाता है। कुछ विश्लेषण बताते हैं कि सोरा अधिक "कलात्मक" या रचनात्मक रूप से लचीला हो सकता है।
  • रिज़ॉल्यूशन: मुझे लगता है कि 2 में 4K तक की क्षमता है, जबकि सोरा 1080p तक सीमित है।
  • अवधि: देखें 2 (1-2 मिनट से अधिक) की क्षमता सोरा (20 या 60 सेकंड) के लिए उद्धृत अवधि से अधिक है। हालांकि, I See 2 की वर्तमान पहुंच आमतौर पर छोटी (8 सेकंड) है।
  • गति: मैं 2 (लगभग 10 मिनट) देखता हूं, आमतौर पर सोरा (लगभग 5 मिनट) की तुलना में धीमा होता है। "सोरा टर्बो" के अस्तित्व को नोटिस करना महत्वपूर्ण है, संभवतः तेज और अधिक किफायती संस्करण, लेकिन सोरा के मूल डेमो की तुलना में कम गुणवत्ता के संभावित।
  • नियंत्रण: मुझे लगता है कि 2 को इसके सिनेमैटोग्राफिक नियंत्रणों द्वारा प्रशंसा की जाती है, जबकि सोरा अपने लचीलेपन और स्टोरीबोर्डिंग जैसे कार्यों के लिए बाहर खड़ा है। हालांकि, MKBHD ने पाया कि उनके दृश्य 2 परीक्षण संस्करण में सोरा की तुलना में कम नियंत्रण था।
  • संस्करण: मुझे लगता है कि 2 का अभाव एकीकृत संपादन है (अनुमति के साथ वर्टेक्स एआई को छोड़कर); सोरा बिल्ट -इन टूल (रीमिक्स, लूप, ब्लेंड) प्रदान करता है।
  • एक्सेस/प्राइस: I देखने के लिए पहुँच 2 खंडित है और API की लागत अधिक है; सोरा सस्ती सदस्यता के माध्यम से सुलभ है। वर्तमान में, सोरा आम जनता के लिए अधिक सुलभ है।

बेंचमार्किंग और अन्य प्रतियोगी:

बेंचमार्क मूवीजेनबेंच के परिणाम, जहां मानव मूल्यांकनकर्ताओं ने 1000 से अधिक संकेतों से उत्पन्न वीडियो का वर्णन किया है, ने दिखाया कि मैं 2 सामान्य वरीयता में और प्रॉम्प्ट के पालन में सोरा टर्बो, क्लिंग और मूवीजेन को पार करता हूं (चर अवधि के साथ 720p पर मूल्यांकन)। हालांकि, इन बेंचमार्क की सीमाओं को पहचानना महत्वपूर्ण है, जो चयनित परिणामों ("चेरी-पिकेड") का उपयोग कर सकते हैं या विशिष्ट डेटा सेट पर आधारित हैं।

प्रतिस्पर्धी पैनोरमा में रनवे (जीन -3 अल्फा/जेन -4 के साथ), क्लिंग, AWS नोवा रील, हैलुओ, मिनिमैक्स और संभावित मूवीजेन गोल भी शामिल हैं। कुछ उपयोगकर्ता भी सोरा के वर्तमान संस्करण के बारे में रनवे या हैलुओ के लिए वरीयता व्यक्त करते हैं, जिसमें उनके पास पहुंच है।

निम्न तालिका अपने मुख्य प्रतिद्वंद्वियों के सामने Ver 2 का एक तुलनात्मक स्नैपशॉट प्रदान करती है:

तालिका 3: एआई द्वारा वीडियो जनरेटर का तुलनात्मक स्नैपशॉट

विशेषता

Google मैं 2 देखता हूं

ओपनई सोरा

रनवे (जनरल -3/4)

मुख्य शक्ति

यथार्थवाद, भौतिकी, कीनेमेटिक नियंत्रण [कई]

गति, रचनात्मक लचीलापन, संस्करण

ठीक नियंत्रण, विशिष्ट मोड (निहित)

अधिकतम।

4K (संभावित)

1080p

चर (720p-1080p+ योजना/संस्करण के अनुसार)

अधिकतम।

2 मिनट+ (क्षमता)

20s / 60s

~ 15s (Gen-2), जीन -3/4 (चर) में लंबे समय तक

रफ़्तार

धीमी (~ 10 मिनट)

तेजी से (~ 5 मिनट)

फास्ट (जीन -4 वास्तविक समय?)

संस्करण उपकरण

सीमित / बाहरी (एपीआई)

एकीकृत (रीमिक्स, लूप, आदि)

एकीकृत (निहित)

अभिगम मॉडल

खंडित (एपीआई, सबस, लैब्स) [कई]

चटपट सदस्यता

सदस्यता / क्रेडिट

मूल्य मॉडल

एपीआई: $/सेकंड; उप: $ 20/महीना

उप: $ 20/$ 200 महीने

वार्षिक योजनाएं ($ 144- $ 1500)

 

यह तुलना प्रत्येक उपकरण की ताकत के आधार पर एक संभावित बाजार विभाजन का सुझाव देती है। मुझे लगता है कि 2 उच्च निष्ठा के पेशेवर उपयोग पर जाता है जो सिनेमैटोग्राफिक गुणवत्ता और शारीरिक परिशुद्धता [कई स्निपेट] को महत्व देता है। सोरा सामाजिक नेटवर्क और रचनात्मक प्रयोग के लिए सामग्री रचनाकारों के व्यापक दर्शकों को आकर्षित कर सकता है, उनकी गति, लचीलापन और एकीकृत संपादन के लिए धन्यवाद। रनवे, अपने पुनरावृत्त दृष्टिकोण और संभवतः विशिष्ट विशेषताओं के साथ, दृश्य कलाकारों और वीएफएक्स पेशेवरों के बीच अपने आला को पा सकता है। बाजार अखंड नहीं लगता है; विभिन्न उपकरणों को सह -अस्तित्व की संभावना है, उनकी केंद्रीय क्षमताओं के अनुसार अलग -अलग खंडों की सेवा करना।

इन तुलनाओं का मूल्यांकन करते समय "जारी संस्करण" चेतावनी को लागू करना महत्वपूर्ण है। अक्सर, एक मॉडल का सार्वजनिक संस्करण विपरीत होता है (जैसे "सोरा टर्बो", जो कुछ उपयोगकर्ताओं के अनुसार प्रारंभिक डेमो की तुलना में कम है) सावधानीपूर्वक चयनित डेमो या दूसरे के सीमित पहुंच संस्करणों के साथ (मैं 2 देखता हूं)। इससे निश्चित निर्णय स्थापित करना मुश्किल हो जाता है। "सर्वश्रेष्ठ" मॉडल काफी हद तक निर्भर कर सकता है कि किस विशिष्ट संस्करण का मूल्यांकन किया जा रहा है और किन परिस्थितियों में, श्रेष्ठता एक मोबाइल लक्ष्य बनाती है।

अंत में, Google डेटा के लाभ के बारे में एक आवर्ती परिकल्पना है। कई स्रोत अनुमान लगाते हैं कि YouTube डेटा के लिए Google की प्रत्यक्ष और बड़े पैमाने पर पहुंच आपको यथार्थवादी आंदोलनों को प्राप्त करने और विभिन्न परिदृश्यों को समझने के लिए VI 2 के प्रशिक्षण में एक महत्वपूर्ण लाभ देती है, प्रतियोगियों की तुलना में डेटा स्क्रैपिंग का सहारा लेने की आवश्यकता हो सकती है। हालांकि यह आधिकारिक तौर पर पुष्टि नहीं की जाती है, वीडियो डेटा के एक सेट तक यह पहुंच इतनी बड़ी और संभावित रूप से लेबलिंग एक लंबे समय तक महत्वपूर्ण प्रतिस्पर्धी गड्ढे हो सकती है, संभवतः यथार्थवाद में देखने के 2 के कथित लाभ की व्याख्या करना और दूसरों द्वारा कानूनी रूप से और प्रभावी रूप से दोहराने के लिए मुश्किल है।

2 में सुरक्षा और नैतिकता

Google ने I See 2 के विकास और तैनाती में जिम्मेदार के सिद्धांतों के लिए अपनी प्रतिबद्धता पर जोर दिया है। कंपनी ने दावा किया है कि "लाल टीमिंग" के व्यापक परीक्षण किए गए हैं और अपनी नीतियों का उल्लंघन करने वाली सामग्री की पीढ़ी को रोकने के लिए मूल्यांकन किया है। दो मुख्य तकनीकी तंत्र इस दृष्टिकोण का समर्थन करते हैं:

  • सिंथिड वाटर ब्रांड: यह तकनीक एक प्रमुख सुरक्षा सुविधा है जिसे IVO 2 और अन्य Google जनरेटिव मॉडल में लागू किया गया है। यह एक अदृश्य डिजिटल वाटर ब्रांड है, जो सीधे पीढ़ी के दौरान वीडियो फोटोग्राम पिक्सेल में एम्बेडेड है। यह तब भी लगातार बनाया गया है, भले ही वीडियो को संपादित किया जाए (कट, फिल्टर, संपीड़ित) और बोधगम्य दृश्य गुणवत्ता को प्रभावित नहीं करता है। इसका उद्देश्य विशेष रूप से पता लगाने के उपकरणों के माध्यम से एआई द्वारा उत्पन्न सामग्री की पहचान की अनुमति देना है, इस प्रकार गलत सूचना और गलत व्यवहार का मुकाबला करने में मदद करता है।
  • सुरक्षा फ़िल्टर: मैं देख रहा हूं कि 2 हानिकारक सामग्री के निर्माण को रोकने के लिए डिज़ाइन किए गए फ़िल्टर शामिल हैं। एपीआई में लोगों की पीढ़ी को नियंत्रित करने के लिए विशिष्ट पैरामीटर शामिल हैं, जैसे कि Allow_adult (केवल वयस्कों, डिफ़ॉल्ट मान की अनुमति दें) या अस्वीकृत (लोगों को अनुमति नहीं)। हालांकि, जैसा कि ऊपर उल्लेख किया गया है, उन उपयोगकर्ताओं की रिपोर्टें हैं जो इंगित करते हैं कि ये फ़िल्टर अत्यधिक प्रतिबंधात्मक हो सकते हैं।

इन तकनीकी उपायों से परे, I See 2 की तैनाती कई प्रमुख चिंताओं के साथ एक व्यापक नैतिक पैनोरमा का हिस्सा है:

  • दीपफेक और गलत सूचना: यथार्थवादी वीडियो उत्पन्न करने की क्षमता झूठी जानकारी को प्रसारित करने या दुर्भावनापूर्ण आपूर्ति करने के लिए डीपफेक को समझाने के अंतर्निहित जोखिम को बढ़ाती है। सिंथिड इस जोखिम के खिलाफ Google की मुख्य तकनीकी रक्षा है।
  • बौद्धिक संपदा और कॉपीराइट: एआई द्वारा उत्पन्न सामग्री की संपत्ति एक कानूनी रूप से ग्रे क्षेत्र बनी हुई है। इसके अलावा, इन मॉडलों को प्रशिक्षित करने के लिए उपयोग किए जाने वाले डेटा के बारे में चिंताएं उत्पन्न होती हैं, जैसे कि इस उद्देश्य के लिए स्पष्ट सहमति के बिना YouTube वीडियो का संभावित उपयोग।
  • BIASES: बड़े डेटा सेट के साथ प्रशिक्षित किसी भी मॉडल के साथ, एक जोखिम है कि मैं अपने परिणामों में मौजूदा सामाजिक पूर्वाग्रहों को 2 perpetuate या बढ़ाता हूं, हालांकि Google इसे कम करने के लिए उपाय करने का दावा करता है।
  • श्रम विस्थापन: इन उपकरणों की बढ़ती क्षमता फिल्म भूमिकाओं, एनीमेशन, विपणन और डिजाइन के संभावित विस्थापन के साथ रचनात्मक उद्योगों पर उनके प्रभाव के बारे में चिंता पैदा करती है। एक अध्ययन का हवाला देते हुए 2026 के लिए अमेरिका में नौकरियों पर एक महत्वपूर्ण प्रभाव का अनुमान लगाया गया है।

Google द्वारा अपने जनरेटिव मॉडल में सिंथिड की प्रमुख तैनाती गलत सूचना के जोखिमों को संबोधित करने के लिए एक सक्रिय तकनीकी दृष्टिकोण का प्रतिनिधित्व करती है। पीढ़ी के दौरान पानी के निशान को घेरना एक एकीकृत निवारक उपाय है, जो पोस्ट-हॉक का पता लगाने के विपरीत है। इससे पता चलता है कि Google एक जिम्मेदार तैनाती के लिए वॉटरमार्किंग को मौलिक मानता है। हालांकि, इस रणनीति की सफलता जल ब्रांडों की वास्तविक मजबूती और विश्वसनीय पहचान उपकरणों के सामान्यीकृत अपनाने पर निर्भर करती है। यह एक जटिल सामाजिक-तकनीकी समस्या के लिए एक तकनीकी समाधान है।

मजबूत सुरक्षा फिल्टर को लागू करने और उपयोगकर्ता के लिए उपयोगिता को बनाए रखने के बीच तनाव, शिकायतों से स्पष्ट, एआई डेवलपर्स के लिए एक मौलिक दुविधा को रेखांकित करता है: सुरक्षा बनाम उपयोगिता। अत्यधिक सख्त फ़िल्टर एक उपकरण का उपयोग कर सकते हैं, जबकि LAX फिल्टर जोखिम बढ़ाते हैं। सही संतुलन खोजना एक निरंतर चुनौती है, जिसमें उपयोगकर्ता और सामाजिक प्रभाव को अपनाने के लिए महत्वपूर्ण निहितार्थ हैं। Google का वर्तमान अंशांकन सावधानी की ओर झुकता है, जो इसकी प्रतिस्पर्धा को प्रभावित कर सकता है यदि उपयोगकर्ता अपनी आवश्यकताओं के लिए उपकरण को बहुत अधिक प्रतिबंधात्मक पाते हैं।

अंत में, सिंथिड और कॉन्फ़िगर करने योग्य सुरक्षा मापदंडों (हालांकि अपूर्ण) जैसी विशेषताएं उत्पाद के स्वयं के डिजाइन में नैतिक विचारों को एम्बेड करने के लिए Google के प्रयास का प्रतिनिधित्व करती हैं। यह तकनीकी कार्यान्वयन तक पहुंचने के लिए नीतिगत बयानों से परे है। जबकि निष्पादन में विफलताएं (बहुत सख्त फिल्टर) हो सकती हैं, उपकरण की वास्तुकला में सुरक्षा को एकीकृत करने का दृष्टिकोण एआई के जिम्मेदार विकास पर एक विशिष्ट स्थिति को दर्शाता है, जो प्रौद्योगिकी के माध्यम से नैतिक उपयोग को लागू करने की मांग करता है।

प्रभाव और भविष्य के प्रक्षेपवक्र 2 का प्रक्षेपवक्र

VI 2 के लॉन्च और विकास के महत्वपूर्ण निहितार्थ हैं जो उनके तकनीकी विशिष्टताओं से परे हैं, संभावित रूप से कई उद्योगों को प्रभावित करते हैं और रचनात्मक प्रक्रियाओं को फिर से परिभाषित करते हैं।

रचनात्मक उद्योगों पर प्रभाव:

मैं देख रहा हूं कि 2 में कई क्षेत्रों में वर्कफ़्लोज़ में क्रांति लाने की क्षमता है:

  • सिनेमा: यह पूर्वावलोकन और अवधारणाओं के परीक्षण में तेजी ला सकता है, पृष्ठभूमि की संपत्ति उत्पन्न कर सकता है, और यहां तक कि पूर्ण लघु फिल्मों का उत्पादन कर सकता है। डोनाल्ड ग्लोवर और उनके अध्ययन जैसे फिल्म निर्माताओं के साथ सहयोग इस दृष्टिकोण को रेखांकित करता है।
  • विपणन और विज्ञापन: यह विज्ञापनों की तेजी से प्रोटोट्टी, स्केल पर कस्टम विज्ञापन सामग्री की पीढ़ी और उत्पाद प्रदर्शनों के निर्माण की अनुमति देता है। मोंडेलेज़, WPP, AGODA, ALPHAWAVE और TRAKTO जैसी कंपनियां पहले से ही इसकी खोज कर रही हैं। उत्पादन समय की भारी कमी (क्राफ्ट हेंज कंपनी के अनुसार, हफ्तों से घंटों तक) और स्टॉक फुटेज पर कम निर्भरता।
  • वीडियोगेम: इसका उपयोग सिनेमैटिक्स या यथार्थवादी प्रचार सामग्री उत्पन्न करने के लिए किया जा सकता है।
  • शिक्षा और प्रशिक्षण: जटिल अवधारणाओं को समझाने या प्रक्रियाओं को अनुकरण करने के लिए चित्रण वीडियो के निर्माण की सुविधा प्रदान करता है (जैसे, चिकित्सा प्रशिक्षण)।
  • सोशल नेटवर्क: YouTube शॉर्ट्स के साथ एकीकरण और छोटी और आकर्षक क्लिप उत्पन्न करने की क्षमता इसे Tiktok जैसे प्लेटफार्मों पर सामग्री रचनाकारों के लिए एक शक्तिशाली उपकरण बनाती है।

डेमोक्रेटाइजेशन बनाम विघटन:

मुझे लगता है कि 2 एक द्वंद्व का प्रतीक हैं: एक तरफ, यह उच्च गुणवत्ता वाले वीडियो के उत्पादन का लोकतंत्रीकरण करता है, जिससे यह छोटी कंपनियों और व्यक्तिगत रचनाकारों के लिए सुलभ हो जाता है, जिनके पास पहले आवश्यक संसाधनों या तकनीकी कौशल की कमी थी। दूसरी ओर, रचनात्मक उद्योगों में पारंपरिक भूमिकाओं को बाधित करने की धमकी देता है और कम गुणवत्ता वाली सामग्री या "एआई ढलान" के स्वचालित रूप से उत्पन्न होने के बारे में चिंताओं को खिलाता है।

भविष्य का विकास:

उपयोगकर्ताओं को उम्मीद है कि मैं 2 अंत में बाद के संस्करणों में कई सुधारों को देखता हूं जैसे: जैसे:

  • क्षमता विस्तार: निरंतर गुणवत्ता में सुधार, 4K क्षमताओं की व्यापक तैनाती और लंबे समय तक, और संभवतः ध्वनि उत्पादन के अलावा।
  • पारिस्थितिक तंत्र एकीकरण: अन्य Google उत्पादों जैसे कि वर्टेक्स एआई, यूट्यूब, और संभावित रूप से मिथुन खोज और पारिस्थितिकी तंत्र के साथ अधिक एकीकरण। मिथुन के साथ संयोजन को भौतिक दुनिया की समझ को बेहतर बनाने के लिए विचार किया जाता है।
  • फास्ट इवोल्यूशन: आने वाले वर्षों में अपेक्षित विकास के साथ, विकास दर में तेजी लाई जाएगी, क्षेत्र में गहन प्रतिस्पर्धा द्वारा बढ़ावा दिया जाएगा।

विश्लेषण से पता चलता है कि मैं 2 देखता हूं जैसे उपकरण रचनात्मक कार्य को समाप्त नहीं करते हैं, लेकिन अड़चन को स्थानांतरित करते हैं। मुख्य कठिनाई अब तकनीकी निष्पादन (फिल्मांकन, संस्करण, दृश्य प्रभाव) में नहीं रहती है, लेकिन आइडिएशन पर, इंजीनियरिंग और उत्पन्न सामग्री के संस्करण को प्रेरित करती है। सफलता रचनात्मक दृष्टि और एआई के साथ प्रभावी ढंग से संवाद करने की क्षमता पर अधिक से अधिक निर्भर करेगी। रचनात्मक दिशा और सटीक और विकसित संकेत देने की क्षमता महत्वपूर्ण कौशल बन जाती है।

एक पूर्ण प्रतिस्थापन के बजाय, सबसे संभावित लघु -प्रभाव प्रभाव पेशेवर भूमिकाओं का उद्भव है "एआई द्वारा बढ़ाया"। सिनेमा, विपणन, डिजाइन, आदि में पेशेवर, उपकरण का उपयोग करेंगे जैसे कि मैं उनकी उत्पादकता में सुधार करने, पुनरावृत्ति में तेजी लाने और नई रचनात्मक संभावनाओं का पता लगाने के लिए 2 देखता हूं। इसके लिए अनुकूलन और इन उपकरणों के प्रभावी उपयोग पर केंद्रित नए कौशल के विकास की आवश्यकता होगी, कई मामलों में उन्हें पूरी तरह से समाप्त करने के बजाय मौजूदा भूमिकाओं को बदलना होगा।

अंत में, Google पारिस्थितिकी तंत्र (मिथुन, वर्टेक्स एआई, यूट्यूब, लैब्स) में वेर 2 का एकीकरण एक स्पष्ट रणनीतिक नाटक है। यह तालमेल बनाने का प्रयास करता है (संकेत उत्पन्न करने के लिए मिथुन का उपयोग करें, I2V इनपुट के लिए छवि, प्रशिक्षण के लिए YouTube डेटा) और अपने प्लेटफार्मों के भीतर उपयोगकर्ता स्थायित्व को बढ़ावा दें। यह समग्र दृष्टिकोण स्वतंत्र उपकरणों पर एक प्रतिस्पर्धात्मक लाभ प्रदान कर सकता है, जिससे Google का प्रस्ताव पहले से ही अपने पारिस्थितिकी तंत्र के अनुकूल उपयोगकर्ताओं के लिए इसके भागों के सरल योग की तुलना में अधिक आकर्षक है।

दृश्य 2 द्वारा उत्पन्न वीडियो

यहां हम आपको I See 2 द्वारा उत्पन्न कई वीडियो छोड़ते हैं। जैसा कि आप देखेंगे कि मैं 2 को असंभव तत्वों को उत्पन्न करने के लिए देखता हूं, सबसे नीचे हम उपयोग किए गए प्रॉम को इंगित करते हैं।

चोंच के साथ एक खिड़की के एक गिलास को मारकर एक पैराकेट का वीडियो, मैं 2 देखता हूं

 

एक यात्री हवाई जहाज का वीडियो फ्यूज़ेल पर एक व्यक्ति के साथ बादलों के बीच उड़ान भरता है, देखें 2 द्वारा उत्पन्न

 

डिज्नी मूवी प्रकार एक खरगोश का प्रकार एक पुस्तक पढ़ रहा है, जिसे दृश्य 2 द्वारा उत्पन्न किया गया है

 


ब्रह्मांड

कम्प्यूटिंग

अर्थव्यवस्था

क्रिप्टोकरेंसी

सामान्य

प्रकृति