Headlines

Google I/O: यूनिवर्सल एआई सहायक, मिथुन डीप रिसर्च और वीओ 3, इमेजेन 4 मॉडल

Google I/O: यूनिवर्सल एआई सहायक, मिथुन डीप रिसर्च और वीओ 3, इमेजेन 4 मॉडल

माउंटेन व्यू, कैलिफोर्निया: यदि आप कभी भी आर्टिफिशियल इंटेलिजेंस (एआई) ने एक छोटी सी खिड़की में क्या हासिल किया है, इसका एक कुरकुरा सारांश चाहते हैं, तो सुंदर पिचाई, मुख्य कार्यकारी अधिकारी, Google और अल्फाबेट ने इसे स्पष्ट रूप से रखा। “अधिक बुद्धि उपलब्ध है, सभी के लिए, हर जगह। और दुनिया जवाब दे रही है, एआई को पहले से कहीं ज्यादा तेजी से अपना रही है … यह सब प्रगति का मतलब है कि हम एआई प्लेटफॉर्म शिफ्ट के एक नए चरण में हैं। जहां दशकों के शोध अब दुनिया भर में लोगों, व्यवसायों और समुदायों के लिए एक वास्तविकता बन रहे हैं,” उन्होंने कहा।

मिथुन 2.5 प्रो मॉडल में आने वाले सुधार, डीप थिंक मोड के साथ नई तर्क क्षमताएं जोड़ें।

दुनिया में बहुत कम निश्चितताएं हैं। रात के बाद दिन है। और Google का वार्षिक I/O डेवलपर सम्मेलन है, जो कंपनी के एप्लिकेशन और सेवाओं के व्यापक पोर्टफोलियो के लिए गेंद रोलिंग सेट करता है। Google मिथुन 2.5 मॉडल, नए जेनरेटिव एआई मॉडल वीओ 3 और इमेजेन 4, एआई फिल्ममेकिंग टूल फ्लो, मिथुन की लगातार व्यक्तिगत पिच में महत्वपूर्ण उन्नयन ला रहा है, एआई सर्च में अधिक प्रासंगिकता पाता है, यदि आप Google की एआई सेवाओं के लिए अधिक भुगतान करने के लिए तैयार हैं, और फिर एक सार्वभौमिक एआई सहायक के निर्माण के लिए दृष्टि है, जो कि कई लोगों के लिए सही है, जो कि कई लोगों के लिए है।

HT ने इस साल Android के लिए पहले से ही बड़े बदलाव किए थे, I/O कीनोट से पहले दिन पहले, स्पैमर्स और स्कैमर्स से लड़ने के लिए व्यापक उपायों के साथ। थोड़ा आश्चर्य की बात है, फिर, यह ध्यान एआई वार्तालाप के लिए सही तरीके से बदल जाता है।

एक सार्वभौमिक एआई एजेंट के रूप में मिथुन

Google, निश्चित रूप से, इस बातचीत में अकेले नहीं है। एआई एजेंट एक सतत थीम बने हुए हैं, कुछ ओपनईएआई, आईबीएम, एंथ्रोपिक और माइक्रोसॉफ्ट, हाल ही में, के लिए भी एक मामला बनाया है। कुछ उन्हें “एआई एजेंट” या “एजेंटिक एआई” कहते हैं, Google इसे एक सार्वभौमिक एआई एजेंट कहता है। इसकी कुंजी एआई की विश्व ज्ञान, तर्क और प्राकृतिक वातावरण का अनुकरण करने की क्षमता होगी, जैसे कि एक मानव मस्तिष्क करेगा।

“मिथुन के लिए हमारे हालिया अपडेट एक सार्वभौमिक एआई सहायक के लिए हमारी दृष्टि को अनलॉक करने की दिशा में महत्वपूर्ण कदम हैं, एक जो आपके रोजमर्रा के जीवन में सहायक है, यह बुद्धिमान है और आप जिस संदर्भ में हैं, उसे समझता है, और यह किसी भी डिवाइस में आपकी ओर से कार्रवाई कर सकता है।

हसबिस ने इसे एक “एआई जो बुद्धिमान है, के रूप में समझाया, समझता है

आप संदर्भ में हैं, और यह किसी भी डिवाइस पर, अपनी ओर से कार्रवाई कर सकता है और कार्रवाई कर सकता है। ” मिथुन मॉडल नींव प्रदान करेंगे।

यह प्रोजेक्ट मेरिनर की एक परिणति होगी, जो “ब्राउज़रों से शुरू होने वाले मानव-एजेंट इंटरैक्शन के भविष्य की पड़ताल करता है”, साथ ही प्रोजेक्ट एस्ट्रा, वीडियो समझ, स्क्रीन शेयरिंग और मेमोरी के लिए। दृष्टि में अब एजेंटों की एक प्रणाली शामिल है जो एक समय में दस अलग -अलग कार्यों को पूरा कर सकती है। इन कार्यों में जानकारी देखना, बुकिंग करना, चीजें खरीदना, और किसी विषय पर शोध करना, सभी समानांतर में शामिल हो सकते हैं।

Microsoft, इस सप्ताह बिल्ड में, Windows में एक देशी मॉडल संदर्भ प्रोटोकॉल (MCP) और AI एजेंटों के भविष्य के लिए नींव के रूप में Windows AI फाउंड्री के लॉन्च को विस्तृत किया।

एंथ्रोपिक ने पिछले साल एमसीपी को एक ओपन-सोर्स स्टैंडर्ड पेश किया था। इसे “AI का USB-C पोर्ट” भी कहा जाता है। सादगी और व्यापक-प्रसार समर्थन महत्वपूर्ण है, क्योंकि ऐप डेवलपर्स अपने ऐप या एजेंटों को अन्य ऐप और सेवाओं से बात करने में सक्षम बनाने के लिए MCP का उपयोग कर सकते हैं।

“हमने ओपन-सोर्स टूल्स के साथ आसान एकीकरण के लिए मिथुन एपीआई में मॉडल संदर्भ प्रोटोकॉल (एमसीपी) परिभाषाओं के लिए देशी एसडीके समर्थन जोड़ा। हम एमसीपी सर्वर और अन्य होस्ट किए गए टूल को तैनात करने के तरीके भी खोज रहे हैं, जिससे आपके लिए एजेंटिक एप्लिकेशन बनाना आसान हो जाता है,” टुल्सी डोशी, सीनियर डायरेक्टर, प्रोडक्ट मैनेजमेंट टुल्सी ने कहा।

मॉडल अपडेट, दीर्घकालिक दृष्टि के साथ

Google मिथुन 2.5 फ्लैश और मिथुन 2.5 प्रो मॉडल के लिए महत्वपूर्ण अपग्रेड कर रहा है। मिथुन 2.5 प्रो मॉडल में आने वाले सुधार, डीप थिंक मोड के साथ नई तर्क क्षमताएं जोड़ें। जटिल गणित और कोडिंग कार्यों पर इसका विशिष्ट ध्यान, मिथुन के मार्च के लिए ‘एजेंटिक एआई’ विजन की ओर प्रासंगिक होगा।

लाइटर मिथुन 2.5 फ्लैश में बेहतर तर्क, मल्टीमॉडलिटी, कोड और लंबे संदर्भ को प्राप्त होता है। अभी के लिए, अद्यतन 2.5 फ्लैश डेवलपर्स के लिए Google एआई स्टूडियो में ‘प्रयोगात्मक’ के रूप में उपलब्ध है, उद्यमों के लिए वर्टेक्स एआई में, और सभी के लिए मिथुन ऐप में – इसकी अंतिम रिलीज जून की शुरुआत में है।

“क्योंकि हम 2.5 प्रो डीपथिंक के साथ फ्रंटियर को परिभाषित कर रहे हैं, हम अधिक फ्रंटियर सुरक्षा मूल्यांकन करने के लिए अतिरिक्त समय ले रहे हैं और सुरक्षा विशेषज्ञों से आगे इनपुट प्राप्त कर रहे हैं। इसके हिस्से के रूप में, हम इसे व्यापक रूप से उपलब्ध करने से पहले अपनी प्रतिक्रिया प्राप्त करने के लिए मिथुन एपीआई के माध्यम से विश्वसनीय परीक्षकों के लिए उपलब्ध कराने जा रहे हैं,” कोर कावुककोग्लु, मुख्य प्रौद्योगिकी अधिकारी कोर कावुकुगोग्लू ने समझाया।

नई रचनात्मक जनरेटिव एआई मोड

Google के नवीनतम जेनेरिक मीडिया मॉडल अब आ रहे हैं। वीडियो जेनरेशन मॉडल वीओ 3 और इमेज जेनरेशन मॉडल इमेजेन 4, नई क्षमताएं पाते हैं। पिछली पीढ़ी के VEO 2 मॉडल के लिए नए अपडेट के साथ, जिसमें कैमरा कंट्रोल शामिल है, जैसे कि वीडियो पीढ़ी के तत्वों जैसे कैमरा मूवमेंट या ज़ूम, साथ ही वीडियो पीढ़ी के लिए दृश्यों, वर्णों और वस्तुओं की छवियों से बेहतर संदर्भ।

“हम लिरिया 2 तक पहुंच का विस्तार भी कर रहे हैं, संगीतकारों को संगीत बनाने के लिए अधिक उपकरण दे रहे हैं। अंत में, हम दृश्य कहानीकारों को प्रवाह की कोशिश करने के लिए आमंत्रित कर रहे हैं, हमारे नए एआई फिल्म निर्माण उपकरण। Google डीपमाइंड के सबसे उन्नत मॉडल का उपयोग करते हुए, फ्लो आपको अपनी कहानी के लिए अधिक परिष्कृत नियंत्रण के साथ सिनेमाई फिल्मों को बुनने देता है।

वीओ 3 अब ऑडियो के साथ वीडियो उत्पन्न कर सकता है, जैसे कि सिटी स्ट्रीट के दृश्य की पृष्ठभूमि में ट्रैफ़िक शोर, या यहां तक ​​कि पात्रों के बीच एक संवाद, साथ ही वास्तविक दुनिया के भौतिकी की बेहतर प्रतिकृति, लिप-सिंकिंग और संकेतों की बेहतर समझ।

इस बीच, इमेजेन 4, बेहतर विवरणों को फिर से बनाने के वादे के साथ आता है।

“इमेजेन 4 में जटिल कपड़े, पानी की बूंदें, और पशु फर, और दोनों फोटोरिअलिस्टिक और अमूर्त शैलियों में उत्कृष्ट विवरणों में उल्लेखनीय स्पष्टता है। इमेजेन 4 पहलू अनुपात की एक सीमा में छवियां बना सकता है और 2K रिज़ॉल्यूशन तक – प्रिंटिंग या प्रस्तुतियों के लिए भी बेहतर है। यह भी वर्तनी और टाइपोग्राफी में बेहतर है, जो कि अपने स्वयं के अभिवादन कार्ड बनाने के लिए आसान है।

इमेजेन 4 अब मिथुन ऐप, व्हिस्क, वर्टेक्स एआई और स्लाइड्स, vids, डॉक्स इन वर्कस्पेस में उपलब्ध है। वीओ 3 की उपलब्धता, अब के लिए, यूएस में अल्ट्रा सब्सक्राइबर्स और प्रवाह में मिथुन ऐप में सीमित है।

Source link

Leave a Reply