मिथुन लाइव
मिथुन लाइव, जो उपयोगकर्ताओं को बातचीत के दौरान अपने कैमरा फ़ीड या स्क्रीन को साझा करने देता है, अब मुफ्त में उपलब्ध है। यह फीचर उपयोगकर्ताओं को यह दिखाने में मदद करने के लिए डिज़ाइन किया गया है कि प्रश्नों को टाइप करने के बजाय उनका क्या मतलब है। Google के अनुसार, मिथुन लाइव का उपयोग करने वाली बातचीत केवल पाठ-चैट की तुलना में अधिक होती है, जिसे कंपनी अधिक इंटरैक्टिव प्रारूप के लिए प्रेरित करती है।
Google ने आने वाले हफ्तों में उपकरण को अपने व्यापक पारिस्थितिकी तंत्र में अधिक गहराई से एकीकृत करने की योजना बनाई है। उपयोगकर्ता GENINI लाइव को मैप्स, कैलेंडर, कार्यों और रखने जैसे ऐप्स के साथ जोड़ने में सक्षम होंगे। उदाहरण के लिए, रेस्तरां के विकल्पों के बारे में पूछना सीधे Google मैप्स से लिंक कर सकता है, या एक समूह चैट एक घटना को कैलेंडर में जोड़ा जा सकता है।
इमेजेन 4
मिथुन में अब इमेजेन 4 शामिल है, एक नई छवि पीढ़ी मॉडल जो बेहतर दृश्य विवरण और छवियों के भीतर बेहतर पाठ प्रतिपादन का समर्थन करता है। उपयोगकर्ता प्रस्तुतियों और सोशल मीडिया पोस्ट सहित विभिन्न उपयोगों के लिए ग्राफिक्स और दृश्य बना सकते हैं।
वीओ 3
वीडियो निर्माण के लिए, वीओ 3 पेश किया जा रहा है। यह टेक्स्ट-टू-वीडियो पीढ़ी का समर्थन करता है और परिवेशी ध्वनियों और बुनियादी चरित्र संवाद को भी जोड़ सकता है। VEO 3 वर्तमान में केवल उपलब्ध हैGoogle ai अल्ट्रा अमेरिका में सब्सक्राइबर, अंतरराष्ट्रीय उपयोगकर्ताओं या मुफ्त योजना पर पहुंच को सीमित करना।
गहन शोध
डीप रिसर्च फीचर अब उपयोगकर्ताओं को व्यक्तिगत फ़ाइलों-जैसे कि पीडीएफ या छवियों को अपलोड करने की अनुमति देता है-एआई-जनित रिपोर्ट में शामिल किया जाना है। लक्ष्य निजी और सार्वजनिक डेटा स्रोतों को मिलाकर अधिक व्यक्तिगत और संदर्भ-समृद्ध परिणाम प्रदान करना है। Google ने निकट भविष्य में Google ड्राइव और Gmail से सामग्री को शामिल करने के लिए इस कार्यक्षमता का विस्तार करने की योजना की घोषणा की है।
प्रोजेक्ट एस्ट्रा
प्रोजेक्ट एस्ट्रा Google के मिथुन मॉडल की वास्तविक समय की क्षमताओं को प्रदर्शित करता है, जिसमें प्रारंभिक सुविधाएँ अब मिथुन लाइव में एकीकृत हैं। यह उन्नत संस्करण वास्तविक समय में ऑन-स्क्रीन सामग्री की व्याख्या करने के लिए डिवाइस के कैमरे का सक्रिय रूप से उपयोग कर सकता है। नवीनतम सुधारों में देशी ऑडियो पीढ़ी द्वारा संचालित एक अधिक प्राकृतिक, अभिव्यंजक आवाज, बढ़ी हुई मेमोरी कार्यक्षमता और उन्नत कंप्यूटर नियंत्रण सुविधाएँ हैं।
Google I/O 2025 में मुख्य वक्ता के दौरान, एक लाइव प्रदर्शन ने मिथुन लाइव की उपयोगकर्ताओं के साथ तरल रूप से बातचीत करने की क्षमता पर प्रकाश डाला – अभिव्यंजक भाषण के साथ प्रतिक्रिया करते हुए, रुकावटों को मूल रूप से संभालना, और संदर्भ खोए बिना बातचीत जारी रखना। इसने मल्टीटास्किंग क्षमताओं को भी दिखाया जैसे कि बिजनेस कॉल करना, दस्तावेज़ों के माध्यम से स्क्रॉल करना, और वेब ब्राउज़ करना, सभी वास्तविक समय में।
Google प्रवाह
Google Flow एक AI- संचालित फिल्म निर्माण उपकरण है जिसे क्रिएटिव के लिए आसानी से सिनेमाई वीडियो उत्पन्न करने के लिए डिज़ाइन किया गया है। यह Google के उन्नत मॉडल-VEO (वीडियो पीढ़ी), इमेजेन (छवि पीढ़ी), और मिथुन (प्राकृतिक भाषा समझ) को जोड़ती है-उपयोगकर्ताओं को रोजमर्रा की भाषा को उच्च गुणवत्ता वाले दृश्य दृश्यों में बदलने में मदद करने के लिए। प्रवाह लगातार चरित्र और दृश्य निर्माण को सक्षम करता है, जिससे कई क्लिपों में सहज एकीकरण की अनुमति मिलती है। यह कहानी को तेजी से, सहज और नेत्रहीन आश्चर्यजनक बनाने के लिए बनाया गया है।
एजेंट मोड
Google I/O 2025 इवेंट में, Pichai ने मिथुन ऐप के लिए एजेंट मोड नामक एक नई सुविधा का अनावरण किया। यह आगामी प्रायोगिक उपकरण, जो शुरू में ग्राहकों के लिए उपलब्ध है, को उपयोगकर्ता की ओर से जटिल कार्यों और योजना को संभालने के लिए डिज़ाइन किया गया है। एजेंट मोड के साथ, मिथुन अधिक स्वायत्त कार्यों को लेने के लिए सरल प्रतिक्रियाओं से परे चला जाता है-आयोजन, शेड्यूलिंग और मल्टी-स्टेप कार्यों को निष्पादित करना। Google ने यह भी घोषणा की कि ये एजेंट एआई क्षमताएं क्रोम, सर्च और जेमिनी प्लेटफॉर्म तक विस्तारित होंगी, एआई की ओर एक महत्वपूर्ण कदम को चिह्नित करती हैं जो केवल संकेतों पर प्रतिक्रिया करने के बजाय कार्यों का प्रबंधन कर सकती हैं।
Google Jules
जूल्स एक स्वायत्त, एजेंटिक कोडिंग सहायक है जो सीधे आपके कोडबेस के साथ काम करता है। पारंपरिक कोड-पूरा करने वाले टूल के विपरीत, जूल्स आपके रिपॉजिटरी को एक सुरक्षित Google क्लाउड वीएम में क्लोन करता है, आपके प्रोजेक्ट के संदर्भ को समझता है, और स्वतंत्र रूप से परीक्षण लिखने, बग्स को ठीक करने, बिल्डिंग फीचर्स, और बहुत कुछ जैसे कार्यों को संभालता है। यह अतुल्यकालिक रूप से काम करता है, इसलिए आप कहीं और ध्यान केंद्रित कर सकते हैं जबकि यह कार्यों को पूरा करता है और एक विस्तृत योजना, तर्क और कोड परिवर्तन के साथ रिटर्न करता है। जूल्स अब सार्वजनिक बीटा में है और अपने कोड को सुरक्षित और पृथक रखते हुए, गोपनीयता को प्राथमिकता देता है।
खोज में एआई मोड
Google AI मोड नामक एक नई सुविधा को रोल कर रहा है, जिसका उद्देश्य उन लोगों के लिए है जो अधिक उन्नत और इंटरैक्टिव खोज अनुभव चाहते हैं। पहले प्रयोगशालाओं में परीक्षण किया गया, एआई मोड अब अमेरिका में सभी के लिए उपलब्ध है, जिसमें बाद में एक व्यापक वैश्विक रोलआउट की उम्मीद है। एआई मोड के लिए एक नया टैब जल्द ही Google ऐप और डेस्कटॉप पर दिखाई देगा।
AI मोड “क्वेरी फैन-आउट” सिस्टम नामक कुछ का उपयोग करता है। इसका मतलब यह है कि यह आपके प्रश्न को छोटे हिस्सों में तोड़ देता है और एक ही बार में कई खोजों को चलाता है, जिससे यह गहरी खुदाई करने और इंटरनेट पर अधिक उपयोगी और विस्तृत उत्तर लौटाने में मदद करता है। यह Gemini 2.5, Google के सबसे उन्नत AI मॉडल का भी उपयोग करता है।
एआई मोड के साथ, उपयोगकर्ता अनुवर्ती प्रश्न पूछ सकते हैं, इंटरैक्टिव लिंक प्राप्त कर सकते हैं, और यहां तक कि वास्तविक समय में खोज करने के लिए छवियों या लाइव वीडियो का उपयोग कर सकते हैं। यह केवल सवालों के जवाब देने के बारे में नहीं है, Google लोगों की मदद करना चाहता हैकाम करोटिकट बुक करने से लेकर डेटा की तुलना करने तक।
Google AI का उपयोग करके वास्तविक समय में भाषण अनुवाद से मिलता है
Google ने Google मीट में एक ग्राउंडब्रेकिंग AI- संचालित स्पीच ट्रांसलेशन फीचर पेश किया है, जो कॉल के दौरान रीयल-टाइम ऑडियो-टू-ऑडियो ट्रांसलेशन को सक्षम करता है। दीपमाइंड की उन्नत ऑडियोल्म तकनीक पर निर्मित और मिथुन एआई मॉडल के साथ एकीकृत, यह प्रणाली बोली की भाषा को एक श्रोता की पसंदीदा भाषा में अनुवाद करती है – जबकि वक्ता की मूल आवाज, टोन और भावनात्मक अभिव्यक्ति को संरक्षित करती है।
पारंपरिक कैप्शन-आधारित अनुवाद के विपरीत, यह सुविधा सीधे भाषण को बदल देती है, वास्तविक समय में प्राकृतिक-साउंडिंग ऑडियो प्रदान करती है। उपयोगकर्ता मूल के सूक्ष्म ओवरले के साथ अनुवादित आवाज सुनते हैं, स्पष्टता को बढ़ाते हैं और संवादी संदर्भ को बनाए रखते हैं। हालांकि प्रसंस्करण के लिए थोड़ी देरी है, अनुभव बारीकी से कॉल पर एक लाइव दुभाषिया होने की नकल करता है।
गूगल बीम
Google बीम एक नया 3 डी वीडियो संचार प्लेटफ़ॉर्म है जो नियमित 2 डी वीडियो कॉल को इमर्सिव 3 डी अनुभवों में बदल देता है। Google I/O 2025 में घोषित, यह गहराई और आंखों के संपर्क के साथ यथार्थवादी, वास्तविक समय 3D दृश्य बनाने के लिए कई कैमरों और AI का उपयोग करता है। Google क्लाउड द्वारा संचालित और एंटरप्राइज़ उपयोग के लिए डिज़ाइन किया गया, बीम भी सटीक हेड ट्रैकिंग का समर्थन करता है और वास्तविक समय के भाषण अनुवाद की सुविधा की उम्मीद है। यह इस साल के अंत में एचपी उपकरणों पर रोल आउट करेगा।
जेम्मा 3 एन
GEMMA 3N Google का पहला ओपन AI मॉडल है जिसे विशेष रूप से ऑन-डिवाइस उपयोग के लिए डिज़ाइन किया गया है, जो फोन, टैबलेट और लैपटॉप के लिए तेजी से, मल्टीमॉडल इंटेलिजेंस लाता है। क्वालकॉम, मीडियाटेक, और सैमसंग जैसे भागीदारों के साथ विकसित एक नई वास्तुकला पर निर्मित, यह क्लाउड पर भरोसा किए बिना वास्तविक समय, निजी एआई अनुभवों को शक्ति प्रदान करता है। GEMMA 3N भी मिथुन नैनो की अगली पीढ़ी के लिए नींव बनाता है, जिससे डेवलपर्स को सीधे रोजमर्रा के उपकरणों पर उन्नत एआई का पता लगाने में सक्षम बनाता है।
पर कोशिश
Google खोज में “ट्राई ऑन” सुविधा उपयोगकर्ताओं को यह देखने की अनुमति देती है कि शर्ट, कपड़े, पैंट और स्कर्ट जैसे कपड़े कैसे एक पूर्ण-लंबाई वाली तस्वीर अपलोड करके उन पर देखेंगे। अमेरिका में खोज प्रयोगशालाओं के माध्यम से उपलब्ध, उपकरण उपयोगकर्ता पर संगठन का एक दृश्य उत्पन्न करने के लिए AI का उपयोग करता है। यह उपयोगकर्ताओं को खरीदारी करने से पहले फीडबैक के लिए छवियों को सहेजने या साझा करने देता है।