हालांकि इस परीक्षण को पास करने वाले पहले एआई मॉडल नहीं हैं, यह हाल के दावेदारों में सबसे अधिक ध्यान देने योग्य है। GPT 4.5, 2023 में जारी, परीक्षणों में अधिकांश मानव-जैसे व्यवहार का प्रदर्शन किया, जहां इसे मेटा के llama-3.1-405b (यहाँ, B बिलियन, परिभाषित करने वाले पैरामीटर), और इसके सिबलिंग, GPT-4O (यह 2024 रिलीज है) से बड़े भाषा मॉडल (LLM) प्रतियोगिता मिली।
“जब एक मानवीय व्यक्तित्व को अपनाने के लिए प्रेरित किया जाता है, तो GPT-4.5 को मानव 73% समय के रूप में आंका गया था: वास्तविक मानव प्रतिभागी का चयन करने वाले पूछताछकर्ताओं की तुलना में अधिक बार,” कैलिफोर्निया सैन डिएगो विश्वविद्यालय के बेंजामिन के। बर्गन ने कहा कि एक अध्ययन में एक अध्ययन में सहकर्मी की समीक्षा में लिखा गया है।
“Llama-3.1, एक ही संकेत के साथ, मानव 56% समय के रूप में आंका गया था-उन मनुष्यों की तुलना में अधिक या कम बार नहीं, जिनकी तुलना की जा रही थी-जबकि बेसलाइन मॉडल (एलिजा और GPT-4O) ने जीत दर को मौका (23% और 21%) से काफी नीचे हासिल किया,” पेपर आगे का विवरण।
इसके लिए एक चेतावनी है।
क्या इस परिणाम का मतलब GPT-4.5, या वास्तव में llama-3.1, बुद्धिमान हैं? आवश्यक रूप से नहीं। ट्यूरिंग परीक्षण संवादी प्रदर्शन को मापता है, समझ या चेतना नहीं। 73% सफलता दर (लामा के मामले में भी कम) से पता चलता है कि यह एक मानव को दृढ़ता से खेल सकता है, लेकिन यह अभी भी तर्क या इरादे की कमी हो सकती है जिसे हम खुफिया के साथ जोड़ते हैं, प्रश्नों की प्रतिक्रियाओं के लिए।
इसके अलावा परीक्षण का एक हिस्सा एलिजा था, जो 1960 के दशक की एक चैटबॉट था, जिसे मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी (MIT) में कंप्यूटर वैज्ञानिक जोसेफ वीज़ेनबाम द्वारा विकसित किया गया था। आधुनिक एलएलएम की तुलना में बहुत कमजोर एआई, शोधकर्ताओं का कहना है कि उन्होंने “एलिजा को एक हेरफेर की जांच के रूप में शामिल किया था ताकि यह सुनिश्चित किया जा सके कि पूछताछकर्ता मानव गवाहों की पहचान करने में सक्षम थे”।
अध्ययन इस बात की पुष्टि करता है कि GPT-4.5 और Llama-3.1-405B दोनों ट्यूरिंग टेस्ट पास करते हैं, क्योंकि वे 50%से अधिक स्कोर करते हैं, पूर्व लॉग बेहतर स्कोर के साथ।
ये “व्यक्तित्व” और “कोई व्यक्तित्व” मोड के साथ परीक्षण किए जा रहे इन मॉडलों के औसत हैं। एआई व्यक्तित्व और एआई गैर-व्यक्ति के बीच महत्वपूर्ण अंतर यह कैसे होता है कि एआई कैसे प्रस्तुत करता है, उपयोगकर्ताओं के साथ बातचीत करता है और किसी भी “चरित्र” को प्रदर्शित करता है।
फरवरी में, Openai ने GPT-4.5 के लिए एक शोध पूर्वावलोकन जारी किया, इसे “अभी तक चैट के लिए सबसे बड़ा और सबसे अच्छा मॉडल” कहा।
सैम अल्टमैन ने उस समय कहा, “यह पहला मॉडल है जो मेरे लिए एक विचारशील व्यक्ति से बात कर रहा है। मेरे पास कई क्षण हैं, जहां मैं अपनी कुर्सी पर वापस बैठा हूं और एआई से वास्तव में अच्छी सलाह प्राप्त करने पर चकित हूं।” Altman ने सीधे ट्यूरिंग टेस्ट परिणामों को संबोधित नहीं किया है, इस प्रकार अब तक।
ट्यूरिंग टेस्ट की कुंजी एक सार्वभौमिक रूप से मानकीकृत बेंचमार्क नहीं है, लेकिन आमतौर पर एक मानव न्यायाधीश को एक मानव और मशीन दोनों के साथ पाठ-आधारित बातचीत में संलग्न होता है, यह निर्धारित करने का प्रयास करता है कि कौन सा है।
GPT-4.5 मॉडल को शामिल करने वाले परीक्षण के लिए फैसला प्रतिभागियों को एक अन्य मानव प्रतिभागी के साथ और प्रत्येक AI सिस्टम के साथ एक साथ 5 मिनट की बातचीत के बाद दिया गया था, यह देखते हुए कि वे किस संवादी साथी को सोचते थे।
“हम कृत्रिम बुद्धिमत्ता के लिए नहीं खो रहे हैं। हम कृत्रिम सहानुभूति से हार रहे हैं,” एक पोस्ट में इनोवेशन थिंक-टैंक नोस्टलाब के संस्थापक जॉन नोस्टा को संक्षेप में प्रस्तुत करता है।
अंत में, यदि कोई न्यायाधीश एक मशीन को मानव से मज़बूती से अलग नहीं कर सकता है, तो मशीन को पास करने के लिए कहा जाता है।
“यह अध्ययन पहले ट्यूरिंग टेस्ट प्रयोगों से अलग था क्योंकि इसने एक अधिक कठोर तीन-पक्षीय सेटअप का उपयोग किया था। क्या यह पूरी तरह से आश्चर्यजनक है कि-यह कि कितनी सख्ती से परीक्षण डिजाइन किया गया था-एआई अंततः हमें” मानव ध्वनि “पर हरा देगा, जब इसे किसी भी व्यक्ति की तुलना में अधिक मानव डेटा पर प्रशिक्षित किया गया है,” सिनैड बोवेल, एक टेक एजुकेशन कंपनी का कहना है।
ऐतिहासिक रूप से, ट्यूरिंग टेस्ट के एआई पासिंग संस्करणों के दावे हुए हैं, हालांकि बहस की गुंजाइश है। 2014 में, व्लादिमीर वेसेलोव और सहकर्मियों द्वारा विकसित “यूजीन गोस्टमैन” नामक एक चैटबॉट ने कथित तौर पर रीडिंग विश्वविद्यालय द्वारा आयोजित एक ट्यूरिंग परीक्षण पारित किया। ऐसा माना जाता है कि यह पांच मिनट की बातचीत के दौरान 33% न्यायाधीशों को यकीन है कि यह एक 13 वर्षीय यूक्रेनी लड़का था।
एक प्रतिवाद: 33% सफलता दर 50% की आवश्यकता से कम हो जाती है – लेकिन यह शायद आने वाली चीजों का एक अग्रदूत था, बस किसी को भी इसका एहसास नहीं हुआ।
GPT-4.5 की सफलता Openai के बड़े भाषा मॉडल (LLMS) के अथक शोधन के लिए बहुत अधिक है। GPT-4 के मल्टीमॉडल फाउंडेशन पर निर्माण, GPT-4.5 में प्राकृतिक भाषा प्रसंस्करण में वृद्धि हुई है, जो बड़े डेटासेट द्वारा संचालित होने की संभावना है, प्रशिक्षण तकनीकों में सुधार, और संदर्भ प्रतिधारण के लिए एक नैक है। व्यक्तित्व संकेत-एक विशिष्ट स्वर या पहचान को अपनाने के लिए एक निर्देश- समर्थित पिवोटल, इसे मानव-जैसे स्वभाव के साथ दर्जी प्रतिक्रियाओं की अनुमति देता है।
स्केप्टिक्स हालांकि वजनदार निहितार्थ और कई अनुत्तरित प्रश्न की ओर इशारा करते हैं।
बोवेल को “बड़े आर्थिक और सामाजिक निहितार्थ” से डर लगता है, नौकरी के विस्थापन के एक बहुत ही वास्तविक परिदृश्य के लिए, संभावित रूप से मानवीय रिश्तों को कम करने और धोखे की संभावना को भी कम करना।
पिछले हफ्तों में, एजेंटिक एआई के लिए पीछा ने गति एकत्र की है, माइक्रोसॉफ्ट के नए एजेंटों के साथ वर्कफ़्लोज़ के निर्माण के लिए (लेकिन निश्चित रूप से सीमित नहीं) एडोब, ज़ूम और स्लैक की पसंद के अनुसार। इन एजेंटों के लिए दृष्टि कुछ नौकरियों या कार्य प्रोफाइल में प्रवीणता खोजने के लिए है, जैसे कि ग्राहक सेवा, हेल्थकेयर प्रबंधन, डेटा विश्लेषण, बिक्री, व्यक्तिगत सहायता, सामग्री निर्माण, अनुसंधान और साइबर सुरक्षा निगरानी।
एआई मॉडल अपने व्यक्तित्व कौशल के लिए पुष्टि पा रहे हैं, मानार्थ साबित हो सकते हैं।
निश्चित रूप से कृत्रिम जनरल इंटेलिजेंस, या एजीआई की लूमिंग संभावना है।
शोधकर्ताओं ने बताया, “यह यकीनन वह सहजता है जिसके साथ एलएलएम को अपने व्यवहार को अलग -अलग परिदृश्यों के अनुकूल बनाने के लिए प्रेरित किया जा सकता है जो उन्हें इतना लचीला बनाता है: और जाहिरा तौर पर मानव के रूप में पारित करने में सक्षम है,” शोधकर्ता बताते हैं।
फ्लोरिडा अटलांटिक यूनिवर्सिटी (FAU) में सेंटर फॉर द फ्यूचर माइंड के संस्थापक निदेशक सुसान श्नाइडर का कहना है कि ये परिणाम “कोई आश्चर्य नहीं” हैं।
“बहुत बुरे ये एआई चैटबॉट ठीक से संरेखित नहीं हैं। फिर भी, मैं भविष्यवाणी करता हूं: वे क्षमताओं में बढ़ते रहेंगे और यह एक बुरा सपना होगा – उभरती हुई गुण, ‘गहरे नकली’, चैटबॉट साइबरवर्स। शायद ही कुर्ज़वेइलियन सपना,” वह लिखती है, सोशल मीडिया पर लिखती है।
एआई का भविष्य व्यावहारिक उपयोगिता में निहित है – समस्याओं को हल करना, न कि केवल एक स्मार्ट संवादात्मक होने के नाते। यह विशेष रूप से नए बेंचमार्क, उन परीक्षण तर्क या नैतिक संरेखण के लिए एक तत्काल आवश्यकता को उजागर कर सकता है, बेहतर गेज एआई की प्रगति के लिए।