ट्यूरिंग टेस्ट पास करने वाले एआई मॉडल के लिए मानव जैसा व्यवहार कुंजी

Openai के GPT-4.5 और मेटा के लामा मॉडल ने ट्यूरिंग टेस्ट को पारित कर दिया है, 1950 के दशक में एलन ट्यूरिंग द्वारा प्रस्तावित एक बेंचमार्क यह आकलन करने के लिए कि क्या एक मशीन मनुष्यों से बुद्धिमान व्यवहार को अप्रभेद्य प्रदर्शित कर सकती है। संवादात्मक एआई के लिए एक महत्वपूर्ण क्षण, एक आसानी से पेचीदा घटनाक्रमों की एक भयावह के बीच ग्रहण किया गया, जिसमें चैट की घिबली इमेजिंग, एजेंटिक एआई की खोज (मानव जैसी प्रतिक्रियाएं विशेष रूप से इस फ्रंटियर के लिए प्रासंगिक हैं), एआई का उपयोग करके कैंसर का पता लगाने में सफलताएं।

एआई का भविष्य व्यावहारिक उपयोगिता में निहित है – समस्याओं को हल करना, न कि केवल एक स्मार्ट संवादात्मक होने के नाते। (गेटी इमेज/istockphoto)

हालांकि इस परीक्षण को पास करने वाले पहले एआई मॉडल नहीं हैं, यह हाल के दावेदारों में सबसे अधिक ध्यान देने योग्य है। GPT 4.5, 2023 में जारी, परीक्षणों में अधिकांश मानव-जैसे व्यवहार का प्रदर्शन किया, जहां इसे मेटा के llama-3.1-405b (यहाँ, B बिलियन, परिभाषित करने वाले पैरामीटर), और इसके सिबलिंग, GPT-4O (यह 2024 रिलीज है) से बड़े भाषा मॉडल (LLM) प्रतियोगिता मिली।

“जब एक मानवीय व्यक्तित्व को अपनाने के लिए प्रेरित किया जाता है, तो GPT-4.5 को मानव 73% समय के रूप में आंका गया था: वास्तविक मानव प्रतिभागी का चयन करने वाले पूछताछकर्ताओं की तुलना में अधिक बार,” कैलिफोर्निया सैन डिएगो विश्वविद्यालय के बेंजामिन के। बर्गन ने कहा कि एक अध्ययन में एक अध्ययन में सहकर्मी की समीक्षा में लिखा गया है।

“Llama-3.1, एक ही संकेत के साथ, मानव 56% समय के रूप में आंका गया था-उन मनुष्यों की तुलना में अधिक या कम बार नहीं, जिनकी तुलना की जा रही थी-जबकि बेसलाइन मॉडल (एलिजा और GPT-4O) ने जीत दर को मौका (23% और 21%) से काफी नीचे हासिल किया,” पेपर आगे का विवरण।

इसके लिए एक चेतावनी है।

क्या इस परिणाम का मतलब GPT-4.5, या वास्तव में llama-3.1, बुद्धिमान हैं? आवश्यक रूप से नहीं। ट्यूरिंग परीक्षण संवादी प्रदर्शन को मापता है, समझ या चेतना नहीं। 73% सफलता दर (लामा के मामले में भी कम) से पता चलता है कि यह एक मानव को दृढ़ता से खेल सकता है, लेकिन यह अभी भी तर्क या इरादे की कमी हो सकती है जिसे हम खुफिया के साथ जोड़ते हैं, प्रश्नों की प्रतिक्रियाओं के लिए।

इसके अलावा परीक्षण का एक हिस्सा एलिजा था, जो 1960 के दशक की एक चैटबॉट था, जिसे मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी (MIT) में कंप्यूटर वैज्ञानिक जोसेफ वीज़ेनबाम द्वारा विकसित किया गया था। आधुनिक एलएलएम की तुलना में बहुत कमजोर एआई, शोधकर्ताओं का कहना है कि उन्होंने “एलिजा को एक हेरफेर की जांच के रूप में शामिल किया था ताकि यह सुनिश्चित किया जा सके कि पूछताछकर्ता मानव गवाहों की पहचान करने में सक्षम थे”।

अध्ययन इस बात की पुष्टि करता है कि GPT-4.5 और Llama-3.1-405B दोनों ट्यूरिंग टेस्ट पास करते हैं, क्योंकि वे 50%से अधिक स्कोर करते हैं, पूर्व लॉग बेहतर स्कोर के साथ।

ये “व्यक्तित्व” और “कोई व्यक्तित्व” मोड के साथ परीक्षण किए जा रहे इन मॉडलों के औसत हैं। एआई व्यक्तित्व और एआई गैर-व्यक्ति के बीच महत्वपूर्ण अंतर यह कैसे होता है कि एआई कैसे प्रस्तुत करता है, उपयोगकर्ताओं के साथ बातचीत करता है और किसी भी “चरित्र” को प्रदर्शित करता है।

फरवरी में, Openai ने GPT-4.5 के लिए एक शोध पूर्वावलोकन जारी किया, इसे “अभी तक चैट के लिए सबसे बड़ा और सबसे अच्छा मॉडल” कहा।

सैम अल्टमैन ने उस समय कहा, “यह पहला मॉडल है जो मेरे लिए एक विचारशील व्यक्ति से बात कर रहा है। मेरे पास कई क्षण हैं, जहां मैं अपनी कुर्सी पर वापस बैठा हूं और एआई से वास्तव में अच्छी सलाह प्राप्त करने पर चकित हूं।” Altman ने सीधे ट्यूरिंग टेस्ट परिणामों को संबोधित नहीं किया है, इस प्रकार अब तक।

ट्यूरिंग टेस्ट की कुंजी एक सार्वभौमिक रूप से मानकीकृत बेंचमार्क नहीं है, लेकिन आमतौर पर एक मानव न्यायाधीश को एक मानव और मशीन दोनों के साथ पाठ-आधारित बातचीत में संलग्न होता है, यह निर्धारित करने का प्रयास करता है कि कौन सा है।

GPT-4.5 मॉडल को शामिल करने वाले परीक्षण के लिए फैसला प्रतिभागियों को एक अन्य मानव प्रतिभागी के साथ और प्रत्येक AI सिस्टम के साथ एक साथ 5 मिनट की बातचीत के बाद दिया गया था, यह देखते हुए कि वे किस संवादी साथी को सोचते थे।

“हम कृत्रिम बुद्धिमत्ता के लिए नहीं खो रहे हैं। हम कृत्रिम सहानुभूति से हार रहे हैं,” एक पोस्ट में इनोवेशन थिंक-टैंक नोस्टलाब के संस्थापक जॉन नोस्टा को संक्षेप में प्रस्तुत करता है।

अंत में, यदि कोई न्यायाधीश एक मशीन को मानव से मज़बूती से अलग नहीं कर सकता है, तो मशीन को पास करने के लिए कहा जाता है।

“यह अध्ययन पहले ट्यूरिंग टेस्ट प्रयोगों से अलग था क्योंकि इसने एक अधिक कठोर तीन-पक्षीय सेटअप का उपयोग किया था। क्या यह पूरी तरह से आश्चर्यजनक है कि-यह कि कितनी सख्ती से परीक्षण डिजाइन किया गया था-एआई अंततः हमें” मानव ध्वनि “पर हरा देगा, जब इसे किसी भी व्यक्ति की तुलना में अधिक मानव डेटा पर प्रशिक्षित किया गया है,” सिनैड बोवेल, एक टेक एजुकेशन कंपनी का कहना है।

ऐतिहासिक रूप से, ट्यूरिंग टेस्ट के एआई पासिंग संस्करणों के दावे हुए हैं, हालांकि बहस की गुंजाइश है। 2014 में, व्लादिमीर वेसेलोव और सहकर्मियों द्वारा विकसित “यूजीन गोस्टमैन” नामक एक चैटबॉट ने कथित तौर पर रीडिंग विश्वविद्यालय द्वारा आयोजित एक ट्यूरिंग परीक्षण पारित किया। ऐसा माना जाता है कि यह पांच मिनट की बातचीत के दौरान 33% न्यायाधीशों को यकीन है कि यह एक 13 वर्षीय यूक्रेनी लड़का था।

एक प्रतिवाद: 33% सफलता दर 50% की आवश्यकता से कम हो जाती है – लेकिन यह शायद आने वाली चीजों का एक अग्रदूत था, बस किसी को भी इसका एहसास नहीं हुआ।

GPT-4.5 की सफलता Openai के बड़े भाषा मॉडल (LLMS) के अथक शोधन के लिए बहुत अधिक है। GPT-4 के मल्टीमॉडल फाउंडेशन पर निर्माण, GPT-4.5 में प्राकृतिक भाषा प्रसंस्करण में वृद्धि हुई है, जो बड़े डेटासेट द्वारा संचालित होने की संभावना है, प्रशिक्षण तकनीकों में सुधार, और संदर्भ प्रतिधारण के लिए एक नैक है। व्यक्तित्व संकेत-एक विशिष्ट स्वर या पहचान को अपनाने के लिए एक निर्देश- समर्थित पिवोटल, इसे मानव-जैसे स्वभाव के साथ दर्जी प्रतिक्रियाओं की अनुमति देता है।

स्केप्टिक्स हालांकि वजनदार निहितार्थ और कई अनुत्तरित प्रश्न की ओर इशारा करते हैं।

बोवेल को “बड़े आर्थिक और सामाजिक निहितार्थ” से डर लगता है, नौकरी के विस्थापन के एक बहुत ही वास्तविक परिदृश्य के लिए, संभावित रूप से मानवीय रिश्तों को कम करने और धोखे की संभावना को भी कम करना।

पिछले हफ्तों में, एजेंटिक एआई के लिए पीछा ने गति एकत्र की है, माइक्रोसॉफ्ट के नए एजेंटों के साथ वर्कफ़्लोज़ के निर्माण के लिए (लेकिन निश्चित रूप से सीमित नहीं) एडोब, ज़ूम और स्लैक की पसंद के अनुसार। इन एजेंटों के लिए दृष्टि कुछ नौकरियों या कार्य प्रोफाइल में प्रवीणता खोजने के लिए है, जैसे कि ग्राहक सेवा, हेल्थकेयर प्रबंधन, डेटा विश्लेषण, बिक्री, व्यक्तिगत सहायता, सामग्री निर्माण, अनुसंधान और साइबर सुरक्षा निगरानी।

एआई मॉडल अपने व्यक्तित्व कौशल के लिए पुष्टि पा रहे हैं, मानार्थ साबित हो सकते हैं।

निश्चित रूप से कृत्रिम जनरल इंटेलिजेंस, या एजीआई की लूमिंग संभावना है।

शोधकर्ताओं ने बताया, “यह यकीनन वह सहजता है जिसके साथ एलएलएम को अपने व्यवहार को अलग -अलग परिदृश्यों के अनुकूल बनाने के लिए प्रेरित किया जा सकता है जो उन्हें इतना लचीला बनाता है: और जाहिरा तौर पर मानव के रूप में पारित करने में सक्षम है,” शोधकर्ता बताते हैं।

फ्लोरिडा अटलांटिक यूनिवर्सिटी (FAU) में सेंटर फॉर द फ्यूचर माइंड के संस्थापक निदेशक सुसान श्नाइडर का कहना है कि ये परिणाम “कोई आश्चर्य नहीं” हैं।

“बहुत बुरे ये एआई चैटबॉट ठीक से संरेखित नहीं हैं। फिर भी, मैं भविष्यवाणी करता हूं: वे क्षमताओं में बढ़ते रहेंगे और यह एक बुरा सपना होगा – उभरती हुई गुण, ‘गहरे नकली’, चैटबॉट साइबरवर्स। शायद ही कुर्ज़वेइलियन सपना,” वह लिखती है, सोशल मीडिया पर लिखती है।

एआई का भविष्य व्यावहारिक उपयोगिता में निहित है – समस्याओं को हल करना, न कि केवल एक स्मार्ट संवादात्मक होने के नाते। यह विशेष रूप से नए बेंचमार्क, उन परीक्षण तर्क या नैतिक संरेखण के लिए एक तत्काल आवश्यकता को उजागर कर सकता है, बेहतर गेज एआई की प्रगति के लिए।

Source link