ట్యూరింగ్ టెస్ట్ సంక్షోభం: AI బెంచ్‌మార్క్‌ను అధిగమించిందా?

మేధస్సు యొక్క భ్రమను బహిర్గతం చేయడం

దశాబ్దాలుగా, కృత్రిమ మేధస్సును కొలవడానికి చేసే ప్రయత్నంలో Turing Test ఒక మైలురాయిగా నిలిచింది, అయితే ఇది తరచుగా తప్పుగా అర్థం చేసుకోబడింది. మేధావి Alan Turing చే రూపొందించబడిన ఇది, ఒక సరళమైన ఇంకా గంభీరమైన సవాలును ప్రతిపాదించింది: ఒక యంత్రం, కేవలం టెక్స్ట్ ఆధారిత సంభాషణ ద్వారా, తాను కూడా మానవుడేనని ఒక మానవుడిని ఒప్పించగలదా? చాలామంది ఈ పరీక్షలో విజయాన్ని నిజమైన యంత్ర ఆలోచన యొక్క ఆవిర్భావంగా, సిలికాన్ మెదళ్ళు చివరకు మన స్వంత అభిజ్ఞా సామర్థ్యాలను ప్రతిబింబిస్తున్నాయనడానికి సంకేతంగా అన్వయించారు. అయితే, ఈ అన్వయం ఎల్లప్పుడూ వివాదాలతో నిండి ఉంది, మరియు OpenAI యొక్క GPT-4.5 వంటి అధునాతన AI మోడల్స్‌తో కూడిన ఇటీవలి పరిణామాలు ఒక క్లిష్టమైన పునఃమూల్యాంకనాన్ని బలవంతం చేస్తున్నాయి.

University of California at San Diego నుండి వెలువడుతున్న అద్భుతమైన పరిశోధన ఈ వివాదాన్ని తీవ్రంగా ముందుకు తెస్తుంది. అక్కడి పండితులు క్లాసిక్ Turing Test ఫార్మాట్‌లో మానవులను అధునాతన large language models (LLMs)తో పోటీ పడే ప్రయోగాలను నిర్వహించారు. ఫలితాలు ఆశ్చర్యకరంగా ఉన్నాయి: OpenAI యొక్క తాజా పునరావృతం, నివేదించబడిన ప్రకారం GPT-4.5, కేవలం ఉత్తీర్ణత సాధించడమే కాకుండా; అది రాణించింది, వాస్తవ మానవ పాల్గొనేవారు తమ మానవత్వాన్ని నిరూపించుకోవడంలో కంటే ఎక్కువ నమ్మకంగా దాని మానవ అనుకరణలో నిరూపించుకుంది. ఇది ప్రామాణికంగా మానవ అనుభూతిని కలిగించే ప్రతిస్పందనలను రూపొందించడంలో generative AI సామర్థ్యంలో గణనీయమైన పురోగతిని సూచిస్తుంది. అయినప్పటికీ, ఈ అధ్యయనం వెనుక ఉన్న పరిశోధకులు కూడా ఈ సంభాషణా నైపుణ్యాన్ని artificial general intelligence (AGI) – మానవ-స్థాయి అభిజ్ఞా సామర్థ్యాలతో యంత్రాలను సృష్టించే అంతుచిక్కని లక్ష్యం – సాధించడంతో సమానం చేయడాన్ని వ్యతిరేకిస్తున్నారు. పరీక్ష, అది అనిపిస్తుంది, యంత్ర మేధస్సు యొక్క నిజమైన స్వభావం గురించి కంటే, పరీక్ష యొక్క పరిమితులు మరియు మన స్వంత మానవ అంచనాల గురించి ఎక్కువగా వెల్లడిస్తుండవచ్చు.

ఒక క్లాసిక్ ప్రయోగంపై ఆధునిక మలుపు

Turing Test యొక్క శాశ్వత ఆకర్షణ దాని సొగసైన సరళతలో ఉంది. Turing ఒక ‘imitation game’ని ఊహించాడు, ఇందులో ముగ్గురు ఆటగాళ్ళు ఉంటారు: ఒక మానవ విచారణకర్త (న్యాయమూర్తి), ఒక మానవ సాక్షి, మరియు ఒక కంప్యూటర్ సాక్షి. ఒకరి నుండి ఒకరు వేరు చేయబడి, కేవలం టెక్స్ట్ సందేశాల ద్వారా సంభాషిస్తూ, సాక్షులు తమ మానవ గుర్తింపును న్యాయమూర్తికి ఒప్పించడానికి ప్రయత్నిస్తారు. ఒక పాల్గొనేవాడు యంత్రం అని తెలిసిన న్యాయమూర్తి, ఏది ఏది అని నిర్ణయించాలి. ఈ ఏర్పాటు యొక్క మేధావితనం దాని స్వాభావిక తులనాత్మక స్వభావంలో ఉంది. న్యాయమూర్తి పొరపాటున కంప్యూటర్‌ను మానవుడిగా గుర్తిస్తే, అది యంత్రం యొక్క నమ్మదగిన పనితీరును మాత్రమే కాకుండా, మానవ సాక్షి తన స్వంత మానవత్వాన్ని తగినంతగా సూచించడంలో సంభావ్య వైఫల్యాన్ని లేదా బహుశా ఆ సంకేతాలను సరిగ్గా గ్రహించడంలో న్యాయమూర్తి అసమర్థతను సూచిస్తుంది. ఇది మానవ అవగాహన, నమ్మకం, మరియు మనం మానవుడిగా ఉండటంతో అనుబంధించే సూక్ష్మ సూచనల యొక్క ఆసక్తికరమైన పరిశీలనగా మారుతుంది, అలాగే ఇది గణన సామర్థ్యం యొక్క కొలమానం కూడా.

ఈ పునాదిపై నిర్మిస్తూ, UC San Diego పరిశోధకులు, Cameron Jones మరియు Benjamin Bergen, ఆధునిక LLMs యొక్క శక్తిని ఉపయోగించుకుంటూ మరియు అండర్ గ్రాడ్యుయేట్ విద్యార్థులను చేర్చుకుంటూ, పరీక్ష యొక్క సమకాలీన సంస్కరణను అమలు చేశారు. వారి ప్రయోగాత్మక రూపకల్పన Turing యొక్క మూడు-మార్గాల నిర్మాణానికి దగ్గరగా కట్టుబడి ఉంది. విద్యార్థులకు యాదృచ్ఛికంగా పాత్రలు కేటాయించబడ్డాయి: కొందరు న్యాయమూర్తులుగా వ్యవహరించారు, మరికొందరు మానవ సాక్షులుగా. ప్రతి న్యాయమూర్తి ఒక మానవ సాక్షి మరియు ఒక AI సాక్షితో ఏకకాలంలో, స్వతంత్ర ఐదు నిమిషాల టెక్స్ట్ చాట్‌లలో నిమగ్నమయ్యారు. న్యాయమూర్తికి సవాలు అలాగే ఉంది: యంత్రాన్ని గుర్తించడం.

ప్రస్తుత AI సామర్థ్యాలను అన్వేషించడానికి, కంప్యూటర్ సాక్షిగా అనేక మోడల్స్ మోహరించబడ్డాయి:

  • GPT-4.5 (Minimal Prompt): ఈ సంస్కరణకు కేవలం ప్రాథమిక సూచనలు మాత్రమే అందాయి.
  • GPT-4.5 (PERSONA Prompt): ఈ వేరియంట్‌కు గణనీయంగా మరింత వివరణాత్మక మార్గదర్శకత్వం ఇవ్వబడింది. ప్రాంప్ట్ AIకి ఒక నిర్దిష్ట వ్యక్తిత్వాన్ని – ‘అంతర్ముఖుడు, ఇంటర్నెట్ సంస్కృతి గురించి పరిజ్ఞానం ఉన్న, మరియు స్లాంగ్ ఉపయోగించే యువకుడు’ – స్వీకరించమని సూచించింది. ఇది AI యొక్క అనుకూలతను మరియు నిర్దిష్ట మానవ నమూనాలను అనుకరించే సామర్థ్యాన్ని పరీక్షించడానికి ఉద్దేశించబడింది.
  • GPT-4o: OpenAI యొక్క ఇతర ప్రముఖ మోడల్ పోలిక బిందువుగా పనిచేసింది.
  • Llama 3.1 405b: Meta Platforms యొక్క శక్తివంతమైన LLM పరిధిని విస్తరించడానికి చేర్చబడింది.
  • ELIZA: 1960ల నాటి ఒక ప్రాథమిక చాట్‌బాట్ ప్రోగ్రామ్ నియంత్రణగా చేర్చబడింది. దాని సాపేక్ష సరళత, LLMs యొక్క ఏదైనా విజయం అధునాతన ప్రోగ్రామింగ్ వల్లనా లేదా కేవలం యాదృచ్ఛిక అవకాశం మరియు సులభంగా మోసపోయే న్యాయమూర్తుల వల్లనా అని నిర్ధారించడంలో సహాయపడటానికి ఉద్దేశించబడింది.

ఈ బహుళ-మోడల్ విధానం, నిర్మాణాత్మక, సమయానుకూల పరస్పర చర్యలు మరియు కనిష్టంగా ప్రాంప్ట్ చేయబడిన మరియు వ్యక్తిత్వ-ఆధారిత AI మధ్య పోలికతో కలిపి, యంత్రాలు ఇప్పుడు మానవ సంభాషణను ఎంత సమర్థవంతంగా అనుకరించగలవు మరియు మానవులు ఈ ప్రయత్నాలను ఎలా గ్రహిస్తారో విశ్లేషించడానికి గొప్ప డేటాసెట్‌ను అందించింది.

అనుకరణ వాస్తవికతను మించినప్పుడు

UC San Diego అధ్యయనం నుండి వచ్చిన ఫలితాలు అసాధారణమైనవి, ముఖ్యంగా వివరణాత్మక PERSONA ప్రాంప్ట్ ద్వారా మార్గనిర్దేశం చేయబడినప్పుడు GPT-4.5 యొక్క పనితీరుకు సంబంధించి. ఈ నిర్దిష్ట కాన్ఫిగరేషన్ ఆశ్చర్యకరమైన 73% ‘విజయం రేటు’ సాధించింది. ముఖ్యంగా, దాదాపు మూడు వంతుల సమయం, ఈ AIతో సంభాషించిన మానవ న్యాయమూర్తులు తాము మరొక మానవుడితో సంభాషిస్తున్నామని నిర్ధారించారు. ఈ సంఖ్య దాని సంపూర్ణ విలువలో మాత్రమే కాకుండా, ఇతర పాల్గొనేవారితో పోలిస్తే కూడా ముఖ్యమైనది.

బెంచ్‌మార్క్‌లను పరిగణించండి:

  • మానవ సాక్షులు: విరుద్ధంగా, సాక్షులుగా పాల్గొన్న వాస్తవ మానవులు, వ్యక్తిత్వ-ఆధారిత GPT-4.5 కంటే న్యాయమూర్తులను తమ మానవత్వం గురించి ఒప్పించడంలో తక్కువ విజయవంతమయ్యారు.
  • ఇతర AI మోడల్స్: కనిష్ట ప్రాంప్ట్‌తో కూడిన GPT-4.5, అలాగే GPT-4o మరియు Llama 3.1 (సారూప్య వ్యక్తిత్వ ప్రాంప్ట్‌లు ఇచ్చినప్పటికీ), 21% మరియు 56% మధ్య విజయం రేట్లతో గణనీయంగా తక్కువ స్కోర్ చేశాయి. ఇది పరీక్షించబడిన నిర్దిష్ట GPT-4.5 మోడల్ యొక్క అధునాతన సామర్థ్యాలను మరియు అనుకూలీకరించిన ప్రాంప్టింగ్ యొక్క గణనీయమైన ప్రభావాన్ని హైలైట్ చేస్తుంది.
  • మునుపటి GPT-4 పనితీరు: కేవలం ఒక సంవత్సరం క్రితం అదే పరిశోధకులు నిర్వహించిన ప్రయోగం యొక్క మునుపటి పునరావృతంలో, GPT-4 కేవలం 54% విజయం రేటును సాధించింది, యాదృచ్ఛిక అవకాశం (50%) యొక్క పరిమితిని కొద్దిగా మించిపోయింది. GPT-4.5తో 73%కి దూకడం మానవ-వంటి టెక్స్ట్‌ను రూపొందించడంలో మోడల్ సామర్థ్యంలో వేగవంతమైన పురోగతిని ప్రదర్శిస్తుంది.
  • ELIZA: పాతకాలపు చాట్‌బాట్, ఊహించినట్లుగా, పేలవంగా పనిచేసింది, బేస్‌లైన్‌గా దాని ప్రయోజనాన్ని నెరవేర్చింది మరియు LLMs యొక్క విజయం కేవలం ఏదైనా ప్రోగ్రామ్ ద్వారా సులభంగా మోసపోయే న్యాయమూర్తుల వల్ల కాదని ధృవీకరించింది.

Jones మరియు Bergen యొక్క ముగింపు నిష్కర్షగా ఉంది: న్యాయమూర్తులు కేవలం మానవుడిని యంత్రం నుండి వేరు చేయడానికి కష్టపడటం లేదు; వారు వాస్తవ మానవ పాల్గొనేవారు మానవులని నమ్మడం కంటే వ్యక్తిత్వ-ఆధారిత GPT-4.5 మానవుడని నమ్మడానికి చురుకుగా ఎక్కువ మొగ్గు చూపుతున్నారు. ఇది సూచిస్తుంది, AI, సరిగ్గా సూచించినప్పుడు, మానవ పరస్పర చర్య యొక్క గ్రహించిన సూక్ష్మ నైపుణ్యాలను అనుకరించగలదు – బహుశా నిజమైన మానవ చాట్‌లో ఉన్న ఇబ్బంది లేదా అసమానతలను కూడా ఫిల్టర్ చేయగలదు – ఈ నిర్దిష్ట, పరిమిత వాతావరణంలో మానవుల కంటే మరింత సమర్థవంతంగా. విజయం కేవలం ఉత్తీర్ణత సాధించడం గురించి కాదు; అది పరీక్ష యొక్క పరిమితులలో గ్రహించిన ‘మానవత్వం’లో మానవ బేస్‌లైన్‌ను అధిగమించడం గురించి.

మానవసమానత అడ్డంకి: మేధస్సు లేదా అనుసరణ?

Turing Test యొక్క ఈ ఆధునిక పునరావృతంలో GPT-4.5 యొక్క విజయం AGI రాకను సూచిస్తుందా? పరిశోధకులు, రంగంలోని అనేక మంది నిపుణులతో పాటు, జాగ్రత్త వహించాలని కోరుతున్నారు. పరీక్ష చుట్టూ ఉన్న ‘అత్యంత వివాదాస్పద ప్రశ్న’, Jones మరియు Bergen అంగీకరించినట్లుగా, అది నిజంగా మేధస్సును కొలుస్తుందా లేదా పూర్తిగా వేరేదాన్ని కొలుస్తుందా అనేది ఎల్లప్పుడూ ఉంది. మానవులను ఇంత సమర్థవంతంగా మోసగించగల GPT-4.5 సామర్థ్యం నిస్సందేహంగా సాంకేతిక ఘనత అయినప్పటికీ, అది నిజమైన అవగాహన లేదా స్పృహ కంటే మోడల్ యొక్క అధునాతన అనుకరణ మరియు అనుకూలత గురించి ఎక్కువగా మాట్లాడవచ్చు.

ఒక దృక్కోణం ఏమిటంటే, ఈ అధునాతన LLMs నమూనా సరిపోలిక మరియు అంచనాలో అసాధారణంగా నిపుణులయ్యాయి. భారీ మొత్తంలో మానవ టెక్స్ట్ డేటాను అందించినప్పుడు, అవి విభిన్న రకాల మానవ పరస్పర చర్యలతో అనుబంధించబడిన పద శ్రేణులు, సంభాషణా మలుపులు మరియు శైలీకృత అంశాల గణాంక సంభావ్యతను నేర్చుకుంటాయి. PERSONA ప్రాంప్ట్ GPT-4.5కి ఒక నిర్దిష్ట లక్ష్య నమూనాను అందించింది – ఒక అంతర్ముఖ, ఇంటర్నెట్-అవగాహన ఉన్న యువకుడు. AI యొక్క విజయం, అందువల్ల, అభ్యర్థించిన వ్యక్తిత్వానికి సరిపోయేలా ‘దాని ప్రవర్తనను స్వీకరించే’ సామర్థ్యం యొక్క ప్రదర్శనగా చూడవచ్చు, ఆ ప్రొఫైల్‌కు అనుగుణంగా ప్రతిస్పందనలను రూపొందించడానికి దాని శిక్షణ డేటాపై ఆధారపడుతుంది. ఇది ప్రాంప్ట్ ద్వారా నిర్వచించబడిన సందర్భంలో యంత్రాన్ని నమ్మదగిన మానవుడిగా కనిపించడానికి అనుమతించే వశ్యత మరియు ఉత్పాదక శక్తి యొక్క అద్భుతమైన ప్రదర్శన.

అయితే, ఈ అనుకూలత మానవులు కలిగి ఉన్న సాధారణ మేధస్సు నుండి భిన్నంగా ఉంటుంది, ఇందులో తార్కికం, సందర్భాన్ని లోతుగా అర్థం చేసుకోవడం, నవల అనుభవాల నుండి నేర్చుకోవడం మరియు స్పృహ కలిగి ఉండటం వంటివి ఉంటాయి – ప్రస్తుత LLMs ప్రదర్శించని లక్షణాలు. AI పండితురాలు Melanie Mitchell వాదించినట్లుగా, సహజ భాషలో పటిమ, చదరంగంలో నైపుణ్యం సాధించడం లాగానే, సాధారణ మేధస్సుకు నిశ్చయాత్మకమైన రుజువు కాదు. ఇది ఒక నిర్దిష్ట, సంక్లిష్టమైనప్పటికీ, నైపుణ్య డొమైన్‌లో నైపుణ్యాన్ని రుజువు చేస్తుంది. అందువల్ల, GPT-4.5 యొక్క పనితీరు సహజ భాషా ఉత్పత్తిలో ఒక మైలురాయి అయినప్పటికీ, దానిని కేవలం AGI వైపు ఒక అడుగుగా రూపొందించడం తప్పుదారి పట్టించవచ్చు. టెక్స్ట్-ఆధారిత సంభాషణలో అధిక స్థాయి ‘మానవసమానత’ సాధించినట్లుగా వర్ణించడం మరింత ఖచ్చితమైనదిగా అనిపిస్తుంది, ఇది మానవ-స్థాయి మేధస్సు నుండి సూక్ష్మంగా కానీ కీలకమైన భిన్నమైన భావన.

పరస్పర చర్య యొక్క అద్దం: పరీక్ష మన గురించి ఏమి వెల్లడిస్తుంది

బహుశా UC San Diego అధ్యయనం యొక్క అత్యంత ఆసక్తికరమైన అంశం AI గురించి అది ఏమి వెల్లడిస్తుందో కాదు, కానీ మానవ తీర్పు మరియు పరస్పర చర్యలకు, ముఖ్యంగా ఆన్‌లైన్‌లో మనం తీసుకువచ్చే అంచనాల గురించి అది ఏమి బహిర్గతం చేస్తుందో. మానవ న్యాయమూర్తులు తరచుగా మోసపోవడం, మరియు కొన్నిసార్లు AI యొక్క పరస్పర చర్య శైలిని కూడా ఇష్టపడటం, ఈ ఫార్మాట్‌లో యంత్ర మేధస్సు యొక్క అంతిమ మధ్యవర్తిగా మానవ అవగాహనను ఉపయోగించడంలో స్వాభావికమైన ఆత్మాశ్రయత మరియు సంభావ్య లోపాల వైపు సూచిస్తుంది.

పరిశోధకులు న్యాయమూర్తుల తార్కికంలో ఆసక్తికరమైన నమూనాలను గుర్తించారు:

  • ఊహించని ప్రవర్తన: ఆదిమ ELIZA ప్రోగ్రామ్ కూడా న్యాయమూర్తులను 23% సమయం మోసగించగలిగింది. ఇది ELIZA ప్రకాశాన్ని ప్రదర్శించినందువల్ల కాదు, కానీ తరచుగా అది AI ఎలా ప్రవర్తించాలనే న్యాయమూర్తుల ముందస్తు భావనలను అందుకోనందువల్ల. న్యాయమూర్తులు సాక్షి ‘వ్యంగ్యంగా’ లేదా ‘అనాగరికంగా’ ఉన్నాడని కారణాలు పేర్కొన్నారు, వారు యంత్రం నుండి ఊహించని లక్షణాలు, అందువల్ల అది మానవుడే అయి ఉండాలని నిర్ధారించారు.
  • మేధస్సు కంటే సాంఘికతపై దృష్టి: Alan Turing న్యాయమూర్తులు జ్ఞానం మరియు మేధో సామర్థ్యం కోసం పరిశోధిస్తారని ఊహించిన దానికి విరుద్ధంగా, ఈ అధ్యయనంలో పాల్గొనేవారు తరచుగా సంభాషణా శైలి, భావోద్వేగ స్వరం మరియు సామాజిక సూచనలపై ఎక్కువ దృష్టి సారించినట్లు అనిపించింది.
  • అసంపూర్ణత యొక్క పారడాక్స్: ఆశ్చర్యకరమైన మలుపులో, న్యాయమూర్తులు ఒక సాక్షిని మానవుడిగా సరిగ్గా గుర్తించడానికి ఉపయోగించిన కారకాలలో ఒకటి గ్రహించిన జ్ఞానం లేకపోవడం. ఇది మానవులు దోషులు మరియు అసంపూర్ణులు అనే అంతర్లీన అంచనాను సూచిస్తుంది, అయితే AI విజ్ఞాన సర్వస్వం లేదా అతిగా ఖచ్చితమైనదిగా ఉంటుందని ఆశించవచ్చు.

ఈ పరిశీలనలు Jones మరియు Bergenను న్యాయమూర్తుల నిర్ణయాలు ‘మానవులు మరియు AI వ్యవస్థలు ఎలా ప్రవర్తించే అవకాశం ఉందనే దాని గురించి సంక్లిష్టమైన అంచనాలను’ పొందుపరుస్తాయని నొక్కి చెప్పడానికి దారితీస్తాయి, మేధస్సు యొక్క సరళమైన అంచనాకు మించి కదులుతాయి. ప్రమాణాలు సామాజిక అంచనాలు, వ్యక్తిత్వ తీర్పులు మరియు సాంకేతిక సామర్థ్యాల గురించి పక్షపాతాలతో కూడా ముడిపడి ఉంటాయి. టెక్స్ట్-ఆధారిత కమ్యూనికేషన్ సర్వసాధారణంగా ఉన్న యుగంలో, ఆన్‌లైన్ పరస్పర చర్యల కోసం మనం పాతుకుపోయిన అలవాట్లు మరియు అంచనాలను అభివృద్ధి చేసుకున్నాము. Turing Test, వాస్తవానికి మానవ-కంప్యూటర్ పరస్పర చర్యలోకి ఒక నవల పరిశోధనగా రూపొందించబడింది, ఇప్పుడు ఈ ఆన్‌లైన్ మానవ అలవాట్లు మరియు పక్షపాతాల పరీక్షగా ఎక్కువగా పనిచేస్తుంది. ఇది డిజిటల్ వ్యక్తిత్వాలను విశ్లేషించే మన సామర్థ్యాన్ని కొలుస్తుంది, ఆన్‌లైన్‌లో మానవులు మరియు బాట్‌లతో మన రోజువారీ అనుభవాల ద్వారా ప్రభావితమవుతుంది. ప్రాథమికంగా, ఆధునిక Turing Test, ఈ పరిశోధన ద్వారా ప్రదర్శించబడినట్లుగా, యంత్ర మేధస్సు యొక్క ప్రత్యక్ష అంచనా కంటే, మానవ అంచనా యొక్క కటకం ద్వారా ఫిల్టర్ చేయబడిన గ్రహించిన మానవసమానత యొక్క కొలమానంగా కనిపిస్తుంది.

అనుకరణ ఆటకు మించి: AI మూల్యాంకనం కోసం కొత్త మార్గాన్ని రూపొందించడం

GPT-4.5 వంటి మోడల్స్ యొక్క బలవంతపు పనితీరు మరియు సాంప్రదాయ Turing Test ఫార్మాట్‌లో స్వాభావికమైన హైలైట్ చేయబడిన పరిమితులు మరియు పక్షపాతాలను బట్టి, ప్రశ్న తలెత్తుతుంది: AGI వైపు పురోగతిని కొలవడానికి ఈ దశాబ్దాల నాటి బెంచ్‌మార్క్ ఇప్పటికీ సరైన సాధనమా? UC San Diego పరిశోధకులు, AI కమ్యూనిటీలో పెరుగుతున్న కోరస్‌తో పాటు, బహుశా కాదని సూచిస్తున్నారు – కనీసం, ఏకైక లేదా నిశ్చయాత్మక కొలమానంగా కాదు.

GPT-4.5 యొక్క విజయం, ముఖ్యంగా PERSONA ప్రాంప్ట్‌పై దాని ఆధారపడటం, ఒక కీలక పరిమితిని నొక్కి చెబుతుంది: పరీక్ష ఒక నిర్దిష్ట, తరచుగా సంకుచితమైన, సంభాషణా సందర్భంలో పనితీరును మూల్యాంకనం చేస్తుంది. ఇది తప్పనిసరిగా తార్కికం, ప్రణాళిక, సృజనాత్మకత లేదా విభిన్న పరిస్థితులలో ఇంగిత జ్ఞానం అవగాహన వంటి లోతైన అభిజ్ఞా సామర్థ్యాలను పరిశోధించదు. Jones మరియు Bergen పేర్కొన్నట్లుగా, ‘మేధస్సు సంక్లిష్టమైనది మరియు బహుముఖమైనది,’ అంటే ‘మేధస్సు యొక్క ఏ ఒక్క పరీక్ష నిర్ణయాత్మకం కాదు.’

ఇది మరింత సమగ్రమైన మూల్యాంకన పద్ధతుల సూట్ అవసరాన్ని సూచిస్తుంది. అనేక సంభావ్య మార్గాలు ఉద్భవిస్తాయి:

  1. సవరించిన పరీక్ష నమూనాలు: పరిశోధకులు స్వయంగా వైవిధ్యాలను సూచిస్తున్నారు. న్యాయమూర్తులు AI నిపుణులు అయితే, విభిన్న అంచనాలను కలిగి ఉంటే మరియు బహుశా యంత్రం యొక్క సామర్థ్యాలను పరిశోధించడానికి మరింత అధునాతన పద్ధతులను కలిగి ఉంటే? గణనీయమైన ఆర్థిక ప్రోత్సాహకాలు ప్రవేశపెట్టబడితే, న్యాయమూర్తులను ప్రతిస్పందనలను మరింత జాగ్రత్తగా మరియు ఆలోచనాత్మకంగా పరిశీలించడానికి ప్రోత్సహిస్తే? ఈ మార్పులు డైనమిక్స్‌ను మార్చగలవు మరియు సంభావ్యంగా విభిన్న ఫలితాలను ఇవ్వగలవు, పరీక్ష యొక్క ఫలితంపై సందర్భం మరియు ప్రేరణ యొక్క ప్రభావాన్ని మరింత హైలైట్ చేస్తాయి.
  2. విస్తృత సామర్థ్య పరీక్ష: సంభాషణా పటిమకు మించి, మూల్యాంకనాలు మేధస్సు యొక్క విభిన్న కోణాలను అవసరమయ్యే విస్తృత శ్రేణి పనులపై దృష్టి పెట్టవచ్చు – నవల డొమైన్‌లలో సమస్య-పరిష్కారం, దీర్ఘకాలిక ప్రణాళిక, సంక్లిష్ట కారణ సంబంధాలను అర్థం చేసుకోవడం, లేదా శిక్షణ డేటా యొక్క అధునాతన రీమిక్సింగ్ కాకుండా నిజమైన సృజనాత్మకతను ప్రదర్శించడం.
  3. Human-in-the-Loop (HITL) మూల్యాంకనం: AI అంచనాలో మానవ తీర్పును మరింత క్రమపద్ధతిలో ఏకీకృతం చేసే ధోరణి పెరుగుతోంది, కానీ బహుశా క్లాసిక్ Turing Test కంటే మరింత నిర్మాణాత్మక మార్గాల్లో. ఇది నిర్దిష్ట ప్రమాణాల ఆధారంగా (ఉదా., వాస్తవ ఖచ్చితత్వం, తార్కిక పొందిక, నైతిక పరిగణనలు, ఉపయోగం) AI అవుట్‌పుట్‌లను మూల్యాంకనం చేసే మానవులను కలిగి ఉండవచ్చు, కేవలం బైనరీ మానవ/యంత్ర తీర్పును ఇవ్వడం కంటే. మానవులు మోడల్స్‌ను మెరుగుపరచడంలో, బలహీనతలను గుర్తించడంలో మరియు సూక్ష్మమైన అభిప్రాయం ఆధారంగా అభివృద్ధికి మార్గనిర్దేశం చేయడంలో సహాయపడగలరు.

ప్రధాన ఆలోచన ఏమిటంటే, మేధస్సు వంటి సంక్లిష్టమైనదాన్ని అంచనా వేయడానికి సాధారణ అనుకరణకు మించి చూడటం అవసరం. Turing Test ఒక విలువైన ప్రారంభ ఫ్రేమ్‌వర్క్‌ను అందించినప్పటికీ మరియు ముఖ్యమైన చర్చలను రేకెత్తిస్తూనే ఉన్నప్పటికీ, దానిపై మాత్రమే ఆధారపడటం అధునాతన అనుకరణను నిజమైన అవగాహనగా తప్పుగా భావించే ప్రమాదం ఉంది. AGIని అర్థం చేసుకోవడం మరియు సంభావ్యంగా సాధించడం వైపు మార్గానికి ధనిక, మరింత వైవిధ్యమైన మరియు బహుశా మరింత కఠినమైన మూల్యాంకన పద్ధతులు అవసరం.

AGI యొక్క రహస్యం మరియు అంచనా యొక్క భవిష్యత్తు

ఇటీవలి ప్రయోగాలు Turing Testకు మించి విస్తరించే ఒక ప్రాథమిక సవాలును నొక్కి చెబుతున్నాయి: Artificial General Intelligence అంటే ఏమిటో ఖచ్చితంగా నిర్వచించడానికి మనం కష్టపడతాము, మనం దానిని ఎదుర్కొంటే దానిని నిశ్చయంగా ఎలా గుర్తిస్తామో అంగీకరించడం అటుంచి. మానవులు, వారి స్వాభావిక పక్షపాతాలు మరియు అంచనాలతో, ఒక సాధారణ చాట్ ఇంటర్‌ఫేస్‌లో బాగా ప్రాంప్ట్ చేయబడిన LLM ద్వారా ఇంత సులభంగా ప్రభావితం చేయగలిగితే, సంభావ్యంగా చాలా అధునాతన భవిష్యత్ వ్యవస్థల యొక్క లోతైన అభిజ్ఞా సామర్థ్యాలను మనం విశ్వసనీయంగా ఎలా అంచనా వేయగలం?

AGI వైపు ప్రయాణం అస్పష్టతతో కప్పబడి ఉంది. UC San Diego అధ్యయనం మన ప్రస్తుత బెంచ్‌మార్క్‌లు ముందున్న పనికి సరిపోకపోవచ్చని శక్తివంతమైన రిమైండర్‌గా పనిచేస్తుంది. ఇది అనుకరించబడిన ప్రవర్తనను నిజమైన అవగాహన నుండి వేరు చేయడంలో ఉన్న తీవ్రమైన కష్టాన్ని హైలైట్ చేస్తుంది, ముఖ్యంగా అనుకరణ మరింత అధునాతనంగా మారినప్పుడు. ఇది భవిష్యత్ అంచనా నమూనాల గురించి ఊహాజనిత, ఇంకా ఆలోచనలను రేకెత్తించే ప్రశ్నలకు దారితీస్తుంది. సైన్స్ ఫిక్షన్ కథనాలను గుర్తుకు తెచ్చే విధంగా, అధునాతన AIని మానవుల నుండి వేరు చేయడానికి మానవ తీర్పు చాలా నమ్మదగనిదిగా పరిగణించబడే స్థాయికి మనం చేరుకోగలమా?

బహుశా, విరుద్ధంగా, అత్యంత అధునాతన యంత్ర మేధస్సు యొక్క మూల్యాంకనానికి ఇతర యంత్రాల నుండి సహాయం అవసరం కావచ్చు. అభిజ్ఞా లోతు, స్థిరత్వం మరియు నిజమైన తార్కికం కోసం ప్రత్యేకంగా రూపొందించబడిన వ్యవస్థలు, మానవ న్యాయమూర్తులను ప్రభావితం చేసే సామాజిక సూచనలు మరియు పక్షపాతాలకు తక్కువ అవకాశం ఉన్నవి, అంచనా టూల్‌కిట్ యొక్క అవసరమైన భాగాలుగా మారవచ్చు. లేదా, కనీసం, మానవ సూచనలు (ప్రాంప్ట్‌లు), AI అనుసరణ మరియు ఫలితంగా వచ్చే మేధస్సు యొక్క అవగాహన మధ్య పరస్పర చర్య యొక్క లోతైన అవగాహన కీలకం అవుతుంది. నిర్దిష్ట, సంభావ్యంగా మోసపూరిత ప్రవర్తనలను రాబట్టడానికి మానవ ప్రయత్నాలకు ప్రతిస్పందించే ఇతర యంత్రాలను గమనించినప్పుడు వారు ఏమి గ్రహిస్తారో మనం యంత్రాలను అడగవలసి రావచ్చు. AIని కొలవడానికి చేసే అన్వేషణ యంత్ర మేధస్సు యొక్క స్వభావాన్ని మాత్రమే కాకుండా, మన స్వంత సంక్లిష్టమైన, తరచుగా ఆశ్చర్యపరిచే స్వభావాన్ని కూడా ఎదుర్కోవాలని మనల్ని బలవంతం చేస్తుంది.