GPT-4o: OpenAI స్థానిక చిత్ర సృష్టి

కృత్రిమ మేధస్సు రంగం వేగంగా అభివృద్ధి చెందుతూనే ఉంది, ఇటీవల OpenAI నుండి ఒక ముఖ్యమైన ముందడుగుతో ఇది గుర్తించబడింది. ప్రభావవంతమైన GPT సిరీస్ AI మోడల్‌ల అభివృద్ధికి ప్రసిద్ధి చెందిన ఈ సంస్థ, ఇప్పుడు తన తాజా పునరావృతం, GPT-4o లోకి నేరుగా చిత్ర ఉత్పత్తి సామర్థ్యాలను ఏకీకృతం చేసింది. మంగళవారం ప్రకటించిన ఈ అభివృద్ధి, ఒక కీలకమైన మార్పును సూచిస్తుంది, బాహ్య ప్రత్యేక సాధనాలపై ఆధారపడకుండా మోడల్ విభిన్న దృశ్య కంటెంట్‌ను ఉత్పత్తి చేయడానికి అనుమతిస్తుంది. వినియోగదారులు ఇప్పుడు వివరణాత్మక ఇన్ఫోగ్రాఫిక్స్ మరియు వరుస కామిక్ స్ట్రిప్స్ నుండి బెస్పోక్ సైన్‌బోర్డులు, డైనమిక్ గ్రాఫిక్స్, ప్రొఫెషనల్-లుకింగ్ మెనూలు, సమకాలీన మీమ్స్ మరియు వాస్తవిక వీధి సంకేతాల వరకు ప్రతిదీ రూపొందించడానికి AI తో సంభాషించవచ్చు. ఈ అంతర్గత దృశ్య సామర్థ్యం మరింత బహుముఖ మరియు అతుకులు లేని ఇంటిగ్రేటెడ్ AI సహాయకుల అన్వేషణలో ఒక ముందడుగును సూచిస్తుంది.

స్థానిక దృశ్య సృష్టి యొక్క ఆరంభం

ఈ పురోగతిని వేరుగా నిలిపేది దాని స్థానిక అమలు (native implementation). OpenAI యొక్క స్వంత DALL-E వంటి ప్రత్యేక ఇమేజ్ జనరేషన్ మోడల్‌లకు అభ్యర్థనలను పంపే మునుపటి వర్క్‌ఫ్లోల వలె కాకుండా, GPT-4o ఇప్పుడు టెక్స్చువల్ వివరణలను పిక్సెల్‌లుగా మార్చగల అంతర్గత సామర్థ్యాన్ని కలిగి ఉంది. ఇది చిత్రాలను నేరుగా నిర్మించడానికి దాని విస్తారమైన అంతర్గత జ్ఞాన స్థావరం మరియు నిర్మాణ రూపకల్పనపై ఆధారపడుతుంది. ఇది DALL-E ని పనికిరానిదిగా చేయదు; ప్రత్యేకమైన DALL-E ఇంటర్‌ఫేస్ లేదా దాని నిర్దిష్ట కార్యాచరణలను ఇష్టపడే వినియోగదారులు దానిని ఎప్పటిలాగే ఉపయోగించడం కొనసాగించవచ్చని OpenAI స్పష్టం చేసింది. అయినప్పటికీ, GPT-4o లోని ఏకీకరణ దృశ్య సృష్టికి క్రమబద్ధీకరించబడిన, సంభాషణాత్మక విధానాన్ని అందిస్తుంది.

ఈ ప్రక్రియ సహజమైన పరస్పర చర్య కోసం రూపొందించబడింది. OpenAI చెప్పినట్లుగా, ‘చిత్రాలను సృష్టించడం మరియు అనుకూలీకరించడం GPT‑4o ఉపయోగించి చాట్ చేయడం అంత సులభం’. వినియోగదారులు తమ దృష్టిని సహజ భాషలో వ్యక్తీకరించాలి. ఇందులో కావలసిన అంశాలు, కూర్పు వివరాలు, శైలీకృత సూక్ష్మ నైపుణ్యాలు మరియు సాంకేతిక పారామితులను పేర్కొనడం ఉంటుంది. మోడల్ యాస్పెక్ట్ రేషియోల (aspect ratios) కు సంబంధించిన సూచనలను అర్థం చేసుకోవడానికి మరియు అమలు చేయడానికి సన్నద్ధమైంది, చిత్రాలు నిర్దిష్ట డైమెన్షనల్ అవసరాలకు సరిపోయేలా చూస్తుంది. ఇంకా, ఇది హెక్సాడెసిమల్ కోడ్‌లను (hexadecimal codes) ఉపయోగించి ఖచ్చితమైన రంగుల పాలెట్‌లను చేర్చగలదు, బ్రాండింగ్ లేదా కళాత్మక ప్రయోజనాల కోసం గ్రాన్యులర్ నియంత్రణను అందిస్తుంది. డిజైన్ ప్రాజెక్ట్‌లు లేదా ప్రెజెంటేషన్‌లలో గ్రాఫిక్‌లను లేయర్ చేయడానికి కీలకమైన అవసరమైన పారదర్శక నేపథ్యాలతో (transparent backgrounds) చిత్రాలను రూపొందించగల సామర్థ్యం మరొక ముఖ్యమైన లక్షణం.

ప్రారంభ తరం దాటి, సంభాషణాత్మక స్వభావం మెరుగుదలకు విస్తరించింది. వినియోగదారులు ఒకే అవుట్‌పుట్‌కు పరిమితం కాలేదు. వారు రూపొందించిన చిత్రంపై పునరావృతం చేయడానికి GPT-4o తో ఫాలో-అప్ డైలాగ్‌లో పాల్గొనవచ్చు. ఇందులో నిర్దిష్ట అంశాలకు మార్పులను అభ్యర్థించడం, రంగు పథకాన్ని సర్దుబాటు చేయడం, శైలిని మార్చడం లేదా వివరాలను జోడించడం లేదా తీసివేయడం ఉండవచ్చు. ఈ పునరావృత లూప్ సహజమైన సృజనాత్మక ప్రక్రియను ప్రతిబింబిస్తుంది, దృశ్య అవుట్‌పుట్ వినియోగదారు ఉద్దేశ్యంతో సంపూర్ణంగా సమలేఖనం అయ్యే వరకు ప్రగతిశీల మెరుగుదలను అనుమతిస్తుంది. ఈ సామర్థ్యం చిత్ర ఉత్పత్తిని సంభావ్యంగా హిట్-ఆర్-మిస్ కమాండ్ నుండి మానవ మరియు యంత్రం మధ్య సహకార మార్పిడిగా మారుస్తుంది.

అపూర్వమైన బహుముఖ ప్రజ్ఞ యొక్క కాన్వాస్

GPT-4o నివేదించబడినట్లుగా ఉత్పత్తి చేయగల దృశ్య అవుట్‌పుట్‌ల శ్రేణి అసాధారణంగా విస్తృతమైనది, అనేక డొమైన్‌లలో దాని సామర్థ్యాన్ని ప్రదర్శిస్తుంది. కింది అనువర్తనాలను పరిగణించండి:

  • డేటా విజువలైజేషన్ (Data Visualization): అందించిన డేటా పాయింట్లు లేదా భావనల ఆధారంగా ఫ్లైలో ఇన్ఫోగ్రాఫిక్స్ (infographics) ను రూపొందించడం, సంక్లిష్ట సమాచార ప్రసారాన్ని సులభతరం చేయడం.
  • కథ చెప్పడం మరియు వినోదం (Storytelling and Entertainment): కథన ప్రాంప్ట్ నుండి బహుళ-ప్యానెల్ కామిక్ స్ట్రిప్స్ (comic strips) ను సృష్టించడం, కళాకారులు మరియు రచయితల కోసం కంటెంట్ సృష్టిని సంభావ్యంగా విప్లవాత్మకంగా మార్చడం.
  • డిజైన్ మరియు బ్రాండింగ్ (Design and Branding): నిర్దిష్ట టెక్స్ట్, లోగోలు (భావనాత్మకంగా, ప్రత్యక్ష లోగో ప్రతిరూపణకు కాపీరైట్ చిక్కులు ఉన్నందున), మరియు శైలులతో సైన్‌బోర్డులు (signboards), గ్రాఫిక్స్ (graphics), మరియు మెనూలను (menus) ఉత్పత్తి చేయడం, వేగవంతమైన ప్రోటోటైపింగ్ మరియు మార్కెటింగ్ మెటీరియల్ క్రియేషన్‌లో వ్యాపారాలకు సహాయం చేయడం.
  • డిజిటల్ కల్చర్ (Digital Culture): ప్రస్తుత ట్రెండ్‌లు లేదా నిర్దిష్ట దృశ్యాల ఆధారంగా మీమ్స్ (memes) ను రూపొందించడం, ఇంటర్నెట్ సంస్కృతిపై అవగాహనను ప్రదర్శించడం.
  • సిమ్యులేషన్స్ మరియు మాకప్స్ (Simulations and Mockups): వర్చువల్ పరిసరాలు లేదా ప్రణాళిక ప్రయోజనాల కోసం వాస్తవిక వీధి సంకేతాలు (street signs) లేదా ఇతర పర్యావరణ అంశాలను రూపొందించడం.
  • యూజర్ ఇంటర్‌ఫేస్ డిజైన్ (User Interface Design): బహుశా ప్రదర్శించబడిన అత్యంత అద్భుతమైన సామర్థ్యాలలో ఒకటి, ఎటువంటి రిఫరెన్స్ చిత్రాలు అవసరం లేకుండా, పూర్తిగా టెక్స్చువల్ వివరణల ఆధారంగా యూజర్ ఇంటర్‌ఫేస్‌లను (UIs) రూపొందించడం. ఇది యాప్ మరియు వెబ్ డెవలపర్‌ల కోసం ప్రోటోటైపింగ్ దశను నాటకీయంగా వేగవంతం చేస్తుంది.

ఈ బహుముఖ ప్రజ్ఞ మోడల్ యొక్క భాషపై లోతైన అవగాహన మరియు ఆ అవగాహనను పొందికైన దృశ్య నిర్మాణాలుగా మార్చగల దాని కొత్త సామర్థ్యం నుండి ఉద్భవించింది. ఇది కేవలం నమూనా సరిపోలిక కాదు; ఇది టెక్స్ట్‌లో వివరించబడిన సందర్భం, శైలి అభ్యర్థనలు మరియు క్రియాత్మక అవసరాలను అర్థం చేసుకోవడం.

చిత్రాలలో టెక్స్ట్ జనరేషన్ (text generation within images) యొక్క శక్తి కూడా గణనీయమైన దృష్టిని ఆకర్షించింది. చారిత్రాత్మకంగా, AI ఇమేజ్ జనరేటర్లు తరచుగా టెక్స్ట్‌ను ఖచ్చితంగా రెండర్ చేయడంలో ఇబ్బంది పడ్డాయి, తరచుగా గజిబిజిగా లేదా అర్థరహిత అక్షరాలను ఉత్పత్తి చేస్తాయి. GPT-4o నుండి ప్రారంభ ఉదాహరణలు ఈ ప్రాంతంలో గుర్తించదగిన మెరుగుదలను సూచిస్తున్నాయి, మునుపటి తరాల AI ఇమేజ్ టూల్స్‌ను పీడించిన వక్రీకరణలు లేకుండా చదవగలిగే మరియు సందర్భోచితంగా సరైన టెక్స్ట్‌ను కలిగి ఉన్న చిత్రాలను రూపొందిస్తున్నాయి. ఇంటిగ్రేటెడ్ టెక్స్ట్ అవసరమైన ప్రకటనలు, పోస్టర్‌లు లేదా రేఖాచిత్రాలను సృష్టించడం వంటి అనువర్తనాలకు ఇది కీలకం.

ఇంకా, ఇప్పటికే ఉన్న ఛాయాచిత్రాలపై శైలి పరివర్తనలను (style transformations) నిర్వహించగల సామర్థ్యం సృజనాత్మక సామర్థ్యానికి మరొక పొరను జోడిస్తుంది. వినియోగదారులు ఫోటోను అప్‌లోడ్ చేయవచ్చు మరియు దానిని వేరే కళాత్మక శైలిలో పునర్నిర్మించమని GPT-4o ని అభ్యర్థించవచ్చు. Studio Ghibli యానిమేషన్‌ల యొక్క విభిన్న సౌందర్యాన్ని గుర్తుకు తెచ్చే చిత్రాలుగా సాధారణ స్నాప్‌షాట్‌లను మార్చడం ప్రారంభించినప్పుడు ఈ సామర్థ్యం స్పష్టంగా ప్రదర్శించబడింది. ఇది వివిధ కళాత్మక సంప్రదాయాలపై మోడల్ యొక్క అవగాహనను ప్రదర్శించడమే కాకుండా, ప్రత్యేకమైన దృశ్య ప్రభావాలను కోరుకునే కళాకారులు మరియు అభిరుచి గలవారికి శక్తివంతమైన సాధనాన్ని అందిస్తుంది.

వినియోగదారు సంఘం నుండి ఆశ్చర్య ప్రతిధ్వనులు

ఈ స్థానిక చిత్ర లక్షణాల పరిచయం AI సంఘం మరియు అంతకు మించి తక్షణ మరియు విస్తృతమైన ఉత్సాహంతో స్వీకరించబడింది. వినియోగదారులు వేగంగా ప్రయోగాలు చేయడం ప్రారంభించారు, మోడల్ సామర్థ్యాల సరిహద్దులను నెట్టారు మరియు వారి ఆవిష్కరణలను ఆన్‌లైన్‌లో పంచుకున్నారు. నాణ్యత, పొందిక మరియు వాడుకలో సౌలభ్యం పట్ల తరచుగా సంపూర్ణ ఆశ్చర్యం యొక్క భావన ఉంది.

Shopify యొక్క CEO అయిన Tobias Lutke, ఒక బలవంతపు వ్యక్తిగత కథనాన్ని పంచుకున్నారు. అతను తన కొడుకు టీ-షర్టు యొక్క చిత్రాన్ని మోడల్‌కు సమర్పించాడు, దానిపై తెలియని జంతువు ఉంది. GPT-4o జీవిని గుర్తించడమే కాకుండా, దాని శరీర నిర్మాణ శాస్త్రాన్ని కూడా ఖచ్చితంగా వివరించింది. Lutke యొక్క ప్రతిచర్య, అతని ఆన్‌లైన్ వ్యాఖ్యలో సంగ్రహించబడింది, ‘ఇది ఎలా నిజం?’, మోడల్ యొక్క అధునాతన మల్టీమోడల్ అవగాహన మరియు తరం సామర్థ్యాలను ప్రత్యక్షంగా చూసినప్పుడు చాలా మంది అనుభవించిన అద్భుత భావాన్ని సంగ్రహించింది. ఈ ఉదాహరణ సాధారణ చిత్ర సృష్టికి మించి, విశ్లేషణతో పాటు తరం కోసం మోడల్ సామర్థ్యాన్ని హైలైట్ చేసింది.

పైన పేర్కొన్న శుభ్రమైన, ఖచ్చితమైన చిత్రాలలో టెక్స్ట్ (text within images) ను రూపొందించగల సామర్థ్యం బలంగా ప్రతిధ్వనించింది. ఇతర AI సాధనాల టెక్స్ట్ పరిమితులతో పోరాడిన గ్రాఫిక్ డిజైనర్లు, విక్రయదారులు మరియు కంటెంట్ సృష్టికర్తల కోసం, ఇది ఒక ముఖ్యమైన ఆచరణాత్మక పురోగతిని సూచిస్తుంది. AI- రూపొందించిన నేపథ్యంపై ఖచ్చితమైన టెక్స్ట్‌ను అతివ్యాప్తి చేయడానికి వారికి ఇకపై ప్రత్యేక గ్రాఫిక్ డిజైన్ సాఫ్ట్‌వేర్ అవసరం లేదు.

ప్రాంప్ట్‌ల నుండి మాత్రమే UI జనరేషన్ (UI generation) సంభావ్యత డెవలపర్లు మరియు డిజైనర్లలో ప్రత్యేక ఉత్సాహాన్ని రేకెత్తించింది. ఒక వివరణ ఆధారంగా యాప్ స్క్రీన్ లేదా వెబ్‌సైట్ లేఅవుట్‌ను త్వరగా విజువలైజ్ చేయగల సామర్థ్యం - ‘నీలి నేపథ్యం, వినియోగదారు పేరు మరియు పాస్‌వర్డ్ కోసం ఫీల్డ్‌లు మరియు ప్రముఖ ‘లాగ్ ఇన్’ బటన్‌తో మొబైల్ బ్యాంకింగ్ యాప్ కోసం లాగిన్ స్క్రీన్‌ను సృష్టించండి’ - ఉత్పత్తి అభివృద్ధి యొక్క ప్రారంభ దశలను తీవ్రంగా క్రమబద్ధీకరించగలదు, వేగవంతమైన పునరావృతం మరియు బృందాలలో స్పష్టమైన కమ్యూనికేషన్‌ను సులభతరం చేస్తుంది.

స్టైల్ ట్రాన్స్‌ఫర్ (style transfer) ఫీచర్ త్వరగా వైరల్ అయ్యింది. Row Zero లో వ్యవస్థాపక ఇంజనీర్ అయిన Grant Slatton, ఒక ప్రామాణిక ఛాయాచిత్రాన్ని ఐకానిక్ ‘Studio Ghibli’ అనిమే శైలిలోకి మార్చే ఒక ప్రత్యేకమైన ప్రజాదరణ పొందిన ఉదాహరణను పంచుకున్నారు. అతని పోస్ట్ ఒక ఉత్ప్రేరకంగా పనిచేసింది, ఇంప్రెషనిజం మరియు సర్రియలిజం నుండి నిర్దిష్ట కళాకారుల సౌందర్యం లేదా సినిమాటిక్ లుక్స్ వరకు శైలులను వర్తింపజేస్తూ, ఇలాంటి పరివర్తనలను ప్రయత్నించడానికి లెక్కలేనన్ని ఇతరులను ప్రేరేపించింది. ఈ సామూహిక ప్రయోగం ఫీచర్ యొక్క ఆకర్షణకు నిదర్శనంగా మాత్రమే కాకుండా, దాని సృజనాత్మక పరిధి మరియు పరిమితుల యొక్క క్రౌడ్‌సోర్స్డ్ అన్వేషణగా కూడా పనిచేసింది.

ప్రకటనలు మరియు మార్కెటింగ్ (advertising and marketing) రంగంలో మరొక శక్తివంతమైన వినియోగ కేసు ఉద్భవించింది. ఒక వినియోగదారు వారి స్వంత అప్లికేషన్ కోసం ఇప్పటికే ఉన్న ప్రకటన చిత్రాన్ని ప్రతిబింబించడానికి ప్రయత్నించిన వారి అనుభవాన్ని డాక్యుమెంట్ చేసారు. వారు అసలు ప్రకటనను దృశ్య సూచనగా అందించారు, కానీ అసలు లేఅవుట్, శైలిని కొనసాగిస్తూ మరియు సంబంధిత కాపీని చేర్చుతూ, అసలులో ఫీచర్ చేయబడిన యాప్ స్క్రీన్‌షాట్‌ను వారి స్వంత ఉత్పత్తి యొక్క స్క్రీన్‌షాట్‌తో భర్తీ చేయమని GPT-4o కి సూచించారు. వినియోగదారు అద్భుతమైన విజయాన్ని నివేదించారు, ‘నిమిషాల్లో, ఇది దాదాపుగా సంపూర్ణంగా ప్రతిబింబించింది’ అని పేర్కొన్నారు. ఇది వేగవంతమైన ప్రకటన ప్రోటోటైపింగ్, A/B టెస్టింగ్ వైవిధ్యాలు మరియు అపూర్వమైన వేగంతో మార్కెటింగ్ అనుషంగికాలను అనుకూలీకరించడంలో శక్తివంతమైన అనువర్తనాలను సూచిస్తుంది.

ఈ నిర్దిష్ట అనువర్తనాలకు మించి, ఫోటోరియలిస్టిక్ చిత్రాలను (photorealistic images) రూపొందించే సాధారణ సామర్థ్యం ఆకట్టుకోవడం కొనసాగించింది. వినియోగదారులు ల్యాండ్‌స్కేప్‌లు, పోర్ట్రెయిట్‌లు మరియు ఆబ్జెక్ట్ రెండరింగ్‌ల ఉదాహరణలను పంచుకున్నారు, ఇవి ఫోటోగ్రాఫిక్ నాణ్యతను చేరుకున్నాయి, డిజిటల్‌గా రూపొందించబడిన మరియు కెమెరా-క్యాప్చర్డ్ రియాలిటీ మధ్య రేఖలను మరింత అస్పష్టం చేశాయి. ఈ స్థాయి వాస్తవికత వర్చువల్ ఫోటోగ్రఫీ, కాన్సెప్ట్ ఆర్ట్ జనరేషన్ మరియు సిమ్యులేషన్‌లు లేదా వర్చువల్ ప్రపంచాల కోసం వాస్తవిక ఆస్తులను సృష్టించడానికి తలుపులు తెరుస్తుంది. సామూహిక వినియోగదారు ప్రతిస్పందన సాంకేతికంగా ఆకట్టుకునేది మాత్రమే కాకుండా, విస్తృత శ్రేణి అనువర్తనాల్లో నిజంగా ఉపయోగకరంగా మరియు సృజనాత్మకంగా స్ఫూర్తిదాయకంగా ఉన్న సాధనం యొక్క చిత్రాన్ని చిత్రించింది.

దశలవారీగా విడుదల మరియు యాక్సెస్ స్థాయిలు

OpenAI ఈ కొత్త సామర్థ్యాలను అమలు చేయడానికి దశలవారీ విధానాన్ని అనుసరించింది. ప్రారంభంలో, GPT-4o లోని స్థానిక చిత్ర ఉత్పత్తి లక్షణాలకు యాక్సెస్ Plus, Pro, మరియు Team ప్లాన్‌లకు సభ్యత్వం పొందిన వినియోగదారులకు మంజూరు చేయబడింది. విస్తృత ఆసక్తిని గుర్తించి, కంపెనీ Free ప్లాన్‌లోని వినియోగదారులకు కూడా లభ్యతను విస్తరించింది, అయితే చెల్లింపు శ్రేణులతో పోలిస్తే వినియోగ పరిమితులతో ఉండవచ్చు.

సంస్థాగత వినియోగదారుల కోసం, Enterprise మరియు Edu ప్లాన్‌లలో ఉన్నవారికి త్వరలో యాక్సెస్ ప్లాన్ చేయబడింది, ఇది వ్యాపార మరియు విద్యా సెట్టింగ్‌లలో పెద్ద-స్థాయి విస్తరణల కోసం అనుకూలమైన ఏకీకరణ లేదా మద్దతును సూచిస్తుంది.

ఇంకా, డెవలపర్లు తమ స్వంత అప్లికేషన్‌లు మరియు సేవల్లోకి ఈ సామర్థ్యాలను ఏకీకృతం చేయడానికి ఆసక్తిగా ఉన్నవారు API ద్వారా యాక్సెస్ పొందుతారు. ప్రారంభ ప్రకటన తర్వాత కొన్ని వారాల్లో API యాక్సెస్ క్రమంగా విడుదల చేయబడుతుందని OpenAI సూచించింది. ఈ దశలవారీ విడుదల OpenAI కి సర్వర్ లోడ్‌ను నిర్వహించడానికి, విభిన్న వినియోగదారు విభాగాల నుండి అభిప్రాయాన్ని సేకరించడానికి మరియు API ద్వారా విశ్వవ్యాప్తంగా అందుబాటులోకి తీసుకురావడానికి ముందు వాస్తవ-ప్రపంచ వినియోగ నమూనాల ఆధారంగా సిస్టమ్‌ను మెరుగుపరచడానికి అనుమతిస్తుంది.

పోటీ AI రంగంలో సందర్భం

స్థానిక చిత్ర ఉత్పత్తితో GPT-4o యొక్క OpenAI మెరుగుదల శూన్యంలో జరగలేదు. ఈ ప్రకటన Google ద్వారా ఇదే విధమైన చర్యను అనుసరించింది, ఇది దాని Gemini 2.0 Flash AI మోడల్‌లోకి పోల్చదగిన స్థానిక చిత్ర ఉత్పత్తి లక్షణాలను ప్రవేశపెట్టింది. Google యొక్క సామర్థ్యం, ప్రారంభంలో మునుపటి సంవత్సరం డిసెంబర్‌లో విశ్వసనీయ టెస్టర్‌లకు ప్రివ్యూ చేయబడింది, OpenAI యొక్క లాంచ్‌తో దాదాపు అదే సమయంలో Google AI Studio ద్వారా మద్దతు ఉన్న ప్రాంతాలలో విస్తృతంగా అందుబాటులోకి వచ్చింది.

డెవలపర్లు Google AI Studio లో మరియు Gemini API ద్వారా Gemini 2.0 Flash (gemini-2.0-flash-exp) యొక్క ప్రయోగాత్మక సంస్కరణను ఉపయోగించి ఈ ‘కొత్త సామర్థ్యంతో’ ప్రయోగాలు చేయడం ప్రారంభించవచ్చని Google పేర్కొంది. ఈ దాదాపు ఏకకాల విడుదల ఉత్పాదక AI రంగంలో తీవ్రమైన పోటీ మరియు వేగవంతమైన ఆవిష్కరణల వేగాన్ని హైలైట్ చేస్తుంది. రెండు టెక్ దిగ్గజాలు స్పష్టంగా మల్టీమోడల్ సామర్థ్యాల ఏకీకరణకు ప్రాధాన్యత ఇస్తున్నాయి - టెక్స్ట్ మరియు చిత్రాల వంటి విభిన్న ఫార్మాట్‌లలో కంటెంట్‌ను అర్థం చేసుకునే మరియు ఉత్పత్తి చేసే సామర్థ్యం - నేరుగా వారి ఫ్లాగ్‌షిప్ మోడల్‌లలోకి. ఈ ధోరణి భవిష్యత్తులో AI సహాయకులు మరింత బహుముఖంగా ఉంటారని సూచిస్తుంది, ఒకే, ఏకీకృత ఇంటర్‌ఫేస్ ద్వారా విస్తృత శ్రేణి సృజనాత్మక మరియు విశ్లేషణాత్మక పనులను నిర్వహించగల సామర్థ్యం కలిగి ఉంటారు, ప్రపంచవ్యాప్తంగా వినియోగదారులకు పరస్పర చర్యను మరింత ద్రవంగా మరియు శక్తివంతంగా చేస్తుంది. అత్యంత అతుకులు లేని, సమర్థవంతమైన మరియు ఇంటిగ్రేటెడ్ AI అనుభవాన్ని అందించడానికి పోటీ కొనసాగుతోంది.