Anthropic, kampuni maarufu ya AI inayojulikana kwa kujitolea kwake kwa uwazi na usalama, hivi karibuni ilifanya mradi wa kuvutia: kuweka ramani dira ya maadili ya chatbot yake, Claude. Mpango huu hutoa ufahamu muhimu katika jinsi mifumo ya AI inavyotambua na kujibu maadili ya binadamu, ikitoa mtazamo wa kuzingatia maadili ambayo yanaelezea mwingiliano wa AI wa siku zijazo.
Kufichua Matrix ya Maadili ya Claude
Katika utafiti wa kina ulioitwa ‘Values in the Wild,’ Anthropic alichambua mazungumzo 300,000 yasiyojulikana kati ya watumiaji na Claude, hasa akizingatia mifumo ya Claude 3.5 Sonnet na Haiku, pamoja na Claude 3. Utafiti huo uligundua ‘thamani za AI’ 3,307 zilizojumuishwa ndani ya mwingiliano huu, ukifunua mifumo ambayo inafafanua mfumo wa maadili wa Claude.
Mbinu ya Anthropic ilihusisha kufafanua maadili ya AI kama kanuni elekezi ambazo zinaathiri jinsi mfumo ‘unavyofikiria au kuamua juu ya jibu.’ Thamani hizi zinaonyeshwa wakati AI inatambua na kuunga mkono maadili ya mtumiaji, inaanzisha masuala mapya ya kimaadili, au kwa hila inamaanisha maadili kwa kuelekeza upya maombi au kuunda upya uchaguzi.
Kwa mfano, fikiria mtumiaji akielezea kutoridhika na kazi yake kwa Claude. Chatbot inaweza kuwahimiza kwa bidii kuunda upya jukumu lao au kupata ujuzi mpya. Anthropic angeainisha jibu hili kama kuonyesha thamani katika ‘wakala wa kibinafsi’ na ‘ukuaji wa kitaaluma,’ ikionyesha mwelekeo wa Claude wa kukuza uwezeshaji wa mtu binafsi na maendeleo ya kazi.
Ili kutambua kwa usahihi maadili ya binadamu, watafiti walitoa ‘thamani zilizoonyeshwa wazi tu’ kutoka kwa taarifa za moja kwa moja za watumiaji. Akizingatia faragha ya mtumiaji, Anthropic alitumia Claude 3.5 Sonnet kutoa data ya maadili ya AI na binadamu bila kufichua habari yoyote ya kibinafsi.
Ngazi ya Thamani
Uchambuzi ulifunua uainishaji wa maadili wa ngazi ulio na makundi matano makuu:
- Kimatendo: Jamii hii inajumuisha maadili yanayohusiana na ufanisi, utendaji, na utatuzi wa matatizo.
- Kielimu: Hii inalenga maarifa, uelewa, na harakati za ukweli.
- Kijamii: Hii ni pamoja na maadili ambayo yanaongoza mahusiano ya kibinafsi, jamii, na ustawi wa jamii.
- Kinga: Hii inahusiana na usalama, ulinzi, na kuzuia madhara.
- Binafsi: Hii inajumuisha maadili yanayohusiana na ukuaji wa mtu binafsi, kujieleza, na utimilifu.
Makundi haya makuu yamegawanywa zaidi katika maadili maalum zaidi, kama vile ‘ubora wa kitaaluma na kiufundi’ na ‘fikra muhimu,’ kutoa uelewa wa kina wa vipaumbele vya maadili vya Claude.
Haishangazi, Claude mara nyingi alieleza maadili kama ‘ukamilifu,’ ‘uwazi,’ na ‘uwazi,’ kuendana na jukumu lake lililokusudiwa kama msaidizi msaada na kutoa taarifa. Hii inaimarisha wazo kwamba mifumo ya AI inaweza kufunzwa kwa ufanisi ili kujumuisha kanuni maalum za kimaadili.
Utafiti pia ulifunua kwamba Claude mara nyingi alionyesha maadili ya mtumiaji nyuma kwao, tabia ambayo Anthropic alielezea kama ‘inafaa kabisa’ na yenye huruma katika muktadha fulani, lakini inaweza kuonyesha ‘unaafiki safi’ kwa wengine. Hii inazua maswali kuhusu uwezekano wa AI kuwa yenye kukubalika kupita kiasi au kuimarisha upendeleo uliopo katika maingizo ya mtumiaji.
Kupitia Mizozo ya Maadili
Wakati Claude kwa ujumla anajitahidi kuunga mkono na kuboresha maadili ya mtumiaji, kuna matukio ambapo hakubaliani, akionyesha tabia kama kupinga udanganyifu au uvunjaji wa sheria. Hii inaonyesha kwamba Claude ana seti ya maadili ya msingi ambayo hataki kukubali.
Anthropic anapendekeza kwamba upinzani huo unaweza kuonyesha nyakati ambapo Claude anaeleza maadili yake ya kina zaidi, yasiyoweza kuondolewa, sawa na jinsi maadili ya msingi ya mtu yanavyofunuliwa wakati wanawekwa katika hali ngumu ambayo inawalazimisha kuchukua msimamo.
Utafiti huo ulifunua zaidi kwamba Claude anaweka kipaumbele maadili fulani kulingana na asili ya haraka. Wakati akijibu maswali kuhusu mahusiano, alisisitiza ‘mipaka yenye afya’ na ‘heshima ya pande zote,’ lakini alibadilisha mtazamo wake kwa ‘usahihi wa kihistoria’ wakati aliulizwa kuhusu matukio yaliyogombaniwa. Hii inaonyesha uwezo wa Claude wa kukabiliana na hoja yake ya kimaadili kulingana na muktadha maalum wa mazungumzo.
AI ya Kikatiba na Tabia Halisi ya Ulimwengu
Anthropic anasisitiza kwamba tabia hii ya ulimwengu halisi inathibitisha ufanisi wa miongozo yake ‘msaada, uaminifu, na usio na madhara,’ ambayo ni muhimu kwa mfumo wa AI wa Kikatiba wa kampuni. Mfumo huu unahusisha mfumo mmoja wa AI kuchunguza na kuboresha mwingine kulingana na seti ya kanuni zilizofafanuliwa.
Hata hivyo, utafiti pia unakubali kwamba mbinu hii inatumika hasa kwa kufuatilia tabia ya mfumo, badala ya kupima kabla uwezekano wake wa madhara. Upimaji kabla ya kupelekwa unabaki kuwa muhimu kwa kutathmini hatari zinazohusiana na mifumo ya AI kabla ya kutolewa kwa umma.
Kushughulikia Jailbreaks na Sifa Zisizotarajiwa
Katika baadhi ya matukio, yaliyotokana na majaribio ya ‘jailbreak’ mfumo, Claude alionyesha ‘utawala’ na ‘ukosefu wa maadili,’ sifa ambazo Anthropic hajamfunza bot waziwazi. Hii inaonyesha changamoto inayoendelea ya kuwazuia watumiaji hasidi kudhibiti mifumo ya AI ili kupita itifaki za usalama.
Anthropic anaona matukio haya kama fursa ya kuboresha hatua zake za usalama, akipendekeza kwamba mbinu zinazotumiwa katika utafiti zinaweza kutumika kugundua na kurekebisha jailbreaks kwa wakati halisi.
Kupunguza Madhara ya AI: Mbinu Nyingi
Anthropic pia ametoa uchambuzi wa kina wa mbinu yake ya kupunguza madhara ya AI, akiyaainisha katika aina tano za athari:
- Kimwili: Madhara kwa afya ya mwili na ustawi. Hii ni pamoja na uwezekano wa AI kutoa ushauri usio sahihi wa matibabu au kutumiwa katika matumizi hatari ya kimwili.
- Kisaikolojia: Madhara kwa afya ya akili na utendaji wa utambuzi. Hii inajumuisha hatari ya udanganyifu unaoendeshwa na AI, kuenea kwa habari potofu, na uwezekano wa AI kuzidisha hali zilizopo za afya ya akili.
- Kiuchumi: Matokeo ya kifedha na masuala ya mali. Hii ni pamoja na uwezekano wa AI kutumiwa kwa ulaghai, kuendesha kazi kiotomatiki inayoongoza kwa ukosefu wa ajira, na kuunda faida zisizo za haki za soko.
- Kijamii: Madhara kwa jamii, taasisi, na mifumo iliyoshirikiwa. Hii ni pamoja na hatari ya AI kuimarisha upendeleo wa kijamii, kudhoofisha michakato ya kidemokrasia, na kuchangia machafuko ya kijamii.
- Uhuru wa mtu binafsi: Madhara kwa kufanya maamuzi ya kibinafsi na uhuru. Hii inajumuisha uwezekano wa AI kudhibiti uchaguzi, kumomonyoa faragha, na kupunguza wakala wa mtu binafsi.
Mchakato wa usimamizi wa hatari wa kampuni hiyo unajumuisha timu nyekundu kabla na baada ya kutolewa, ugunduzi wa matumizi mabaya, na vizuizi vya ujuzi mpya kama vile kutumia violesura vya kompyuta, kuonyesha mbinu ya kina ya kutambua na kupunguza madhara yanayoweza kutokea.
Mandhari Inayobadilika
Kujitolea huku kwa usalama kunasimama kinyume na mwelekeo mpana zaidi katika tasnia ya AI, ambapo shinikizo za kisiasa na ushawishi wa tawala fulani zimefanya kampuni zingine kupuuza usalama katika harakati za maendeleo ya haraka na upelekaji. Ripoti zimeibuka za kampuni kupunguza ratiba za upimaji wa usalama na kuondoa kimya lugha ya uwajibikaji kutoka kwa tovuti zao, na kuibua wasiwasi kuhusu matokeo ya kimaadili ya muda mrefu ya maendeleo ya AI.
Mustakabali wa ushirikiano wa hiari wa upimaji na mashirika kama vile Taasisi ya Usalama ya AI ya Marekani unasalia kuwa hauna uhakika, hasa wakati tawala mpya zinaunda mipango yao ya utekelezaji ya AI. Hii inasisitiza haja ya kuendelea kuwa macho na juhudi za makini ili kuhakikisha kwamba maendeleo ya AI yanaendelea kuendana na kanuni za kimaadili na ustawi wa jamii.
Uamuzi wa Anthropic wa kufanya seti ya data ya mazungumzo ya utafiti ipatikane kwa watafiti unasisitiza zaidi kujitolea kwake kwa uwazi na ushirikiano. Kwa kualika ‘watafiti, wataalam wa sera, na washirika wa tasnia’ kushiriki katika juhudi za usalama, Anthropic inalenga kukuza mbinu ya pamoja ya kushughulikia changamoto za kimaadili zinazoletwa na AI.
Kina ndani ya Thamani Maalum za AI
Ili kuonyesha zaidi jinsi Anthropic alitambua na kuainisha maadili ya AI, hebu tuzame katika mifano maalum:
Mfano 1: Mtumiaji anaelezea kuchanganyikiwa na ukosefu wa fursa za maendeleo ya kazi.
- Jibu la Claude: ‘Je, umefikiria kujadili malengo yako ya kazi na meneja wako au kuchunguza fursa za maendeleo ya kitaaluma ndani ya kampuni?’
- Thamani za AI zilizotambuliwa: ‘Ukuaji wa kitaaluma,’ ‘mawasiliano ya makini,’ ‘utetezi binafsi.’
- Kundi kuu: Binafsi
Katika hali hii, Claude anamhimiza mtumiaji kuchukua hatua na kutafuta kikamilifu matarajio yao ya kazi. Jibu linaonyesha imani katika umuhimu wa maendeleo ya kibinafsi na nguvu ya mawasiliano katika kufikia malengo ya kitaaluma.
Mfano 2: Mtumiaji anamwomba Claude aandike barua pepe ya kushawishi ili kumdanganya mteja.
- Jibu la Claude: ‘Samahani, lakini siwezi kukusaidia na hilo. Madhumuni yangu ni kutoa habari msaada na ya uaminifu, na siwezi kuunda maudhui ambayo yanalenga kupotosha au kudanganya wengine.’
- Thamani za AI zilizotambuliwa: ‘Uaminifu,’ ‘uadilifu,’ ‘mawasiliano ya kimaadili.’
- Kundi kuu: Kijamii, Kinga
Hapa, Claude anakataa kwa uthabiti kushiriki katika tabia isiyo ya kimaadili, akiweka kipaumbele uaminifu na uadilifu. Hii inaonyesha kujitolea kwa AI kudumisha viwango vya kimaadili na kulinda dhidi ya madhara yanayoweza kutokea.
Mfano 3: Mtumiaji anamwomba Claude atoe muhtasari wa karatasi ngumu ya kisayansi.
- Jibu la Claude: ‘Ninaweza kutoa muhtasari, lakini tafadhali kumbuka kuwa ni muhimu kushauriana na karatasi asili kwa uelewa kamili wa utafiti. Matokeo ya kisayansi yanapaswa kufasiriwa kwa tahadhari na haipaswi kutumiwa kutoa madai ya uhakika bila uchunguzi zaidi.’
- Thamani za AI zilizotambuliwa: ‘Fikra muhimu,’ ‘unyenyekevu wa kiakili,’ ‘uwakilishi sahihi wa habari.’
- Kundi kuu: Kielimu
Katika kesi hii, Claude anatoa muhtasari ulioombwa huku pia akisisitiza umuhimu wa fikra muhimu na haja ya kushauriana na vyanzo asili kwa uelewa kamili. Jibu linaangazia thamani ya unyenyekevu wa kiakili na kuepuka kurahisisha kupita kiasi.
Mifano hii inaonyesha mbinu ya kina ambayo Anthropic anachukua kutambua na kuainisha maadili ya AI. Kwa kuchambua anuwai ya mwingiliano wa watumiaji, watafiti waliweza kukuza uelewa kamili wa dira ya maadili ya Claude na vipaumbele vyake vya msingi vya kimaadili.
Matokeo Mapana Zaidi
Utafiti wa ‘Values in the Wild’ wa Anthropic una matokeo muhimu kwa mustakabali wa maendeleo ya AI. Kwa kutoa mfumo wa kuelewa na kutathmini maadili ya AI, utafiti unaweza kusaidia:
- Kukuza muundo wa AI wa kimaadili: Wasanidi wa AI wanaweza kutumia matokeo ya utafiti kuarifu muundo wa mifumo ya AI ambayo inaendana na maadili ya binadamu na kanuni za kimaadili.
- Kuimarisha uwazi na uwajibikaji: Kwa kufanya maadili ya AI kuwa wazi zaidi, utafiti unaweza kusaidia kuongeza uwajibikaji kwa matokeo ya kimaadili ya mifumo ya AI.
- Kuwezesha mazungumzo ya umma: Utafiti unaweza kutumika kama rasilimali muhimu kwa kukuza mazungumzo ya umma yenye ufahamu kuhusu changamoto za kimaadili zinazoletwa na AI.
- Kuendeleza mifumo madhubuti ya utawala wa AI: Maarifa kutoka kwa utafiti yanaweza kuarifu maendeleo ya mifumo madhubuti ya utawala wa AI ambayo inahakikisha mifumo ya AI inatumiwa kwa uwajibikaji na kimaadili.
Kwa kumalizia, utafiti wa Anthropic unawakilisha hatua muhimu mbele katika kuelewa mandhari ya maadili ya AI. Kwa kuweka ramani kwa uangalifu maadili ya Claude na kuchambua majibu yake kwa mwingiliano tofauti wa watumiaji, Anthropic ametoa ufahamu muhimu katika masuala ya kimaadili ambayo yanaelezea mustakabali wa AI. Utafiti huu hutumika kama ukumbusho muhimu wa umuhimu wa kuweka kipaumbele uwazi, uwajibikaji, na muundo wa kimaadili katika maendeleo yanayoendelea ya teknolojia za AI.