Saya baru-baru ini berpartisipasi dalam eksperimen penulisan AI yang diselenggarakan oleh The Washington Post, bergabung dengan panel ahli komunikasi untuk mengevaluasi lima alat AI populer. Reporter teknologi Geoffrey Fowler membingkainya sebagai pandangan modern tentang bake-off tradisional, menantang kami untuk menilai seberapa baik alat AI ini dapat menangani lima jenis email pekerjaan dan pribadi yang menantang.
Mengapa Email?
Fowler menjelaskan bahwa penulisan email adalah ‘salah satu hal pertama yang benar-benar berguna yang dapat dilakukan AI dalam hidup Anda. Dan keterampilan yang ditunjukkan AI dalam menyusun email juga berlaku untuk jenis tugas penulisan lainnya.’
Para juri mengevaluasi total 150 email dalam uji buta ini. Sementara satu alat AI muncul sebagai pemenang yang jelas, eksperimen ini menyoroti potensi manfaat dan keterbatasan signifikan dari penulisan AI dan asisten komunikasi.
Selama evaluasi, kami tidak menyadari email mana yang dihasilkan oleh ChatGPT, Microsoft Copilot, Google Gemini, DeepSeek, atau Claude dari Anthropic. Fowler juga menyertakan email yang telah dia tulis sendiri, menantang kami untuk membedakan antara konten yang dihasilkan AI dan yang ditulis manusia.
Asisten Penulis AI Terbaik
Claude adalah pemenang yang tak terbantahkan.
Fowler mencatat, ‘Rata-rata, email Claude terasa lebih manusiawi daripada yang lain.’ Erica Dhawan, juri lainnya, menambahkan, ‘Claude menggunakan bahasa yang tepat dan hormat tanpa terlalu korporat atau impersonal.’
DeepSeek mengamankan tempat kedua, diikuti oleh Gemini, ChatGPT, dan Copilot, yang berada di peringkat terakhir. Terlepas dari ketersediaannya yang luas di Windows, Word, dan Outlook, para juri menemukan bahwa email Copilot terdengar terlalu dibuat-buat. Menurut Fowler, ‘Copilot memulai pesan dengan beberapa variasi dari ‘semoga Anda baik-baik saja’ yang sangat generik pada tiga dari lima tes kami.’
Terlepas dari kemenangan Claude dalam kompetisi keseluruhan, saya menemukan bahwa skor individu saya mengungkapkan preferensi untuk email yang ditulis manusia. Preferensi ini menggarisbawahi keterbatasan mendasar yang dimiliki oleh semua asisten AI.
Fowler menunjukkan bahwa para juri tidak selalu setuju tentang email mana yang terbaik, tetapi mereka berkumpul pada masalah inti: keaslian. Dia menekankan bahwa ‘Bahkan jika AI secara teknis ‘sopan’ dalam tulisannya, itu masih bisa terdengar tidak tulus bagi manusia.’
Pengambilan kunci saya dari eksperimen adalah bahwa alat AI unggul dalam menguraikan, menyusun argumen, dan memastikan kejelasan. Namun, mereka sering menghasilkan tulisan yang kaku, terlalu formal, robotik, dan kurang personalisasi, emosi, dan empati.
Tantangan yang dihadapi asisten AI dengan kreativitas berasal dari arsitektur dasar model bahasa besar. Model-model ini dirancang untuk menghasilkan konten dengan ‘koherensi sintaksis,’ yang berarti merangkai kalimat bersama-sama yang mengalir secara alami dan mematuhi aturan tata bahasa. Namun, seperti yang kita semua tahu, aturan terkadang dibuat untuk dilanggar.
Sang Pelanggar Aturan: Steve Jobs
Pada tahun 1997, Apple, di bawah kepemimpinan Steve Jobs, meluncurkan salah satu kampanye pemasaran paling berkesan dalam sejarah. Pada saat itu, perusahaan itu terhuyung-huyung di ambang kebangkrutan dan sangat membutuhkan kampanye yang akan menarik perhatian dan membedakannya dari pesaing.
Iklan televisi yang dihasilkan, yang terkenal sebagai ‘orang-orang gila,’ menampilkan potret hitam putih tokoh-tokoh pemberontak dan visioner seperti Bob Dylan, John Lennon, dan Martin Luther King Jr. Kampanye ini secara luas dikreditkan dengan merevitalisasi identitas merek Apple dan memainkan peran penting dalam pemulihan keuangan perusahaan.
Jika AI ditugaskan untuk membuat kampanye Apple, itu mungkin tidak akan terjadi.
Bagaimana saya bisa begitu yakin? Karena Claude sendiri mengakuinya.
Claude mengakui bahwa ‘Jika diminta untuk membuat slogan seperti kampanye terkenal Apple dalam mode default saya, saya hampir pasti akan menulis ‘Berpikir Berbeda’ daripada ‘Berpikir Berlainan.’ Pelatihan saya menekankan kebenaran tata bahasa. Bentuk adverbial yang tepat untuk memodifikasi kata kerja ‘berpikir’ adalah ‘berbeda,’ dan saya akan cenderung mengikuti aturan yang ditetapkan ini.’
Menurut Claude, ia dapat menganalisis mengapa kampanye itu beresonansi setelah fakta. Namun, ‘menghasilkan jenis pemberontakan tata bahasa yang disengaja itu tidak datang secara alami kepada saya.’
AI tidak memiliki semangat pemberontak hanya karena ia bukan manusia. Sementara beberapa bot AI mungkin lebih mahir daripada yang lain dalam mensimulasikan kualitas manusia dalam tulisan mereka, mereka pada akhirnya tidak memiliki suara unik yang dibentuk oleh pengalaman pribadi dan wawasan kreatif yang mendefinisikan komunikasi manusia.
AI harus dipandang sebagai asisten yang bermanfaat yang dapat membantu dalam bertukar pikiran, mengklarifikasi pemikiran, meringkas dokumen, dan mengumpulkan serta mengatur informasi. Ini semua adalah tugas penting dan memakan waktu. Namun, sementara AI tentu dapat meningkatkan komunikasi, itu tidak boleh menggantikan komunikator manusia.
Semakin banyak orang mengandalkan asisten AI untuk menyusun email, resume, memo, dan presentasi, ada peningkatan risiko homogenisasi, di mana individu mulai terdengar serupa. Perekrut perusahaan sudah memperhatikan tren ini.
Setiap individu memiliki cerita unik dan kuat untuk dibagikan. Penting untuk tidak membiarkan suara buatan menenggelamkan suara otentik seseorang.
Berikut adalah beberapa poin tambahan yang dapat dikembangkan untuk memperluas artikel ini menjadi lebih dari 1000 kata:
Studi Kasus Lebih Lanjut: Berikan lebih banyak contoh spesifik tentang bagaimana setiap alat AI (ChatGPT, Copilot, Gemini, DeepSeek, Claude) berkinerja dalam tes email yang berbeda. Misalnya, apa jenis kesalahan tata bahasa atau gaya yang sering dibuat oleh masing-masing alat? Bagaimana mereka menangani nada dan emosi yang berbeda?
Analisis Mendalam tentang Claude: Mengapa Claude dianggap lebih ‘manusiawi’ daripada alat lain? Apakah ada fitur atau pendekatan khusus yang membuatnya unggul? Bandingkan dan kontraskan pendekatannya dengan alat lain secara lebih rinci.
Keterbatasan Model Bahasa Besar (LLM): Jelaskan lebih lanjut tentang arsitektur LLM dan bagaimana hal itu memengaruhi kemampuan mereka untuk menghasilkan tulisan yang kreatif dan autentik. Diskusikan konsep seperti ‘overfitting’ dan bagaimana LLM cenderung menghasilkan konten yang aman dan dapat diprediksi daripada mengambil risiko dengan ide-ide baru.
Peran Juri: Elaborasi tentang latar belakang dan keahlian para juri yang berpartisipasi dalam eksperimen. Bagaimana pengalaman mereka memengaruhi evaluasi mereka? Apakah ada perbedaan pendapat di antara para juri, dan bagaimana mereka diselesaikan?
Implikasi Etis: Diskusikan implikasi etis dari penggunaan AI dalam penulisan dan komunikasi. Apakah ada risiko bahwa AI dapat digunakan untuk menyebarkan disinformasi atau memanipulasi orang lain? Bagaimana kita dapat memastikan bahwa AI digunakan secara bertanggung jawab dan etis dalam konteks ini?
Masa Depan Penulisan AI: Apa yang dapat kita harapkan dari penulisan AI di masa depan? Apakah ada kemungkinan bahwa AI pada akhirnya akan dapat menghasilkan tulisan yang benar-benar kreatif dan autentik? Apa peran manusia dalam proses penulisan di masa depan?
Tips untuk Menggunakan AI secara Efektif: Berikan tips praktis tentang cara menggunakan AI sebagai asisten penulisan tanpa mengorbankan keaslian dan suara pribadi. Bagaimana kita dapat menggunakan AI untuk meningkatkan tulisan kita tanpa membiarkannya mengambil alih sepenuhnya?
Studi Tambahan: Rujuk ke studi atau penelitian lain tentang penulisan AI untuk mendukung argumen Anda dan memberikan konteks yang lebih luas untuk eksperimen yang Anda ikuti.
Dengan mengembangkan poin-poin ini dan menambahkan detail dan contoh yang lebih spesifik, Anda dapat dengan mudah memperluas artikel ini menjadi lebih dari 1000 kata dan memberikan analisis yang lebih mendalam dan komprehensif tentang penulisan AI.