Perkembangan pesat dalam kecerdasan buatan (AI) sangat memukau sehingga untuk terus mengikuti perkembangan terbaru hampir membutuhkan upaya penuh waktu.
Saya sangat menyadari hal ini, karena ini adalah pekerjaan saya. Untuk menjadi yang pertama merasakan model terbaru, saya berlangganan mode Pro Anthropic untuk menggunakan model terbaru mereka, mode “pemikiran diperluas” Claude 3.7. Pada saat yang sama, saya berlangganan mode perusahaan OpenAI untuk menguji model terbaru mereka o3 dan o4-mini-high (lebih lanjut tentang konvensi penamaan OpenAI yang membingungkan nanti!), dan menggunakan model pembuatan gambar baru OpenAI, 4o, untuk membuat banyak gambar. Kinerja 4o yang luar biasa membuat saya membatalkan langganan saya sebelumnya ke alat penghasil gambar Midjourney.
Selain itu, saya juga berlangganan Grok 3 Elon Musk, yang memiliki fitur AI favorit saya. Saya juga mencoba menggunakan platform agen AI Tiongkok Manus untuk berbelanja dan menjadwalkan. Langganan ini hampir menghabiskan anggaran saya, tetapi itu tidak termasuk semua AI yang saya gunakan dalam bentuk lain. Bulan ini, saat saya menulis artikel ini, Google melakukan peningkatan besar-besaran pada produk AI terbaiknya, Gemini 2.5, dan Meta merilis Llama 4, model AI sumber terbuka terbesar hingga saat ini.
Jadi, jika mengikuti perkembangan AI bukanlah pekerjaan sehari-hari Anda, tetapi Anda masih ingin tahu AI mana yang harus digunakan dalam situasi apa untuk benar-benar meningkatkan kehidupan Anda, tanpa membuang waktu untuk model yang berkinerja buruk, apa yang harus Anda lakukan?
Itulah tujuan dari artikel ini. Kami akan mempelajari, dengan cara yang mirip dengan “Laporan Konsumen,” AI mana yang paling cocok untuk berbagai aplikasi, dan cara menggunakannya secara praktis, semuanya berdasarkan pengalaman saya dalam tugas-tugas aktual.
Namun, pertama-tama perlu dinyatakan bahwa: Vox Media adalah salah satu dari beberapa penerbit yang telah menandatangani perjanjian kemitraan dengan OpenAI, tetapi laporan kami selalu mempertahankan independensi editorial. Future Perfect sebagian didanai oleh BEMC Foundation, yang penyandang dana utamanya juga merupakan investor awal di Anthropic; mereka juga tidak melakukan intervensi editorial apa pun dalam konten kami. Istri saya bekerja di Google, tetapi tidak terkait dengan produk AI mereka; oleh karena itu, saya biasanya tidak meliput Google, tetapi dalam artikel seperti ini, tidak memasukkan Google akan menjadi tidak bertanggung jawab.
Kabar baiknya adalah, artikel ini tidak mengharuskan Anda untuk mempercayai independensi editorial saya; Saya akan menunjukkan pekerjaan saya. Saya telah melakukan lusinan perbandingan terhadap semua AI utama di pasar, banyak di antaranya yang saya rancang sendiri. Saya mendorong Anda untuk membandingkan jawaban mereka, dan menilai sendiri apakah saya telah memilih AI yang tepat untuk direkomendasikan.
Tentang Etika Seni AI
Seni AI dibuat dengan melatih komputer pada konten internet, dengan sedikit atau tanpa mempertimbangkan hak cipta atau niat pencipta. Oleh karena itu, sebagian besar seniman tidak senang dengan hal ini. Dalam situasi ini, apakah menggunakan seni AI itu wajar?
Saya pikir, di dunia yang adil, OpenAI pasti akan memberikan kompensasi kepada beberapa seniman—di dunia yang adil, Kongres akan mengambil tindakan untuk mengatur batasan peminjaman seni. Sementara itu, saya semakin yakin bahwa undang-undang hak cipta yang ada tidak cocok untuk mengatasi masalah ini. Seniman saling memengaruhi, saling mengomentari, dan saling meminjam, dan orang-orang yang dapat menggunakan alat AI akan terus melakukannya.
Filosofi pribadi saya dipengaruhi oleh budaya penggemar masa kecil saya: membangun karya orang lain untuk kesenangan Anda sendiri tidak apa-apa, tetapi jika Anda menyukainya, Anda harus membayarnya, dan jangan pernah menjualnya. Ini berarti bahwa seni AI generatif tidak dapat digunakan untuk tujuan komersial, tetapi tidak apa-apa untuk bermain-main dengan foto keluarga Anda.
Pilihan Terbaik untuk Pembuatan Gambar
Mode pembuatan gambar 4o yang baru diluncurkan OpenAI sejauh ini merupakan alat penghasil gambar AI terbaik, dan dengan keuntungan yang jelas. Itu adalah yang terbaik di kategori gratis dan berbayar.
Sebelum peluncuran 4o, saya berlangganan platform penghasil gambar AI Midjourney. Ketika seni AI disebutkan, Anda mungkin memikirkan Midjourney: ia dapat menghasilkan karya yang misterius, tak terlupakan, dan indah secara visual, dan memiliki beberapa alat luar biasa untuk meningkatkan dan mengedit hasil akhir Anda, seperti memperbaiki rambut seseorang, sambil menjaga yang lainnya tetap sama.
Keunggulan terbesar 4o adalah ia dapat dengan andal mengubah foto yang tidak bagus menjadi karya seni yang indah, sambil mempertahankan ciri-ciri foto aslinya. Tidak ada model sebelumnya yang dapat melakukan ini.
Dalam foto ini, istri saya dan saya menggendong anak kami, merayakan ulang tahun pertamanya:
AI memindahkan kue (yang hampir terhalang oleh gulungan tisu dalam foto asli) ke posisi fokus gambar, sambil mempertahankan pose istri saya dan saya menggendong anak kami, serta meja yang berantakan dan kulkas yang ditempeli foto di latar belakang. Efek akhirnya menghangatkan hati, menawan, dan menggemaskan.
Kemampuan inilah yang membuat 4o menjadi populer akhir-akhir ini, yang tidak dapat dilakukan oleh generator gambar sebelumnya.
Dalam foto di bawah ini, Midjourney diminta untuk melakukan transfer gaya, mengubah foto yang sama menjadi “film gaya Pixar”:
Anda akan melihat bahwa ini terlihat seperti keluarga yang sama sekali berbeda, tanpa inspirasi nyata dari foto aslinya! Anda akhirnya bisa mendapatkan efek yang lebih baik dari ini dari Midjourney, tetapi itu akan memakan waktu berminggu-minggu untuk menguasai bahasa dan perangkat khusus platform ini, menjadi ahli dalam memberikan petunjuk.
Sebagai perbandingan, ChatGPT, hanya dengan permintaan sederhana, tanpa bahasa profesional, dapat memberi saya hasil yang jauh lebih unggul daripada Midjourney pada percobaan pertama.
Perbedaan antara 4o dan model gambar lainnya paling jelas dalam permintaan ini, tetapi juga lebih cocok untuk hampir semua tugas pembuatan gambar lainnya yang saya gunakan. Produk siap pakai Anda sangat bagus, dan tidak sulit untuk menghasilkan karya yang lebih baik. Idealnya, inilah yang seharusnya kita dapatkan dari alat AI—non-profesional pun dapat membuat sesuatu yang menakjubkan dengan bahasa sederhana.
Salah satu kekurangan 4o saat ini adalah mengedit sebagian kecil gambar sambil menjaga bagian lain tetap sama. Namun meskipun begitu, Anda tidak lagi membutuhkan Midjourney—Gemini sekarang menawarkan fitur ini secara gratis.
Strategi Petunjuk untuk Pembuatan Gambar 4o
Untuk mendapatkan gambar yang bagus dari 4o, Anda pertama-tama perlu melewati filter yang melarang berbagai gambar (seperti gambar ofensif atau pornografi), tetapi filter ini sering kali diterapkan secara acak pada konten yang sama sekali tidak berbahaya. Untuk menghindari teguran sesekali dari filter konten, jangan meminta karya yang dibuat dengan gaya artis tertentu, tetapi minta karya yang mengingatkan pada artis itu, lalu secara khusus meminta “transfer gaya.” Yang pasti, ini bukan satu-satunya solusi yang efektif, tetapi ini berhasil bagi saya.
Pada bulan Maret tahun ini, ada demam singkat di internet ketika orang-orang dapat menggunakan 4o untuk mereproduksi foto keluarga yang lucu dengan gaya Studio Ghibli oleh master animasi Jepang Hayao Miyazaki. Tetapi gaya Studio Ghibli bukan hanya tentang kelucuan, dengan sedikit lebih banyak petunjuk, Anda bisa mendapatkan efek yang lebih baik. Berikut adalah rendering gaya Studio Ghibli dari 4o dari foto putri saya yang mencuri makanan ringan dari meja, petunjuknya hanyalah “tolong Ghibli-isasi”:
Kawaii! Tetapi jika Anda membiarkan 4o terlebih dahulu berpikir tentang apa yang membuat foto ini memiliki gaya Ghibli, film Studio Ghibli mana yang mungkin cocok, dan detail kecil apa yang akan dimasukkan dalam film seperti itu, Anda akan mendapatkan hasil seperti ini:
Perbedaan ini halus tetapi bermakna: cahaya datang dari sumber cahaya tertentu, bukan kecerahan pasif umum. Ada lebih banyak jenis makanan di atas meja, dan detailnya membuat makanan terlihat lebih nyata. Buku di lantai bukan hanya sembarang buku—ia dengan jelas menunjukkan karya klasik Eric Carle “The Very Hungry Caterpillar,” membangkitkan kenangan hanya dengan dua warna dan satu garis. Niat dan intensitas bayi dalam foto tidak ada dalam foto pertama.
Beberapa tahun yang lalu, salah satu hal aneh tentang model bahasa adalah jika Anda hanya memberi tahu mereka “berikan jawaban yang cerdas,” mereka akan menjadi lebih cerdas. Ini tidak terlalu benar untuk model bahasa lagi, tetapi sangat benar untuk pembuatan seni AI. Coba minta AI untuk melakukan pekerjaan dengan baik, itu akan melakukannya dengan lebih baik. Tanyakan apakah itu benar-benar menangkap kejeniusan artis, itu akan memberi Anda jawaban yang bijaksana, dan kemudian melukis versi yang lebih baik.
Untuk gaya seni yang lebih realistis (seperti ilustrasi pensil, foto realisme, atau lukisan cat minyak), perbedaannya bahkan lebih jelas, jika Anda tidak tahu cara meminta AI, gaya ini tidak selalu terlihat bagus, dan sering kali jatuh ke dalam lembah kekhawatiran. Jika saya mengunggah foto saya dan putri kecil saya di pantai, dan hanya menggunakan petunjuk seperti “tolong ubah gaya menjadi ilustrasi yang mengingatkan saya pada Rockwell,” saya akan mendapatkan hasil seperti ini:
Bagi AI, ini mengesankan, tetapi sebagai karya seni, itu sebenarnya tidak terlalu bagus, dan hampir sepenuhnya kurang memiliki keajaiban Norman Rockwell. Ini tidak mengherankan: kecuali Anda meluangkan waktu untuk membuat AI menggambarnya dengan benar, gaya seni yang lebih realistis seperti Rockwell sering kali gagal mencapai efek yang diinginkan.
Jika Anda bisa melakukannya, inilah strategi yang saya rekomendasikan: Jangan hanya mengunggah satu foto, tetapi sekelompok foto, setiap foto dengan pose dan momen yang sedikit berbeda. Unggah foto wajah setiap anggota keluarga yang jelas, dan beri tahu AI bahwa itu telah digunakan sebagai referensi. Kemudian, jangan meminta AI untuk segera menghasilkan gambar, tetapi minta AI untuk berdiskusi dengan Anda tentang apa yang ingin Anda tangkap. Inilah yang saya tulis:
Foto ini adalah momen ketika putri saya melihat laut untuk pertama kalinya. Saya ingin ilustrasi yang menangkap momen ini dengan gaya ilustrator Abad Pertengahan seperti Norman Rockwell—sesuatu yang tajam, penuh perhatian terhadap detail, dipersonalisasi, dan berfokus pada keajaiban momen biasa dan kegembiraan kehidupan biasa. Saya telah memberikan foto tambahan saya dan putriku sebagai referensi Anda. Sebelum Anda menghasilkan gambar, mari kita diskusikan unsur-unsur penting dari gaya Rockwell, apa yang akan dibawanya ke foto ini, dan bagaimana kita dapat menangkapnya.
4o menanggapi permintaan seperti itu dengan antusias:
Saya akan dengan senang hati membahas cara menangkap momen ini dengan ilustrasi gaya Norman Rockwell - ini adalah kandidat yang sempurna untuk gaya itu: pertemuan pertama dengan sesuatu yang luas dan liar (laut!), didasarkan pada momen yang hangat, penuh perhatian, dan sangat manusiawi antara orang tua dan anak.
Mari kita uraikan beberapa elemen penting dari gaya Rockwell dan bagaimana mereka dapat diterapkan pada adegan ini.
Setelah beberapa bolak-balik, ia menghasilkan hasil seperti ini:
Rockwell? Tidak sepenuhnya. Tapi ini jauh lebih baik daripada draf pertama yang baru saja kita lihat. Ia memiliki lebih banyak gerakan, lebih banyak energi, lebih banyak detail, dan lebih banyak ekspresi—dan semua ini hanya berasal dari meminta AI untuk memikirkan apa yang seharusnya coba dicapai oleh lukisan itu sebelum menggambarnya!
Anda juga dapat meminta 4o untuk mengubah gambarnya, tetapi Anda benar-benar hanya dapat meminta perubahan sekali: menurut pengalaman saya, setelah perubahan pertama, ia mulai membuat lukisan itu semakin buruk, mungkin karena “konteks” yang digunakannya sekarang diisi dengan drafnya sendiri yang buruk. (Ini adalah salah satu dari banyak contoh bagaimana AI tidak bekerja seperti manusia.)
Di sinilah Midjourney masih bersinar—ia memiliki alat yang sangat bagus untuk mengedit bagian-bagian tertentu dari gambar sambil mempertahankan gaya keseluruhan, sesuatu yang sangat kurang dimiliki 4o. Jika Anda ingin melakukan perubahan kedua pada lukisan yang Anda peroleh di 4o, saya sarankan Anda membuka jendela obrolan baru, dan menyalin draf yang sedang Anda ubah bersama dengan gambar inspirasi asli Anda.
Strategi petunjuk sederhana ini berlaku untuk hampir semua hal yang Anda coba lakukan dengan AI. Bahkan jika Anda sedang terburu-buru, saya sangat menyarankan Anda untuk menanyakan kepada AI terlebih dahulu “[artis] apa yang akan dilihat dalam gambar ini” sebelum meminta rendering, dan jika Anda punya waktu, saya sarankan Anda meluangkan waktu untuk diskusi panjang tentang visi Anda.
Pilihan Terbaik untuk Memenangkan Perdebatan Internet yang Membosankan
X.AI Elon Musk merilis Grok 3, yang dilengkapi dengan fitur luar biasa yang telah saya tunggu-tunggu dengan cemas untuk direplikasi oleh perusahaan lain: tombol yang memindai profil X seseorang dan memberi tahu Anda segala sesuatu tentang mereka.
Setiap kali seseorang membalas tweet saya dengan cara yang sangat tak terlupakan (baik atau buruk), saya akan mengklik tombol itu untuk mendapatkan ringkasan seluruh catatan keberadaan Twitter mereka. Apakah mereka bijaksana? Apakah mereka terlibat dengan tulus? Apakah mereka “petani dari Nebraska”? Apakah mereka sebagian besar memposting tentang mengapa Ukraina buruk (yaitu, mungkin bot)?
Ini adalah fitur yang hebat. Jadi, tentu saja, X.AI segera sangat melemahkannya, kemungkinan karena orang-orang seperti saya sering menggunakannya dan mengajukan banyak pertanyaan yang berat. Saya pikir itu tidak lagi menggunakan model Grok yang paling canggih, dan sekarang pasti hanya memindai riwayat profil selama beberapa hari. Namun, jika ada yang mencari peluang produk yang hebat, tolong kembalikan versi yang bagus dari fitur ini! Ini benar-benar kesenangan yang bersalah, tetapi ini adalah salah satu dari sedikit kasus di mana saya terus-menerus menggunakan AI.
Pilihan Terbaik untuk Menulis Fiksi
Gemini 2.5 Pro adalah AI terbaik untuk menulis fiksi di kategori gratis; GPT 4.5 mengunggulinya di kategori berbayar.
Saya bukan seorang seniman, jadi ketidaksempurnaan AI dalam seni tidak terlalu mengganggu saya—itu masih jauh lebih baik daripada yang bisa saya lakukan sendiri! Tetapi saya seorang penulis fiksi, jadi dalam hal menulis fiksi, saya tidak dapat menahan diri untuk tidak melihat batasan AI.
Yang terpenting adalah seberapa dapat diprediksi tren penulisan kreatif AI. Seni menulis adalah seni memenangkan investasi pembaca dan membalas pembaca. Kecerdasan buatan …… tidak melakukan itu. Mereka dapat menulis metafora yang indah; mereka dapat membuat deskripsi puitis dalam gaya apa pun yang Anda inginkan. Tetapi mereka belum dapat memberikan konten sebenarnya dari fiksi yang luar biasa.
Jika Anda ingin cerita pengantar tidur yang konyol dengan anak Anda sebagai karakter utama (anak-anak menyukai ini), atau Anda menginginkan papan gema untuk ide yang dapat Anda gabungkan ke dalam karya Anda sendiri, maka AI sangat bagus. Mereka juga pembaca fiksi yang ramah, yang senang memberikan umpan balik dan analisis (mungkin antusiasme agak terlalu tinggi).
Seperti halnya seni, petunjuk adalah kuncinya. Saya terutama mengeksplorasi kemampuan AI untuk menghasilkan fiksi dengan meminta mereka untuk menulis kata pengantar untuk Game of Thrones George R.R. Martin (saya memilih ini karena, tentu saja, impian utamanya adalah AI dapat menyelesaikan seri yang ditakdirkan untuk gagal ini).
Martin sangat pandai dalam apa yang dia lakukan. Kata pengantar, yang menceritakan kisah beberapa orang yang tidak beruntung di Night’s Watch yang bertemu dengan musuh supernatural mereka, berhasil membangun suasana unik dunia Game of Thrones sambil segera menarik pembaca. Hanya dalam 14 halaman, kata pengantar ini mewakili semua hal yang belum dapat dilakukan AI dalam hal menulis. Prosa mereka seringkali terlalu berlebihan; dialog mereka canggung dan tidak halus.
Anda akan melihat bahwa tidak hanya ini jauh lebih buruk daripada Martin (dan karya Martin hampir pasti ada dalam data pelatihan!), tetapi semuanya buruk dengan cara yang sama. Prosa mewah dan bertele-tele: Martin menggunakan bahasa normal untuk memperkenalkan kegelisahan secara metodis, bahkan tidak mengisyaratkan fenomena supernatural, dan menggerakkan cerita melalui konflik antar karakter, sementara AI tidak halus sama sekali. Mereka tahu ini adalah cerita tentang fenomena supernatural, dan mereka tidak ragu untuk menempatkannya di bagian depan.
Ini bukannya mengatakan bahwa mereka semua sama. Dalam pengalaman saya mengajari AI untuk menulis dengan baik, saya memang merasa bahwa Gemini adalah pelajar tercepat (tingkat gratis), sementara ChatGPT 4.5 memiliki beberapa trik khusus (tingkat berbayar). ChatGPT 4.5 adalah satu-satunya AI yang penulisan fiksinya membuat Anda terkejut dan berkata “wow, ini ditulis oleh AI?” Bagi saya,