Tim Riset Mendalam: Agen All-in-One

Agen Kedua OpenAI

Tiga minggu lalu, OpenAI memperkenalkan Deep Research, agen keduanya. Agen ini dapat mencari di berbagai situs web dan menyelesaikan riset online yang komprehensif dalam 5-30 menit, mensintesis informasi dan memberikan laporan terperinci dengan kutipan.

Artikel ini mengkompilasi dan mengatur wawancara oleh Sequoia Capital dengan Isa Fulford dan Josh Tobin, pimpinan Deep Research OpenAI. Kedua anggota berbagi secara rinci spesifikasi teknis dan pemikiran produk di balik Deep Research, bersama dengan kasus penggunaan yang saat ini mereka amati.

Deep Research berasal dari eksplorasi internal OpenAI tentang kemampuan model untuk menangani tugas-tugas jangka panjang. Tujuan jangka panjang tim adalah untuk menyediakan pengguna dengan agen utama di masa depan: solusi all-in-one alami untuk pencarian web, penggunaan komputer, atau tugas lain apa pun yang mereka inginkan untuk diselesaikan oleh agen.

Deep Research juga telah dioptimalkan secara khusus di tingkat produk. Misalnya, seperti yang disebutkan dalam analisis DeepSeek kami, Deep Research meningkatkan kepercayaan pengguna melalui kutipan yang jelas dan Chain-of-Thought (CoT). Tim juga telah merancang alur klarifikasi untuk memastikan pemahaman yang konsisten tentang tugas tersebut. Deep Research melampaui pencarian AI dan ChatGPT dalam pengambilan dan pengorganisasian informasi. Namun, pada tahap ini, Deep Research tidak seefektif dalam mengekstraksi wawasan baru dari informasi yang ada dan belum dapat membuat penemuan ilmiah baru.

Poin Penting:

  • OpenAI telah meluncurkan agen keduanya, Deep Research, yang mampu melakukan investigasi online secara menyeluruh.
  • Kemampuan agen berasal dari pelatihan model end-to-end.
  • Deep Research unggul dalam sintesis informasi dan menemukan fakta-fakta tersembunyi.
  • Kasus penggunaan meliputi pekerjaan profesional, kehidupan pribadi, pemrograman, dan pendidikan.
  • Tim mengantisipasi kemajuan signifikan untuk agen pada tahun 2025.

Kemampuan Agen Berasal dari Pelatihan Model End-to-End

Deep Research adalah agen yang mampu mencari di berbagai situs web online dan menghasilkan laporan komprehensif, menyelesaikan banyak tugas yang akan memakan waktu berjam-jam bagi manusia. Beroperasi dalam ChatGPT, ia menjawab pertanyaan dalam waktu sekitar 5-30 menit, memungkinkan penelitian yang lebih dalam dan memberikan jawaban yang lebih rinci dan spesifik daripada ChatGPT standar. OpenAI sebelumnya meluncurkan Operator, dan Deep Research adalah agen keduanya, dengan lebih banyak lagi yang akan datang.

Asal-usul

Sekitar setahun yang lalu, OpenAI mulai mengadopsi paradigma penalaran secara internal, yang bertujuan untuk melatih model untuk berpikir sebelum menjawab. Pendekatan ini terbukti sangat sukses.

Awalnya, OpenAI berfokus pada Matematika dan Sains. Namun, mereka menemukan bahwa arsitektur model penalaran baru ini juga membuka kemampuan untuk menangani tugas-tugas jangka panjang, yang melibatkan kemampuan agen.

Secara bersamaan, OpenAI menyadari bahwa banyak tugas memerlukan riset online yang ekstensif atau konteks eksternal, kemampuan penalaran yang kuat, pembedaan sumber informasi, dan tingkat kreativitas. Pada akhirnya, OpenAI mengembangkan metode pelatihan model yang mampu menangani tugas-tugas ini. Mereka memutuskan untuk melatih model untuk melakukan tugas-tugas browsing, menggunakan metode yang sama seperti untuk melatih model penalaran tetapi diterapkan pada tugas-tugas dunia nyata yang lebih banyak.

Proyek Deep Research dimulai dengan demo asli oleh Isa Fulford dan Yash Patil. Josh Tobin bergabung kembali dengan OpenAI sekitar enam bulan lalu setelah bekerja di sebuah startup, menjadi sangat tertarik pada pekerjaan dasar, dan bergabung dengan proyek Deep Research.

Individu Kunci:

  • Isa Fulford: Peneliti AI di tim Post-training OpenAI, kontributor utama untuk ChatGPT Retrieval Plugin.
  • Yash Patil: Anggota tim model inti di tim Post-training OpenAI, telah keluar dari Stanford.
  • Josh Tobin: Sebelumnya seorang Ilmuwan Riset di OpenAI, kemudian mendirikan Gantry (sebuah produk untuk meningkatkan ML melalui analisis, peringatan, dan umpan balik manusia). Dia bergabung kembali dengan OpenAI dan saat ini memimpin tim riset produk Agents.

Alur Klarifikasi

Deep Research menampilkan desain yang unik: alur klarifikasi. Sebelum memulai penelitian, model Deep Research mengajukan pertanyaan kepada pengguna. Biasanya, ChatGPT hanya mengajukan pertanyaan tindak lanjut di akhir jawaban atau menanyakan apakah jawabannya memuaskan, tidak seperti Deep Research, yang terlibat dalam perilaku ini di awal.

Ini adalah pilihan desain yang disengaja oleh tim. Pengguna menerima respons terbaik dari model Deep Research hanya ketika perintah mereka sangat jelas dan terperinci. Namun, pengguna seringkali tidak memberikan semua informasi dalam perintah awal mereka. Oleh karena itu, OpenAI ingin memastikan bahwa setelah menunggu 5 atau 30 menit, pengguna akan menerima jawaban yang cukup rinci dan memuaskan. Langkah ekstra ini ditambahkan untuk memastikan pengguna memberikan semua detail yang diperlukan untuk model.

Banyak pengguna di X telah menyebutkan berinteraksi dengan o1 atau o1 Pro terlebih dahulu untuk menyempurnakan perintah mereka. Setelah puas, mereka mengirimkan perintah ke Deep Research.

Bentuk Utama Agen

Selama beberapa bulan terakhir, OpenAI telah meluncurkan tiga versi Deep Research yang berbeda, semuanya bernama Deep Research. Josh Tobin percaya bahwa meskipun setiap produk memiliki kekuatan dan kelemahannya, perbedaan kualitas di antara mereka terlihat jelas. Pada akhirnya, ini karena bagaimana model dibangun, upaya yang diinvestasikan dalam membangun dataset, dan penggunaan model seri-O sebagai mesin. Ini memungkinkan model Deep Research dioptimalkan, menciptakan alat yang sangat cerdas dan berkualitas tinggi.

Saat ini, Deep Research, O3, dan Operator relatif independen. Namun, OpenAI bertujuan agar pengguna pada akhirnya memiliki satu agen utama yang dapat melakukan pencarian web, menggunakan komputer, atau menyelesaikan tugas lain yang diinginkan, mengintegrasikan semua fungsi ini dengan cara yang lebih alami.

Pelatihan End-to-End adalah Alasan Mendasar Kekuatan Model

Model dasar Deep Research adalah versi O3 yang disetel dengan baik. O3 adalah model penalaran tercanggih OpenAI, dan sebagian besar kemampuan analitis Deep Research berasal darinya. OpenAI secara khusus melatih model Deep Research pada tugas-tugas browsing yang kompleks dan tugas-tugas penalaran lainnya. Oleh karena itu, Deep Research juga dapat menggunakan alat browsing dan alat Python. Melalui pelatihan end-to-end pada tugas-tugas ini, Deep Research mempelajari strategi untuk menanganinya, yang pada akhirnya membuat model unggul dalam analisis pencarian online.

Secara intuitif, pengguna membuat permintaan, dan model pertama-tama memikirkannya dengan cermat. Kemudian, ia mencari informasi yang relevan, mengekstraknya, dan membacanya. Setelah memahami bagaimana informasi ini berhubungan dengan permintaan, model memutuskan apa yang akan dicari selanjutnya untuk lebih dekat dengan jawaban akhir yang diinginkan pengguna. Deep Research dapat mengintegrasikan semua informasi ini ke dalam laporan yang rapi, dengan kutipan yang mengarah ke sumber aslinya.

Inovasi yang memberikan kemampuan agen Deep Research terletak pada pelatihan end-to-end model OpenAI. Ini berarti bahwa banyak operasi selama proses penelitian tidak dapat diprediksi sebelumnya. Tidak mungkin untuk mencapai fleksibilitas yang diperoleh model melalui pelatihan dengan menulis model bahasa, program, atau skrip. Melalui pelatihan, model Deep Research belajar bagaimana bereaksi terhadap informasi web real-time dan menyesuaikan strategi dengan segera berdasarkan apa yang dilihatnya. Oleh karena itu, model Deep Research sebenarnya melakukan pencarian yang sangat kreatif. Pengguna dapat melihat seberapa cerdas model dalam memutuskan apa yang akan dicari selanjutnya atau bagaimana cara mengatasi masalah tertentu dengan membaca ringkasan CoT.

Perbedaan Antara Deep Research dan Pencarian AI

Mengenai pertanyaan John Collison tentang seberapa banyak kemampuan Deep Research berasal dari akses real-time ke konten web dan seberapa banyak dari CoT, kedua peneliti OpenAI percaya bahwa kemampuan luar biasa Deep Research adalah hasil dari kombinasi keduanya.

Produk pencarian AI lainnya tidak dilatih secara end-to-end, sehingga mereka tidak sefleksibel Deep Research dalam menanggapi informasi, juga tidak sekreatif dalam memecahkan masalah tertentu.

Sebelum bergabung dengan OpenAI, Josh Tobin bekerja di sebuah startup dan mencoba membangun agen dengan cara yang dijelaskan kebanyakan orang dalam membangunnya, pada dasarnya membangun grafik operasi dengan LLM yang campur tangan di beberapa node. Sementara LLM dapat memutuskan apa yang harus dilakukan selanjutnya, logika dari seluruh urutan langkah ditentukan oleh manusia.

Josh Tobin menemukan ini menjadi metode yang ampuh untuk pembuatan prototipe yang cepat, tetapi dengan cepat menemui masalah di dunia nyata. Sulit untuk meramalkan semua situasi yang mungkin dihadapi model dan untuk mempertimbangkan semua cabang jalur yang berbeda yang mungkin ingin diambilnya. Selain itu, karena model-model ini tidak dilatih secara khusus untuk membuat keputusan, mereka seringkali bukan pembuat keputusan terbaik di node; mereka dilatih untuk melakukan sesuatu yang mirip dengan pengambilan keputusan.

Ini menegaskan kembali bahwa kekuatan sebenarnya dari model Deep Research berasal dari pelatihan end-to-end langsung, yang bertujuan untuk memecahkan tugas-tugas yang sebenarnya perlu dipecahkan oleh pengguna. Oleh karena itu, tidak perlu menyiapkan grafik operasi atau membuat keputusan node dalam arsitektur latar belakang; semuanya didorong oleh model itu sendiri.

Selain itu, jika pengguna memiliki alur kerja yang sangat spesifik dan dapat diprediksi, maka melakukannya dengan cara yang dijelaskan Josh Tobin di atas sangat berharga. Tetapi jika pemrosesan yang sangat fleksibel diperlukan, maka pendekatan yang mirip dengan Deep Research mungkin merupakan pilihan terbaik.

Josh Tobin menyarankan bahwa beberapa aturan ketat tidak boleh dikodekan secara keras ke dalam model. Jika ada kebutuhan seperti ‘tidak ingin model mengakses database tertentu’, lebih baik menerapkannya dengan logika yang ditulis secara manual. Orang sering berpikir bahwa mereka bisa lebih pintar daripada model dengan menulis kode, tetapi pada kenyataannya, seiring perkembangan bidang ini, model biasanya menghasilkan solusi yang lebih baik daripada manusia.

Salah satu pelajaran terpenting dari machine learning adalah bahwa hasil yang Anda dapatkan bergantung pada apa yang Anda optimalkan. Jadi, jika pengguna dapat menyiapkan sistem untuk secara langsung mengoptimalkan hasil yang diinginkan, itu akan jauh lebih baik daripada mencoba menyatukan model yang tidak sesuai dengan keseluruhan tugas. Oleh karena itu, penyetelan RL pada basis model keseluruhan dapat menjadi bagian penting dalam membangun agen yang paling kuat.

Data Berkualitas Tinggi adalah Salah Satu Faktor Kunci Keberhasilan Model

Salah satu faktor kunci keberhasilan model Deep Research adalah memiliki dataset berkualitas tinggi. Kualitas data yang dimasukkan ke dalam model kemungkinan merupakan faktor kunci yang menentukan kualitas model. Dalam proyek Deep Research, Edward Sun mengoptimalkan semua dataset.

Keunggulan Deep Research

Kekuatan Deep Research terletak pada kemampuannya untuk memberikan jawaban terbaik ketika pengguna memiliki deskripsi terperinci tentang kebutuhan mereka. Namun, bahkan jika pertanyaan pengguna tidak jelas, Deep Research dapat mengklarifikasi informasi yang diinginkan. Ini paling kuat ketika pengguna mencari serangkaian informasi tertentu.

Deep Research tidak hanya mampu mengumpulkan semua informasi tentang suatu sumber secara luas, tetapi juga unggul dalam menemukan fakta-fakta yang sangat tidak jelas, seperti konten long-tail yang tidak akan muncul di beberapa halaman pertama dalam pencarian tradisional, detail episode tertentu dari acara TV yang tidak jelas, dan sebagainya. Dalam pertanyaan tentang seorang jenderal Austria, ChatGPT pernah memberikan jawaban yang salah, sementara Deep Research berhasil menemukan jawaban yang benar.

Deep Research sangat baik dalam mensintesis informasi, terutama dalam menemukan informasi spesifik yang sulit ditemukan. Namun, Deep Research tidak seefektif dalam mengekstraksi wawasan baru dari informasi yang ada dan belum dapat membuat penemuan ilmiah baru.

Kasus Penggunaan Deep Research

Target Pengguna

Deep Research dirancang untuk siapa saja yang terlibat dalam pekerjaan pengetahuan dalam pekerjaan atau kehidupan sehari-hari mereka, terutama mereka yang perlu mengumpulkan sejumlah besar informasi, menganalisis data, dan membuat keputusan. Banyak pengguna menerapkan Deep Research pada pekerjaan mereka, seperti dalam penelitian, untuk memahami situasi di bidang-bidang seperti pasar, perusahaan, dan real estat.

Kasus Penggunaan

OpenAI berharap Deep Research dapat melayani skenario bisnis dan kehidupan pribadi, karena ini sebenarnya adalah kemampuan yang sangat serbaguna yang berlaku untuk pekerjaan dan kehidupan pribadi. Daya tarik Deep Research terletak pada kemampuannya untuk menghemat banyak waktu. Beberapa tugas yang mungkin memakan waktu berjam-jam atau bahkan berhari-hari sekarang dapat 90% dijawab dengan Deep Research. OpenAI percaya akan ada lebih banyak tugas serupa dalam skenario bisnis, tetapi Deep Research juga akan menjadi bagian dari kehidupan pribadi orang-orang.

Deep Research bukan tentang menggantikan tenaga kerja. Untuk pekerjaan pengetahuan, terutama tugas-tugas yang membutuhkan banyak waktu untuk menemukan informasi dan menarik kesimpulan, Deep Research akan memberdayakan orang-orang dengan kekuatan super, memungkinkan tugas-tugas yang mungkin memakan waktu 4 atau 8 jam untuk diselesaikan dalam 5 menit, memungkinkan pengguna untuk mencapai lebih banyak.

Wawancara tersebut menyebutkan kasus penggunaan termasuk: medis, investasi, dan skenario pekerjaan profesional lainnya; belanja, perjalanan, dan skenario keluarga lainnya; pemrograman dan pendidikan yang dipersonalisasi.

  • Medis, Investasi, dan Skenario Pekerjaan Profesional Lainnya

    Dalam kedokteran, Deep Research dapat membantu menemukan semua literatur atau kasus terbaru dari penyakit tertentu, sehingga menghemat waktu.

    Dalam investasi, dengan bantuan Deep Research, investor dapat memilih untuk meneliti setiap startup potensial yang mungkin mereka investasikan, bukan hanya yang mereka punya waktu untuk bertemu.

    Dalam operasi perusahaan, seorang pengguna yang mempertimbangkan untuk memulai perusahaan barang konsumen telah secara ekstensif menggunakan Deep Research untuk menentukan apakah nama merek tertentu telah terdaftar, apakah nama domain ditempati, ukuran pasar, dan berbagai informasi lainnya.

  • Belanja, Perjalanan, dan Skenario Keluarga Lainnya

    Seorang pengguna yang mempertimbangkan untuk membeli mobil baru ingin tahu kapan model berikutnya akan dirilis. Ada banyak artikel spekulatif online, jadi pengguna meminta Deep Research untuk mengkompilasi semua rumor yang relevan. Deep Research menghasilkan laporan yang sangat baik, memberi tahu pengguna bahwa mobil baru mungkin akan dirilis dalam beberapa bulan mendatang.

    Ketika Deep Research diluncurkan di Jepang, pengguna merasa sangat membantu dalam menemukan restoran yang memenuhi persyaratan tertentu dan juga dapat membantu pengguna menemukan hal-hal yang mungkin tidak mereka temukan sebaliknya.

    Ketika pengguna perlu membeli barang mahal, merencanakan perjalanan khusus, atau menghabiskan banyak waktu untuk memikirkan suatu masalah, mereka mungkin menghabiskan waktu berjam-jam online mencari informasi yang relevan, menelusuri semua ulasan, dll. Deep Research dapat dengan cepat mengatur informasi ini, membuat laporan ringkasan, dan memberikan saran yang terperinci dan dipersonalisasi.

    Ibu-ibu pekerja yang sibuk seringkali tidak punya waktu untuk merencanakan pesta ulang tahun untuk anak-anak mereka, tetapi sekarang mereka dapat melakukannya dengan cepat dengan bantuan Deep Research.

    Deep Research juga sangat baik dalam mengikuti instruksi. Jika pengguna tidak hanya ingin tahu tentang suatu produk tetapi juga ingin membandingkannya dengan semua produk lain, atau bahkan ingin melihat ulasan dari situs web seperti Reddit, mereka dapat membuat banyak permintaan berbeda ke Deep Research, dan itu akan menyelesaikan tugas-tugas ini sekaligus. Pengguna juga dapat meminta Deep Research untuk memasukkan informasi ke dalam tabel.

  • Pemrograman

    Banyak orang menggunakan Deep Research untuk pemrograman. Skenario ini awalnya tidak dipertimbangkan oleh OpenAI, tetapi banyak orang menggunakannya untuk menulis kode, mencari kode, bahkan menemukan dokumentasi terbaru untuk sebuah paket, atau menulis skrip, dengan hasil yang mengesankan.

  • Pendidikan

    Pendidikan yang dipersonalisasi adalah skenario aplikasi yang sangat menarik. Jika pengguna memiliki topik yang ingin mereka pelajari, seperti meninjau biologi atau memahami peristiwa terkini, mereka hanya perlu memberikan bagian yang tidak mereka pahami atau informasi yang ingin mereka selidiki, dan Deep Research dapat menyusun laporan terperinci. Mungkin di masa depan, akan mungkin untuk memberikan pendidikan yang dipersonalisasi berdasarkan apa yang dipelajari Deep Research tentang pengguna.

Agen Akan Muncul pada Tahun 2025

Arah Pengembangan Masa Depan untuk Deep Research

Dalam hal bentuk produk, OpenAI berharap Deep Research akan dapat menyematkan gambar di masa depan, menemukan gambar produk, menghasilkan bagan, dan menyematkan bagan ini dalam jawaban.

Dalam hal sumber informasi, OpenAI berharap dapat memperluas sumber data yang dapat diakses model. Mereka berharap model tersebut akan dapat mencari data pribadi di masa depan. OpenAI akan lebih meningkatkan kemampuan model, membuatnya lebih baik dalam browsing dan analisis.

Dalam hal keakuratan informasi, untuk memungkinkan pengguna mempercayai output Deep Research, pengguna dapat melihat sumber informasi yang dikutip oleh model. Selama proses pelatihan model, OpenAI juga berusaha untuk memastikan kebenaran kutipan, tetapi model mungkin masih membuat kesalahan, berhalusinasi, atau bahkan mempercayai sumber yang mungkin bukan yang paling kredibel. Oleh karena itu, ini adalah area yang diharapkan OpenAI untuk terus ditingkatkan.

Untuk berintegrasi lebih luas ke dalam peta jalan OpenAI Agent, OpenAI berharap Deep Research dapat diperluas ke banyak skenario aplikasi yang berbeda, menggabungkan model penalaran tercanggih dengan alat yang dapat digunakan manusia untuk menyelesaikan pekerjaan atau tugas kehidupan sehari-hari, dan kemudian secara langsung mengoptimalkan model untuk mencapai hasil yang diinginkan pengguna untuk dicapai agen.

Pada tahap ini, sebenarnya tidak ada yang menghentikan Deep Research untuk berkembang ke skenario tugas yang lebih kompleks. AGI sekarang menjadi masalah operasional, dan akan ada banyak perkembangan menarik yang dinanti-nantikan di masa depan.

Sam Altman percaya bahwa tugas-tugas yang dapat diselesaikan Deep Research akan menyumbang beberapa persen dari semua tugas yang layak secara ekonomi di dunia. Josh Tobin percaya bahwa Deep Research tidak dapat melakukan semua pekerjaan untuk pengguna, tetapi dapat menghemat beberapa jam atau bahkan berhari-hari bagi pengguna. OpenAI berharap bahwa tujuan yang relatif dekat adalah agar Deep Research dan agen yang dibangun selanjutnya, serta agen lain yang dibangun di atas fondasi ini, dapat menghemat 1%, 5%, 10%, atau 25% waktu pengguna, tergantung pada jenis pekerjaan yang mereka lakukan.

Agen & RL

Isa Fulford dan Josh Tobin setuju bahwa agen akan muncul tahun ini.

RL mengalami puncak, kemudian tampaknya memiliki sedikit palung, dan sekarang menerima perhatian lagi. Yann LeCun pernah memiliki analogi: jika orang membuat kue, sebagian besar adalah kue, akan ada sedikit frosting, dan akhirnya beberapa ceri di atasnya. Pembelajaran tanpa pengawasan seperti kue, pembelajaran yang diawasi adalah frosting, dan RL adalah ceri.

Josh Tobin percaya bahwa ketika melakukan RL pada tahun 2015-2016, menggunakan analogi kue, mungkin mencoba menambahkan ceri tanpa kue. Tetapi sekarang, ada model bahasa yang telah dilatih sebelumnya pada sejumlah besar data, model-model ini sangat kuat, dan kita tahu cara melakukan penyetelan yang diawasi pada model bahasa ini untuk membuatnya pandai dalam menjalankan instruksi dan melakukan apa yang diinginkan orang. Sekarang semuanya bekerja dengan sangat baik, dan sangat cocok untuk menyesuaikan model-model ini sesuai dengan fungsi hadiah yang ditentukan pengguna untuk kasus penggunaan apa pun.