Ejen Kedua OpenAI
Tiga minggu lalu, OpenAI memperkenalkan Deep Research, ejen keduanya. Ejen ini boleh mencari pelbagai laman web dan menyelesaikan penyelidikan dalam talian yang komprehensif dalam masa 5-30 minit, mensintesis maklumat dan menyediakan laporan terperinci dengan petikan.
Artikel ini menyusun dan mengatur temu bual oleh Sequoia Capital dengan Isa Fulford dan Josh Tobin, ketua Deep Research OpenAI. Kedua-dua ahli berkongsi secara terperinci spesifikasi teknikal dan pemikiran produk di sebalik Deep Research, bersama-sama dengan kes penggunaan yang sedang mereka perhatikan.
Deep Research berasal dari penerokaan dalaman OpenAI tentang keupayaan model untuk mengendalikan tugas-tugas jangka panjang. Matlamat jangka panjang pasukan adalah untuk menyediakan pengguna dengan ejen muktamad pada masa hadapan: penyelesaian semua-dalam-satu semula jadi untuk carian web, penggunaan komputer, atau apa-apa tugas lain yang mereka mahu ejen itu selesaikan.
Deep Research juga telah dioptimumkan secara khusus pada peringkat produk. Sebagai contoh, seperti yang dinyatakan dalam analisis DeepSeek kami, Deep Research meningkatkan kepercayaan pengguna melalui petikan yang jelas dan Chain-of-Thought (CoT). Pasukan ini juga telah mereka bentuk aliran penjelasan untuk memastikan pemahaman yang konsisten tentang tugas tersebut. Deep Research mengatasi carian AI dan ChatGPT dalam perolehan dan penyusunan maklumat. Walau bagaimanapun, pada peringkat ini, Deep Research tidak begitu berkesan dalam mengekstrak cerapan baharu daripada maklumat sedia ada dan belum boleh membuat penemuan saintifik baharu.
Perkara Utama:
- OpenAI telah melancarkan ejen keduanya, Deep Research, yang mampu melakukan penyiasatan dalam talian yang menyeluruh.
- Keupayaan ejen berpunca daripada latihan model hujung-ke-hujung.
- Deep Research cemerlang dalam sintesis maklumat dan mencari fakta yang sukar difahami.
- Kes penggunaan merangkumi kerja profesional, kehidupan peribadi, pengaturcaraan, dan pendidikan.
- Pasukan menjangkakan kemajuan ketara untuk ejen pada tahun 2025.
Keupayaan Ejen Berpunca daripada Latihan Model Hujung-ke-Hujung
Deep Research ialah ejen yang mampu mencari pelbagai laman web dalam talian dan menjana laporan komprehensif, menyelesaikan banyak tugas yang akan mengambil masa berjam-jam untuk manusia. Beroperasi dalam ChatGPT, ia menjawab soalan dalam kira-kira 5-30 minit, membolehkan penyelidikan yang lebih mendalam dan memberikan jawapan yang lebih terperinci dan khusus daripada ChatGPT standard. OpenAI sebelum ini melancarkan Operator, dan Deep Research ialah ejen keduanya, dengan lebih banyak lagi yang akan datang.
Asal-usul
Kira-kira setahun yang lalu, OpenAI mula menggunakan paradigma penaakulan secara dalaman, bertujuan untuk melatih model untuk berfikir sebelum menjawab. Pendekatan ini terbukti sangat berjaya.
Pada mulanya, OpenAI memberi tumpuan kepada Matematik dan Sains. Walau bagaimanapun, mereka mendapati bahawa seni bina model penaakulan baharu ini juga membuka kunci keupayaan untuk mengendalikan tugas jangka panjang, yang melibatkan keupayaan ejen.
Pada masa yang sama, OpenAI menyedari bahawa banyak tugas memerlukan penyelidikan dalam talian yang meluas atau konteks luaran, kebolehan penaakulan yang kuat, pemahaman sumber maklumat, dan tahap kreativiti. Akhirnya, OpenAI membangunkan kaedah latihan model yang mampu mengendalikan tugas-tugas ini. Mereka memutuskan untuk melatih model untuk melaksanakan tugas menyemak imbas, menggunakan kaedah yang sama seperti untuk melatih model penaakulan tetapi digunakan untuk tugas yang lebih dunia nyata.
Projek Deep Research bermula dengan demo asal oleh Isa Fulford dan Yash Patil. Josh Tobin menyertai semula OpenAI kira-kira enam bulan lalu selepas bekerja di sebuah syarikat permulaan, menjadi sangat berminat dengan kerja asas, dan menyertai projek Deep Research.
Individu Utama:
- Isa Fulford: Penyelidik AI dalam pasukan Pasca-latihan OpenAI, penyumbang utama kepada ChatGPT Retrieval Plugin.
- Yash Patil: Ahli pasukan model teras dalam pasukan Pasca-latihan OpenAI, telah tercicir dari Stanford.
- Josh Tobin: Sebelum ini seorang Saintis Penyelidik di OpenAI, kemudiannya mengasaskan Gantry (produk untuk menambah baik ML melalui analisis, makluman dan maklum balas manusia). Beliau menyertai semula OpenAI dan kini mengetuai pasukan penyelidikan produk Ejen.
Aliran Penjelasan
Deep Research menampilkan reka bentuk yang unik: aliran penjelasan. Sebelum memulakan penyelidikan, model Deep Research bertanya soalan kepada pengguna. Biasanya, ChatGPT hanya bertanya soalan susulan pada akhir jawapan atau bertanya sama ada jawapan itu memuaskan, tidak seperti Deep Research, yang terlibat dalam tingkah laku ini di hadapan.
Ini adalah pilihan reka bentuk yang disengajakan oleh pasukan. Pengguna menerima respons terbaik daripada model Deep Research hanya apabila gesaan mereka sangat jelas dan terperinci. Walau bagaimanapun, pengguna selalunya tidak memberikan semua maklumat dalam gesaan awal mereka. Oleh itu, OpenAI mahu memastikan bahawa selepas menunggu 5 atau 30 minit, pengguna akan menerima jawapan yang cukup terperinci dan memuaskan. Langkah tambahan ini telah ditambah untuk memastikan pengguna memberikan semua butiran yang diperlukan untuk model.
Ramai pengguna di X telah menyebut berinteraksi dengan o1 atau o1 Pro terlebih dahulu untuk memperhalusi gesaan mereka. Setelah berpuas hati, mereka menghantar gesaan ke Deep Research.
Bentuk Ejen Terunggul
Sejak beberapa bulan lalu, OpenAI telah melancarkan tiga versi Deep Research yang berbeza, semuanya dinamakan Deep Research. Josh Tobin percaya bahawa walaupun setiap produk mempunyai kekuatan dan kelemahannya, perbezaan kualiti antara mereka adalah jelas. Akhirnya, ini adalah disebabkan oleh cara model dibina, usaha yang dilaburkan dalam membina set data, dan penggunaan model siri-O sebagai enjin. Ini membolehkan model Deep Research dioptimumkan, mencipta alat yang sangat pintar dan berkualiti tinggi.
Pada masa ini, Deep Research, O3, dan Operator agak bebas. Walau bagaimanapun, OpenAI menyasarkan untuk pengguna akhirnya mempunyai satu ejen tunggal, muktamad yang boleh melakukan carian web, menggunakan komputer, atau menyelesaikan tugas lain yang dikehendaki, menyepadukan semua fungsi ini dengan cara yang lebih semula jadi.
Latihan Hujung-ke-Hujung ialah Sebab Asas Kuasa Model
Model asas Deep Research ialah versi O3 yang diperhalusi. O3 ialah model penaakulan OpenAI yang paling maju, dan kebanyakan keupayaan analisis Deep Research datang daripadanya. OpenAI secara khusus melatih model Deep Research pada tugas penyemakan imbas yang kompleks dan tugas penaakulan lain. Oleh itu, Deep Research juga boleh menggunakan alat penyemakan imbas dan alat Python. Melalui latihan hujung-ke-hujung pada tugas-tugas ini, Deep Research mempelajari strategi untuk mengendalikannya, akhirnya menjadikan model itu cemerlang dalam analisis carian dalam talian.
Secara intuitif, pengguna membuat permintaan, dan model itu mula-mula memikirkannya dengan teliti. Kemudian, ia mencari maklumat yang berkaitan, mengekstraknya, dan membacanya. Selepas memahami bagaimana maklumat ini berkaitan dengan permintaan, model memutuskan perkara yang perlu dicari seterusnya untuk mendekati jawapan akhir yang dikehendaki pengguna. Deep Research boleh menyepadukan semua maklumat ini ke dalam laporan yang kemas, dengan petikan yang menunjuk kepada sumber asal.
Inovasi yang memberikan Deep Research keupayaan ejennya terletak pada latihan hujung-ke-hujung OpenAI bagi model itu. Ini bermakna banyak operasi semasa proses penyelidikan tidak dapat diramalkan terlebih dahulu. Adalah mustahil untuk mencapai fleksibiliti yang diperoleh model melalui latihan dengan menulis model bahasa, program atau skrip. Melalui latihan, model Deep Research belajar cara bertindak balas terhadap maklumat web masa nyata dan melaraskan strategi dengan segera berdasarkan apa yang dilihatnya. Oleh itu, model Deep Research sebenarnya menjalankan carian yang sangat kreatif. Pengguna boleh melihat betapa bijaknya model itu dalam memutuskan perkara yang perlu dicari seterusnya atau cara untuk mengatasi isu tertentu dengan membaca ringkasan CoT.
Perbezaan Antara Deep Research dan Carian AI
Mengenai soalan John Collison tentang berapa banyak keupayaan Deep Research datang daripada akses masa nyata kepada kandungan web dan berapa banyak daripada CoT, kedua-dua penyelidik OpenAI percaya bahawa keupayaan cemerlang Deep Research adalah hasil gabungan kedua-duanya.
Produk carian AI lain tidak dilatih hujung-ke-hujung, jadi ia tidak begitu fleksibel dalam bertindak balas terhadap maklumat seperti Deep Research, dan juga tidak begitu kreatif dalam menyelesaikan masalah tertentu.
Sebelum menyertai OpenAI, Josh Tobin bekerja di sebuah syarikat permulaan dan cuba membina ejen dengan cara yang kebanyakan orang terangkan membina mereka, pada asasnya membina graf operasi dengan LLM campur tangan pada beberapa nod. Walaupun LLM boleh memutuskan perkara yang perlu dilakukan seterusnya, logik keseluruhan urutan langkah ditakrifkan oleh manusia.
Josh Tobin mendapati ini sebagai kaedah yang berkuasa untuk prototaip pantas, tetapi ia cepat menghadapi masalah dalam dunia sebenar. Sukar untuk meramalkan semua situasi yang mungkin dihadapi oleh model dan untuk mempertimbangkan semua cabang laluan berbeza yang mungkin ingin diambilnya. Selain itu, memandangkan model ini tidak dilatih secara khusus untuk membuat keputusan, ia selalunya bukan pembuat keputusan terbaik pada nod; ia dilatih untuk melakukan sesuatu yang serupa dengan membuat keputusan.
Ini mengulangi bahawa kuasa sebenar model Deep Research datang daripada latihan hujung-ke-hujung secara langsung, bertujuan untuk menyelesaikan tugas yang sebenarnya perlu diselesaikan oleh pengguna. Oleh itu, tidak perlu menyediakan graf operasi atau membuat keputusan nod dalam seni bina latar belakang; semuanya didorong oleh model itu sendiri.
Tambahan pula, jika pengguna mempunyai aliran kerja yang sangat khusus dan boleh diramal, maka melakukannya dengan cara yang diterangkan oleh Josh Tobin di atas adalah berharga. Tetapi jika pemprosesan yang sangat fleksibel diperlukan, maka pendekatan yang serupa dengan Deep Research mungkin merupakan pilihan terbaik.
Josh Tobin mencadangkan bahawa beberapa peraturan yang ketat tidak boleh dikodkan secara keras ke dalam model. Jika terdapat keperluan seperti ‘tidak mahu model mengakses pangkalan data tertentu’, lebih baik melaksanakannya dengan logik yang ditulis secara manual. Orang ramai sering berfikir bahawa mereka boleh menjadi lebih bijak daripada model dengan menulis kod, tetapi pada hakikatnya, apabila bidang itu berkembang, model biasanya menghasilkan penyelesaian yang lebih baik daripada manusia.
Salah satu pengajaran terpenting pembelajaran mesin ialah hasil yang anda peroleh bergantung pada perkara yang anda optimumkan. Jadi, jika pengguna boleh menyediakan sistem untuk mengoptimumkan secara langsung untuk hasil yang diingini, ia akan menjadi jauh lebih baik daripada cuba menyatukan model yang tidak sesuai dengan keseluruhan tugas. Oleh itu, penalaan RL pada asas model keseluruhan mungkin menjadi bahagian penting dalam membina ejen yang paling berkuasa.
Data Berkualiti Tinggi ialah Salah Satu Faktor Utama Kejayaan Model
Salah satu faktor utama kejayaan model Deep Research ialah mempunyai set data berkualiti tinggi. Kualiti data yang dimasukkan ke dalam model berkemungkinan merupakan faktor utama yang menentukan kualiti model. Dalam projek Deep Research, Edward Sun mengoptimumkan semua set data.
Kelebihan Deep Research
Kekuatan Deep Research terletak pada keupayaannya untuk memberikan jawapan terbaik apabila pengguna mempunyai penerangan terperinci tentang keperluan mereka. Walau bagaimanapun, walaupun soalan pengguna tidak jelas, Deep Research boleh menjelaskan maklumat yang dikehendaki. Ia paling berkuasa apabila pengguna mencari set maklumat tertentu.
Deep Research bukan sahaja mampu mengumpulkan semua maklumat secara meluas tentang sesuatu sumber tetapi juga cemerlang dalam mencari fakta yang sangat kabur, seperti kandungan ekor panjang yang tidak akan muncul pada beberapa halaman pertama dalam carian tradisional, butiran episod tertentu rancangan TV yang tidak jelas, dan sebagainya. Dalam soalan tentang seorang jeneral Austria, ChatGPT pernah memberikan jawapan yang salah, manakala Deep Research berjaya menemui jawapan yang betul.
Deep Research sangat baik dalam mensintesis maklumat, terutamanya dalam mencari maklumat khusus yang sukar dicari. Walau bagaimanapun, Deep Research tidak begitu berkesan dalam mengekstrak cerapan baharu daripada maklumat sedia ada dan belum boleh membuat penemuan saintifik baharu.
Kes Penggunaan Deep Research
Pengguna Sasaran
Deep Research direka untuk sesiapa sahaja yang terlibat dalam kerja pengetahuan dalam kerja harian atau kehidupan mereka, terutamanya mereka yang perlu mengumpul sejumlah besar maklumat, menganalisis data dan membuat keputusan. Ramai pengguna menggunakan Deep Research untuk kerja mereka, seperti dalam penyelidikan, untuk memahami keadaan dalam bidang seperti pasaran, syarikat dan hartanah.
Kes Penggunaan
OpenAI berharap Deep Research boleh menyediakan senario perniagaan dan kehidupan peribadi, kerana ia sebenarnya merupakan keupayaan yang sangat serba boleh yang boleh digunakan untuk kerja dan kehidupan peribadi. Daya tarikan Deep Research terletak pada keupayaannya untuk menjimatkan banyak masa. Sesetengah tugas yang mungkin mengambil masa berjam-jam atau bahkan berhari-hari kini boleh 90% dijawab dengan Deep Research. OpenAI percaya akan ada lebih banyak tugas yang serupa dalam senario perniagaan, tetapi Deep Research juga akan menjadi sebahagian daripada kehidupan peribadi orang ramai.
Deep Research bukan tentang menggantikan tenaga kerja. Untuk kerja pengetahuan, terutamanya tugas yang memerlukan banyak masa untuk mencari maklumat dan membuat kesimpulan, Deep Research akan memperkasakan orang ramai dengan kuasa besar, membolehkan tugas yang mungkin mengambil masa 4 atau 8 jam untuk diselesaikan dalam 5 minit, membolehkan pengguna mencapai lebih banyak lagi.
Temu bual itu menyebut kes penggunaan termasuk: perubatan, pelaburan, dan senario kerja profesional lain; membeli-belah, perjalanan, dan senario keluarga lain; pengaturcaraan dan pendidikan peribadi.
Perubatan, Pelaburan, dan Senario Kerja Profesional Lain
Dalam perubatan, Deep Research boleh membantu mencari semua kesusasteraan atau kes terkini penyakit tertentu, sekali gus menjimatkan masa.
Dalam pelaburan, dengan bantuan Deep Research, pelabur boleh memilih untuk menyelidik setiap syarikat permulaan yang berpotensi yang mungkin mereka laburkan, bukan hanya yang mereka mempunyai masa untuk bertemu.
Dalam operasi syarikat, pengguna yang mempertimbangkan untuk memulakan syarikat barangan pengguna telah menggunakan Deep Research secara meluas untuk menentukan sama ada nama jenama tertentu telah didaftarkan, sama ada nama domain diduduki, saiz pasaran dan pelbagai maklumat lain.
Membeli-belah, Perjalanan, dan Senario Keluarga Lain
Seorang pengguna yang mempertimbangkan untuk membeli kereta baharu ingin tahu bila model seterusnya akan dikeluarkan. Terdapat banyak artikel spekulatif dalam talian, jadi pengguna meminta Deep Research untuk menyusun semua khabar angin yang berkaitan. Deep Research menghasilkan laporan yang sangat baik, memaklumkan pengguna bahawa kereta baharu mungkin akan dikeluarkan dalam beberapa bulan akan datang.
Apabila Deep Research dilancarkan di Jepun, pengguna mendapati ia sangat membantu dalam mencari restoran yang memenuhi keperluan khusus dan juga boleh membantu pengguna menemui perkara yang mungkin tidak mereka temui sebaliknya.
Apabila pengguna perlu membeli item yang mahal, merancang perjalanan khas, atau menghabiskan banyak masa memikirkan masalah, mereka mungkin menghabiskan berjam-jam dalam talian mencari maklumat yang berkaitan, menyemak imbas semua ulasan, dsb. Deep Research boleh menyusun maklumat ini dengan cepat, membuat laporan ringkasan dan memberikan nasihat yang terperinci dan diperibadikan.
Ibu-ibu bekerja yang sibuk selalunya tidak mempunyai masa untuk merancang parti hari jadi untuk anak-anak mereka, tetapi kini mereka boleh melakukannya dengan cepat dengan bantuan Deep Research.
Deep Research juga cemerlang dalam mengikut arahan. Jika pengguna bukan sahaja ingin mengetahui tentang sesuatu produk tetapi juga ingin membandingkannya dengan semua produk lain, atau bahkan ingin melihat ulasan daripada tapak web seperti Reddit, mereka boleh membuat banyak permintaan berbeza kepada Deep Research, dan ia akan menyelesaikan tugas ini sekaligus. Pengguna juga boleh meminta Deep Research untuk meletakkan maklumat dalam jadual.
Pengaturcaraan
Ramai orang menggunakan Deep Research untuk pengaturcaraan. Senario ini pada mulanya tidak dipertimbangkan oleh OpenAI, tetapi ramai orang menggunakannya untuk menulis kod, mencari kod, malah mencari dokumentasi terkini untuk pakej, atau menulis skrip, dengan hasil yang mengagumkan.
Pendidikan
Pendidikan peribadi ialah senario aplikasi yang sangat menarik. Jika pengguna mempunyai topik yang ingin mereka pelajari, seperti menyemak biologi atau memahami peristiwa semasa, mereka hanya perlu menyediakan bahagian yang mereka tidak faham atau maklumat yang ingin mereka selidiki, dan Deep Research boleh menyusun laporan terperinci. Mungkin pada masa hadapan, adalah mungkin untuk menyediakan pendidikan peribadi berdasarkan apa yang Deep Research pelajari tentang pengguna.
Ejen Akan Muncul pada 2025
Hala Tuju Pembangunan Masa Depan untuk Deep Research
Dari segi bentuk produk, OpenAI berharap Deep Research akan dapat membenamkan imej pada masa hadapan, mencari gambar produk, menjana carta dan membenamkan carta ini dalam jawapan.
Dari segi sumber maklumat, OpenAI berharap untuk mengembangkan sumber data yang boleh diakses oleh model. Mereka berharap model itu akan dapat mencari data peribadi pada masa hadapan. OpenAI akan meningkatkan lagi keupayaan model, menjadikannya lebih baik dalam penyemakan imbas dan analisis.
Dari segi ketepatan maklumat, untuk membolehkan pengguna mempercayai output Deep Research, pengguna boleh melihat sumber maklumat yang dipetik oleh model. Semasa proses latihan model, OpenAI juga berusaha untuk memastikan ketepatan petikan, tetapi model itu mungkin masih membuat kesilapan, berhalusinasi, atau bahkan mempercayai sumber yang mungkin bukan yang paling boleh dipercayai. Oleh itu, ini adalah bidang yang OpenAI berharap untuk terus diperbaiki.
Untuk menyepadukan dengan lebih meluas ke dalam pelan hala tuju OpenAI Agent, OpenAI berharap Deep Research boleh diperluaskan kepada banyak senario aplikasi yang berbeza, menggabungkan model penaakulan yang paling maju dengan alat yang boleh digunakan oleh manusia untuk menyelesaikan kerja atau tugas kehidupan harian, dan kemudian mengoptimumkan model secara langsung untuk mencapai hasil yang pengguna mahu ejen capai.
Pada peringkat ini, sebenarnya tiada apa yang menghalang Deep Research daripada berkembang ke senario tugas yang lebih kompleks. AGI kini merupakan isu operasi, dan akan ada banyak perkembangan menarik untuk dinantikan pada masa hadapan.
Sam Altman percaya bahawa tugas yang boleh diselesaikan oleh Deep Research akan menyumbang beberapa peratus daripada semua tugas yang berdaya maju dari segi ekonomi di dunia. Josh Tobin percaya bahawa Deep Research tidak boleh melakukan semua kerja untuk pengguna, tetapi ia boleh menjimatkan pengguna beberapa jam atau bahkan beberapa hari. OpenAI berharap matlamat yang agak dekat adalah untuk Deep Research dan ejen yang dibina seterusnya, serta ejen lain yang dibina atas asas ini, untuk menjimatkan pengguna 1%, 5%, 10%, atau 25% daripada masa mereka, bergantung pada jenis kerja yang mereka lakukan.
Ejen & RL
Isa Fulford dan Josh Tobin bersetuju bahawa ejen akan muncul tahun ini.
RL mengalami kemuncak, kemudian kelihatan seperti sedikit palung, dan kini mendapat perhatian semula. Yann LeCun pernah mempunyai analogi: jika orang membuat kek, kebanyakannya adalah kek, akan ada sedikit aising, dan akhirnya beberapa ceri di atas. Pembelajaran tanpa pengawasan adalah seperti kek, pembelajaran diawasi adalah aising, dan RL adalah ceri.
Josh Tobin percaya bahawa apabila melakukan RL pada 2015-2016, menggunakan analogi kek, ia mungkin cuba menambah ceri tanpa kek. Tetapi kini, terdapat model bahasa yang telah dilatih pada sejumlah besar data, model ini sangat berkuasa, dan kami tahu cara melakukan penalaan halus yang diawasi pada model bahasa ini untuk menjadikannya baik dalam melaksanakan arahan dan melakukan apa yang orang mahu. Kini semuanya berfungsi dengan baik, dan ia sangat sesuai untuk melaraskan model ini mengikut fungsi ganjaran yang ditentukan pengguna untuk sebarang kes penggunaan.