Tác tử thứ hai của OpenAI
Ba tuần trước, OpenAI đã giới thiệu Deep Research, tác tử thứ hai của họ. Tác tử này có thể tìm kiếm trên nhiều trang web và hoàn thành nghiên cứu trực tuyến toàn diện trong 5-30 phút, tổng hợp thông tin và cung cấp các báo cáo chi tiết kèm theo trích dẫn.
Bài viết này tổng hợp và tổ chức một cuộc phỏng vấn của Sequoia Capital với Isa Fulford và Josh Tobin, những người đứng đầu Deep Research của OpenAI. Hai thành viên chia sẻ chi tiết về các thông số kỹ thuật và tư duy sản phẩm đằng sau Deep Research, cùng với các trường hợp sử dụng mà họ đang quan sát.
Deep Research bắt nguồn từ việc khám phá nội bộ của OpenAI về khả năng của mô hình trong việc xử lý các tác vụ dài hạn. Mục tiêu dài hạn của nhóm là cung cấp cho người dùng tác tử tối ưu trong tương lai: một giải pháp tất cả trong một tự nhiên để tìm kiếm trên web, sử dụng máy tính hoặc bất kỳ tác vụ nào khác mà họ muốn tác tử hoàn thành.
Deep Research cũng đã được tối ưu hóa đặc biệt ở cấp độ sản phẩm. Ví dụ, như đã đề cập trong phân tích DeepSeek của chúng tôi, Deep Research tăng cường sự tin tưởng của người dùng thông qua các trích dẫn rõ ràng và Chain-of-Thought (CoT). Nhóm cũng đã thiết kế một quy trình làm rõ để đảm bảo sự hiểu biết nhất quán về nhiệm vụ. Deep Research vượt trội hơn tìm kiếm AI và ChatGPT trong việc truy xuất và tổ chức thông tin. Tuy nhiên, ở giai đoạn này, Deep Research không hiệu quả bằng trong việc trích xuất những hiểu biết mới từ thông tin hiện có và chưa thể tạo ra những khám phá khoa học mới.
Những điểm chính:
- OpenAI đã ra mắt tác tử thứ hai của mình, Deep Research, có khả năng điều tra trực tuyến kỹ lưỡng.
- Khả năng của tác tử bắt nguồn từ việc huấn luyện mô hình đầu cuối.
- Deep Research xuất sắc trong tổng hợp thông tin và tìm kiếm các dữ kiện khó.
- Các trường hợp sử dụng bao gồm công việc chuyên môn, cuộc sống cá nhân, lập trình và giáo dục.
- Nhóm dự đoán những tiến bộ đáng kể cho các tác tử vào năm 2025.
Khả năng của tác tử bắt nguồn từ việc huấn luyện mô hình đầu cuối
Deep Research là một tác tử có khả năng tìm kiếm trên nhiều trang web trực tuyến và tạo ra các báo cáo toàn diện, hoàn thành nhiều tác vụ mà con người sẽ mất hàng giờ. Hoạt động trong ChatGPT, nó trả lời các câu hỏi trong khoảng 5-30 phút, cho phép nghiên cứu sâu hơn và cung cấp các câu trả lời chi tiết và cụ thể hơn so với ChatGPT tiêu chuẩn. OpenAI trước đây đã ra mắt Operator, và Deep Research là tác tử thứ hai của họ, với nhiều tác tử khác sẽ ra mắt.
Nguồn gốc
Khoảng một năm trước, OpenAI bắt đầu áp dụng một mô hình suy luận nội bộ, nhằm mục đích huấn luyện các mô hình suy nghĩ trước khi trả lời. Cách tiếp cận này đã chứng minh rất thành công.
Ban đầu, OpenAI tập trung vào Toán học và Khoa học. Tuy nhiên, họ phát hiện ra rằng kiến trúc mô hình suy luận mới này cũng mở ra khả năng xử lý các tác vụ dài hạn hơn, liên quan đến khả năng của tác tử.
Đồng thời, OpenAI nhận ra rằng nhiều tác vụ đòi hỏi nghiên cứu trực tuyến rộng rãi hoặc ngữ cảnh bên ngoài, khả năng suy luận mạnh mẽ, phân biệt các nguồn thông tin và một mức độ sáng tạo. Cuối cùng, OpenAI đã phát triển các phương pháp huấn luyện mô hình có khả năng xử lý các tác vụ này. Họ quyết định huấn luyện các mô hình thực hiện các tác vụ duyệt web, sử dụng các phương pháp tương tự như để huấn luyện các mô hình suy luận nhưng áp dụng cho các tác vụ thực tế hơn.
Dự án Deep Research bắt đầu với một bản demo ban đầu của Isa Fulford và Yash Patil. Josh Tobin đã gia nhập lại OpenAI khoảng sáu tháng trước sau khi làm việc tại một công ty khởi nghiệp, trở nên rất quan tâm đến công việc nền tảng và tham gia dự án Deep Research.
Những cá nhân chủ chốt:
- Isa Fulford: Nhà nghiên cứu AI trong nhóm Post-training của OpenAI, người đóng góp chính cho ChatGPT Retrieval Plugin.
- Yash Patil: Thành viên của nhóm mô hình cốt lõi trong nhóm Post-training của OpenAI, đã bỏ học Stanford.
- Josh Tobin: Trước đây là Nhà khoa học nghiên cứu tại OpenAI, sau đó thành lập Gantry (một sản phẩm để cải thiện ML thông qua phân tích, cảnh báo và phản hồi của con người). Anh ấy đã gia nhập lại OpenAI và hiện đang lãnh đạo nhóm nghiên cứu sản phẩm Agents.
Quy trình làm rõ
Deep Research có một thiết kế độc đáo: quy trình làm rõ. Trước khi bắt đầu nghiên cứu, mô hình Deep Research đặt câu hỏi cho người dùng. Thông thường, ChatGPT chỉ đặt câu hỏi tiếp theo vào cuối câu trả lời hoặc hỏi xem câu trả lời có thỏa đáng không, không giống như Deep Research, tham gia vào hành vi này ngay từ đầu.
Đây là một lựa chọn thiết kế có chủ ý của nhóm. Người dùng chỉ nhận được phản hồi tốt nhất từ mô hình Deep Research khi lời nhắc của họ rất rõ ràng và chi tiết. Tuy nhiên, người dùng thường không cung cấp tất cả thông tin trong lời nhắc ban đầu của họ. Do đó, OpenAI muốn đảm bảo rằng sau khi chờ đợi 5 hoặc 30 phút, người dùng sẽ nhận được một câu trả lời đủ chi tiết và thỏa đáng. Bước bổ sung này đã được thêm vào để đảm bảo người dùng cung cấp tất cả các chi tiết cần thiết cho mô hình.
Nhiều người dùng trên X đã đề cập đến việc tương tác với o1 hoặc o1 Pro trước để tinh chỉnh lời nhắc của họ. Khi đã hài lòng, họ gửi lời nhắc đến Deep Research.
Hình thức cuối cùng của tác tử
Trong vài tháng qua, OpenAI đã ra mắt ba phiên bản khác nhau của Deep Research, tất cả đều có tên là Deep Research. Josh Tobin tin rằng mặc dù mỗi sản phẩm đều có điểm mạnh và điểm yếu riêng, sự khác biệt về chất lượng giữa chúng là rõ ràng. Cuối cùng, điều này là do cách các mô hình được xây dựng, nỗ lực đầu tư vào việc xây dựng các tập dữ liệu và việc sử dụng các mô hình O-series làm động cơ. Điều này cho phép các mô hình Deep Research được tối ưu hóa, tạo ra các công cụ thông minh và chất lượng cao.
Hiện tại, Deep Research, O3 và Operator tương đối độc lập. Tuy nhiên, OpenAI hướng tới việc người dùng cuối cùng sẽ có một tác tử duy nhất, tối ưu có thể thực hiện tìm kiếm trên web, sử dụng máy tính hoặc hoàn thành các tác vụ mong muốn khác, tích hợp tất cả các chức năng này một cách tự nhiên hơn.
Huấn luyện đầu cuối là lý do cơ bản cho sức mạnh của mô hình
Mô hình cơ bản của Deep Research là một phiên bản tinh chỉnh của O3. O3 là mô hình suy luận tiên tiến nhất của OpenAI, và phần lớn khả năng phân tích của Deep Research đến từ nó. OpenAI đã huấn luyện đặc biệt mô hình Deep Research trên các tác vụ duyệt web phức tạp và các tác vụ suy luận khác. Do đó, Deep Research cũng có thể sử dụng các công cụ duyệt web và các công cụ Python. Thông qua việc huấn luyện đầu cuối trên các tác vụ này, Deep Research đã học được các chiến lược để xử lý chúng, cuối cùng làm cho mô hình vượt trội trong phân tích tìm kiếm trực tuyến.
Một cách trực quan, người dùng đưa ra yêu cầu và mô hình trước tiên suy nghĩ cẩn thận về nó. Sau đó, nó tìm kiếm thông tin liên quan, trích xuất và đọc nó. Sau khi hiểu thông tin này liên quan đến yêu cầu như thế nào, mô hình quyết định những gì cần tìm kiếm tiếp theo để tiến gần hơn đến câu trả lời cuối cùng mà người dùng mong muốn. Deep Research có thể tích hợp tất cả thông tin này vào một báo cáo gọn gàng, với các trích dẫn chỉ đến các nguồn gốc.
Sự đổi mới mang lại cho Deep Research khả năng tác tử của nó nằm ở việc huấn luyện đầu cuối của mô hình của OpenAI. Điều này có nghĩa là nhiều hoạt động trong quá trình nghiên cứu không thể đoán trước được. Không thể đạt được sự linh hoạt mà mô hình có được thông qua việc huấn luyện bằng cách viết một mô hình ngôn ngữ, chương trình hoặc tập lệnh. Thông qua việc huấn luyện, mô hình Deep Research đã học cách phản ứng với thông tin web theo thời gian thực và điều chỉnh các chiến lược kịp thời dựa trên những gì nó thấy. Do đó, mô hình Deep Research thực sự đang tiến hành các tìm kiếm rất sáng tạo. Người dùng có thể thấy mô hình thông minh như thế nào trong việc quyết định những gì cần tìm kiếm tiếp theo hoặc cách giải quyết một số vấn đề nhất định bằng cách đọc các bản tóm tắt của CoT.
Sự khác biệt giữa Deep Research và Tìm kiếm AI
Về câu hỏi của John Collison về việc bao nhiêu phần khả năng của Deep Research đến từ việc truy cập nội dung web theo thời gian thực và bao nhiêu phần từ CoT, hai nhà nghiên cứu của OpenAI tin rằng khả năng vượt trội của Deep Research là kết quả của sự kết hợp của cả hai.
Các sản phẩm tìm kiếm AI khác không được huấn luyện đầu cuối, vì vậy chúng không linh hoạt trong việc phản hồi thông tin như Deep Research, cũng như không sáng tạo trong việc giải quyết các vấn đề cụ thể.
Trước khi gia nhập OpenAI, Josh Tobin đã làm việc tại một công ty khởi nghiệp và cố gắng xây dựng các tác tử theo cách mà hầu hết mọi người mô tả việc xây dựng chúng, về cơ bản là xây dựng một đồ thị hoạt động với các LLM can thiệp vào một số nút. Mặc dù LLM có thể quyết định phải làm gì tiếp theo, logic của toàn bộ chuỗi các bước được xác định bởi con người.
Josh Tobin nhận thấy đây là một phương pháp mạnh mẽ để tạo mẫu nhanh chóng, nhưng nó nhanh chóng gặp phải các vấn đề trong thế giới thực. Rất khó để thấy trước tất cả các tình huống mà mô hình có thể gặp phải và xem xét tất cả các nhánh đường khác nhau mà nó có thể muốn đi. Hơn nữa, vì các mô hình này không được huấn luyện đặc biệt để đưa ra quyết định, chúng thường không phải là những người ra quyết định tốt nhất tại các nút; chúng được huấn luyện để làm một cái gì đó tương tự như việc ra quyết định.
Điều này nhắc lại rằng sức mạnh thực sự của mô hình Deep Research đến từ việc huấn luyện đầu cuối trực tiếp, nhằm mục đích giải quyết các tác vụ mà người dùng thực sự cần giải quyết. Do đó, không cần phải thiết lập một đồ thị hoạt động hoặc đưa ra quyết định nút trong kiến trúc nền; mọi thứ đều được điều khiển bởi chính mô hình.
Hơn nữa, nếu người dùng có một quy trình làm việc rất cụ thể và có thể dự đoán được, thì việc thực hiện nó theo cách mà Josh Tobin đã mô tả ở trên là có giá trị. Nhưng nếu cần xử lý rất linh hoạt, thì một cách tiếp cận tương tự như Deep Research có thể là lựa chọn tốt nhất.
Josh Tobin gợi ý rằng một số quy tắc nghiêm ngặt không nên được mã hóa cứng vào mô hình. Nếu có nhu cầu như ‘không muốn mô hình truy cập một cơ sở dữ liệu nhất định’, tốt hơn là thực hiện nó bằng logic được viết thủ công. Mọi người thường nghĩ rằng họ có thể thông minh hơn mô hình bằng cách viết mã, nhưng trên thực tế, khi lĩnh vực này phát triển, các mô hình thường đưa ra các giải pháp tốt hơn con người.
Một trong những bài học quan trọng nhất của machine learning là kết quả bạn nhận được phụ thuộc vào những gì bạn tối ưu hóa. Vì vậy, nếu người dùng có thể thiết lập một hệ thống để tối ưu hóa trực tiếp cho kết quả mong muốn, nó sẽ tốt hơn nhiều so với việc cố gắng ghép nối các mô hình không phù hợp với toàn bộ tác vụ. Do đó, điều chỉnh RL trên cơ sở mô hình tổng thể có thể trở thành một phần quan trọng trong việc xây dựng các tác tử mạnh mẽ nhất.
Dữ liệu chất lượng cao là một trong những yếu tố then chốt cho sự thành công của mô hình
Một trong những yếu tố then chốt cho sự thành công của mô hình Deep Research là có một tập dữ liệu chất lượng cao. Chất lượng của dữ liệu đầu vào cho mô hình có thể là yếu tố then chốt quyết định chất lượng của mô hình. Trong dự án Deep Research, Edward Sun tối ưu hóa tất cả các tập dữ liệu.
Ưu điểm của Deep Research
Điểm mạnh của Deep Research nằm ở khả năng cung cấp các câu trả lời tốt nhất khi người dùng có mô tả chi tiết về nhu cầu của họ. Tuy nhiên, ngay cả khi câu hỏi của người dùng mơ hồ, Deep Research có thể làm rõ thông tin mong muốn. Nó mạnh mẽ nhất khi người dùng đang tìm kiếm một tập hợp thông tin cụ thể.
Deep Research không chỉ có khả năng thu thập rộng rãi tất cả thông tin về một nguồn mà còn xuất sắc trong việc tìm kiếm các dữ kiện rất khó, chẳng hạn như nội dung đuôi dài sẽ không xuất hiện trên vài trang đầu tiên trong tìm kiếm truyền thống, chi tiết của một tập cụ thể của một chương trình truyền hình ít người biết, v.v. Trong một câu hỏi về một vị tướng Áo, ChatGPT đã từng đưa ra câu trả lời sai, trong khi Deep Research đã tìm thấy câu trả lời đúng.
Deep Research rất giỏi trong việc tổng hợp thông tin, đặc biệt là trong việc tìm kiếm thông tin cụ thể, khó tìm. Tuy nhiên, Deep Research không hiệu quả bằng trong việc trích xuất những hiểu biết mới từ thông tin hiện có và chưa thể tạo ra những khám phá khoa học mới.
Các trường hợp sử dụng của Deep Research
Người dùng mục tiêu
Deep Research được thiết kế cho bất kỳ ai tham gia vào công việc tri thức trong công việc hoặc cuộc sống hàng ngày của họ, đặc biệt là những người cần thu thập một lượng lớn thông tin, phân tích dữ liệu và đưa ra quyết định. Nhiều người dùng áp dụng Deep Research vào công việc của họ, chẳng hạn như trong nghiên cứu, để hiểu tình hình trong các lĩnh vực như thị trường, công ty và bất động sản.
Các trường hợp sử dụng
OpenAI hy vọng Deep Research có thể phục vụ cả các kịch bản kinh doanh và cuộc sống cá nhân, vì nó thực sự là một khả năng rất linh hoạt có thể áp dụng cho cả công việc và cuộc sống cá nhân. Sự hấp dẫn của Deep Research nằm ở khả năng tiết kiệm rất nhiều thời gian. Một số tác vụ có thể mất hàng giờ hoặc thậm chí nhiều ngày giờ đây có thể được trả lời 90% với Deep Research. OpenAI tin rằng sẽ có nhiều tác vụ tương tự hơn trong các kịch bản kinh doanh, nhưng Deep Research cũng sẽ trở thành một phần trong cuộc sống cá nhân của mọi người.
Deep Research không phải là về việc thay thế lực lượng lao động. Đối với công việc tri thức, đặc biệt là các tác vụ đòi hỏi nhiều thời gian để tìm kiếm thông tin và đưa ra kết luận, Deep Research sẽ trao quyền cho mọi người với siêu năng lực, cho phép các tác vụ có thể mất 4 hoặc 8 giờ để hoàn thành trong 5 phút, cho phép người dùng đạt được nhiều hơn.
Cuộc phỏng vấn đã đề cập đến các trường hợp sử dụng bao gồm: y tế, đầu tư và các kịch bản công việc chuyên môn khác; mua sắm, du lịch và các kịch bản gia đình khác; lập trình và giáo dục cá nhân hóa.
Y tế, Đầu tư và Các kịch bản công việc chuyên môn khác
Trong y học, Deep Research có thể giúp tìm tất cả các tài liệu hoặc các trường hợp gần đây của một bệnh nhất định, do đó tiết kiệm thời gian.
Trong đầu tư, với sự trợ giúp của Deep Research, các nhà đầu tư có thể chọn nghiên cứu mọi công ty khởi nghiệp tiềm năng mà họ có thể đầu tư vào, không chỉ những công ty mà họ có thời gian gặp gỡ.
Trong hoạt động của công ty, một người dùng đang xem xét bắt đầu một công ty hàng tiêu dùng đã sử dụng rộng rãi Deep Research để xác định xem các tên thương hiệu cụ thể đã được đăng ký chưa, liệu tên miền có bị chiếm dụng không, quy mô thị trường và nhiều thông tin khác.
Mua sắm, Du lịch và Các kịch bản gia đình khác
Một người dùng đang xem xét mua một chiếc xe hơi mới muốn biết khi nào mẫu xe tiếp theo sẽ được phát hành. Có rất nhiều bài báo suy đoán trực tuyến, vì vậy người dùng đã yêu cầu Deep Research tổng hợp tất cả các tin đồn liên quan. Deep Research đã tạo ra một báo cáo xuất sắc, thông báo cho người dùng rằng một chiếc xe hơi mới có thể được phát hành trong vài tháng tới.
Khi Deep Research được ra mắt tại Nhật Bản, người dùng thấy nó rất hữu ích trong việc tìm kiếm các nhà hàng đáp ứng các yêu cầu cụ thể và cũng có thể giúp người dùng khám phá những điều mà họ có thể không tìm thấy.
Khi người dùng cần mua một món đồ đắt tiền, lên kế hoạch cho một chuyến đi đặc biệt hoặc dành nhiều thời gian suy nghĩ về một vấn đề, họ có thể dành hàng giờ trực tuyến để tìm kiếm thông tin liên quan, duyệt qua tất cả các bài đánh giá, v.v. Deep Research có thể nhanh chóng tổ chức thông tin này, tạo một báo cáo tóm tắt và cung cấp lời khuyên chi tiết và cá nhân hóa.
Các bà mẹ làm việc bận rộn thường không có thời gian để lên kế hoạch cho các bữa tiệc sinh nhật cho con cái của họ, nhưng giờ đây họ có thể làm điều đó một cách nhanh chóng với sự trợ giúp của Deep Research.
Deep Research cũng rất xuất sắc trong việc làm theo hướng dẫn. Nếu người dùng không chỉ muốn biết về một sản phẩm mà còn muốn so sánh nó với tất cả các sản phẩm khác, hoặc thậm chí muốn xem các bài đánh giá từ các trang web như Reddit, họ có thể đưa ra nhiều yêu cầu khác nhau cho Deep Research và nó sẽ hoàn thành tất cả các tác vụ này cùng một lúc. Người dùng cũng có thể yêu cầu Deep Research đặt thông tin trong một bảng.
Lập trình
Nhiều người sử dụng Deep Research để lập trình. Kịch bản này ban đầu không được OpenAI xem xét, nhưng nhiều người đang sử dụng nó để viết mã, tìm kiếm mã, thậm chí tìm tài liệu mới nhất cho một gói hoặc viết tập lệnh, với kết quả ấn tượng.
Giáo dục
Giáo dục cá nhân hóa là một kịch bản ứng dụng rất thú vị. Nếu người dùng có một chủ đề mà họ muốn tìm hiểu, chẳng hạn như xem lại sinh học hoặc hiểu các sự kiện hiện tại, họ chỉ cần cung cấp các phần mà họ không hiểu hoặc thông tin mà họ muốn tìm hiểu sâu, và Deep Research có thể tổng hợp một báo cáo chi tiết. Có lẽ trong tương lai, có thể cung cấp giáo dục cá nhân hóa dựa trên những gì Deep Research học được về người dùng.
Các tác tử sẽ xuất hiện vào năm 2025
Hướng phát triển trong tương lai cho Deep Research
Về hình thức sản phẩm, OpenAI hy vọng rằng Deep Research sẽ có thể nhúng hình ảnh trong tương lai, tìm hình ảnh của sản phẩm, tạo biểu đồ và nhúng các biểu đồ này vào câu trả lời.
Về nguồn thông tin, OpenAI hy vọng sẽ mở rộng các nguồn dữ liệu mà mô hình có thể truy cập. Họ hy vọng mô hình sẽ có thể tìm kiếm dữ liệu riêng tư trong tương lai. OpenAI sẽ tiếp tục nâng cao khả năng của mô hình, làm cho nó tốt hơn trong việc duyệt web và phân tích.
Về độ chính xác của thông tin, để cho phép người dùng tin tưởng vào đầu ra của Deep Research, người dùng có thể xem các nguồn thông tin được trích dẫn bởi mô hình. Trong quá trình huấn luyện mô hình, OpenAI cũng cố gắng đảm bảo tính chính xác của các trích dẫn, nhưng mô hình vẫn có thể mắc lỗi, ảo giác hoặc thậm chí tin tưởng một nguồn có thể không đáng tin cậy nhất. Do đó, đây là một lĩnh vực mà OpenAI hy vọng sẽ tiếp tục cải thiện.
Để tích hợp rộng rãi hơn vào lộ trình OpenAI Agent, OpenAI hy vọng rằng Deep Research có thể được mở rộng sang nhiều kịch bản ứng dụng khác nhau, kết hợp các mô hình suy luận tiên tiến nhất với các công cụ mà con người có thể sử dụng để hoàn thành công việc hoặc các tác vụ cuộc sống hàng ngày, và sau đó tối ưu hóa trực tiếp mô hình để đạt được kết quả mà người dùng muốn tác tử đạt được.
Ở giai đoạn này, thực sự không có gì ngăn cản Deep Research mở rộng sang các kịch bản tác vụ phức tạp hơn. AGI hiện là một vấn đề hoạt động, và sẽ có nhiều phát triển thú vị để mong đợi trong tương lai.
Sam Altman tin rằng các tác vụ mà Deep Research có thể hoàn thành sẽ chiếm một vài phần trăm trong số tất cả các tác vụ khả thi về mặt kinh tế trên thế giới. Josh Tobin tin rằng Deep Research không thể làm tất cả công việc cho người dùng, nhưng nó có thể tiết kiệm cho người dùng vài giờ hoặc thậm chí nhiều ngày. OpenAI hy vọng rằng một mục tiêu tương đối gần là Deep Research và các tác tử được xây dựng tiếp theo, cũng như các tác tử khác được xây dựng trên nền tảng này, để tiết kiệm cho người dùng 1%, 5%, 10% hoặc 25% thời gian của họ, tùy thuộc vào loại công việc họ làm.
Agent & RL
Isa Fulford và Josh Tobin đồng ý rằng các tác tử sẽ xuất hiện trong năm nay.
RL đã trải qua một đỉnh cao, sau đó dường như có một chút suy thoái, và bây giờ đang nhận được sự chú ý trở lại. Yann LeCun đã từng có một phép so sánh: nếu mọi người đang làm một chiếc bánh, phần lớn của nó là bánh, sẽ có một ít kem, và cuối cùng là một vài quả anh đào trên đầu. Học không giám sát giống như chiếc bánh, học có giám sát là kem, và RL là quả anh đào.
Josh Tobin tin rằng khi thực hiện RL vào năm 2015-2016, sử dụng phép so sánh chiếc bánh, có thể đã cố gắng thêm quả anh đào mà không có bánh. Nhưng bây giờ, có các mô hình ngôn ngữ được huấn luyện trước trên một lượng lớn dữ liệu, các mô hình này rất mạnh mẽ, và chúng ta biết cách thực hiện tinh chỉnh có giám sát trên các mô hình ngôn ngữ này để làm cho chúng giỏi trong việc thực hiện các hướng dẫn và làm những gì mọi người muốn. Bây giờ mọi thứ hoạt động rất tốt, và nó rất phù hợp để điều chỉnh các mô hình này theo các hàm phần thưởng do người dùng xác định cho bất kỳ trường hợp sử dụng nào.