Từ Kế Hoạch Google Chóng Vánh Đến Định Hình Lịch Sử AI: Cuộc Trò Chuyện Với Noam Shazeer và Jeff Dean

Bình Minh của Sự Tiến Hóa AI: Hành Trình 25 Năm Từ PageRank Đến AGI

Hai nhân vật lỗi lạc của hành trình công nghệ Google, Jeff Dean, Giám đốc Khoa học hiện tại, và Noam Shazeer, một nhân vật then chốt đằng sau mô hình Transformer, người đã tái gia nhập đội ngũ, gần đây đã tham gia vào một cuộc đối thoại khai sáng. Được tổ chức bởi người dẫn chương trình podcast nổi tiếng Dwarkesh Patel, cuộc trò chuyện của họ đã mang đến một cái nhìn thoáng qua về sự phát triển của AI, kéo dài từ những ngày nền tảng của MapReduce đến kỷ nguyên biến đổi của kiến trúc Transformer và MoE.

Những cựu chiến binh dày dạn này, với kinh nghiệm kết hợp hàng thập kỷ tại Google, không chỉ chứng kiến mà còn tích cực định hình các công nghệ xác định của internet và trí tuệ nhân tạo. Trớ trêu thay, Shazeer thú nhận rằng động lực ban đầu của ông khi gia nhập Google là theo đuổi tài chính ngắn hạn, một kế hoạch đã bị đảo lộn một cách ngoạn mục bởi những đóng góp tiếp theo của ông cho lĩnh vực này.

Tình Trạng Hiện Tại và Quỹ Đạo Tương Lai của Tính Toán AI

Trong một cuộc trao đổi kéo dài hai giờ, Dean và Shazeer đã tiết lộ những hiểu biết sâu sắc về tình trạng hiện tại của tính toán AI, tiết lộ rằng:

  • Quy mô hoạt động đã vượt qua các trung tâm dữ liệu riêng lẻ; quá trình đào tạo Gemini hiện trải rộng trên nhiều trung tâm dữ liệu ở các khu vực đô thị khác nhau, hoạt động không đồng bộ.
  • Có rất nhiều dư địa để tăng trưởng trong việc mở rộng tính toán suy luận, vì tương tác với AI vẫn tiết kiệm chi phí hơn đáng kể so với đọc truyền thống.
  • Kiến trúc mô hình trong tương lai được hình dung là vượt qua tính linh hoạt của MoE, cho phép các nhóm khác nhau phát triển độc lập các thành phần mô hình khác nhau.

Những Hiểu Biết Từ Chiến Hào: Phần Thưởng Lỗi và Kiến Trúc Tương Lai

Cuộc trò chuyện cũng khơi dậy sự quan tâm trên mạng xã hội, với những người dùng làm nổi bật các khái niệm hấp dẫn, chẳng hạn như:

  • Tiềm năng lưu trữ các mô hình MoE rộng lớn trong bộ nhớ.
  • Những lợi ích bất ngờ của lỗi trong mã, những lỗi có thể vô tình dẫn đến những khám phá đột phá khi quy mô tăng lên.

Dean thách thức quan điểm cho rằng tính toán AI là quá đắt đỏ. Bằng cách so sánh chi phí tương tác với một cuốn sách so với tương tác với một AI về cùng một cuốn sách, ông đã minh họa một điểm thuyết phục:

Các mô hình ngôn ngữ tiên tiến nhất hoạt động với chi phí thấp đáng kinh ngạc, khoảng $10^{-18}$ cho mỗi hoạt động, chuyển thành một triệu token được xử lý chỉ với một đô la. Ngược lại, việc mua một cuốn sách bìa mềm chỉ cung cấp 10.000 token cho mỗi đô la.

Sự khác biệt rõ rệt này—lợi thế chi phí gấp trăm lần cho tương tác AI—nhấn mạnh tiềm năng chưa được khai thác để nâng cao trí thông minh AI thông qua tính toán suy luận tăng lên.

Từ góc độ cơ sở hạ tầng, tầm quan trọng ngày càng tăng của tính toán thời gian suy luận có thể định hình lại việc lập kế hoạch trung tâm dữ liệu. Điều này có thể đòi hỏi phần cứng được thiết kế riêng cho các tác vụ suy luận, gợi nhớ đến TPU thế hệ đầu tiên của Google, ban đầu được thiết kế cho suy luận và sau đó được điều chỉnh cho đào tạo.

Tính Toán Phân Tán và Không Đồng Bộ: Một Mô Hình Mới

Sự nhấn mạnh ngày càng tăng vào suy luận cho thấy rằng giao tiếp liên tục giữa các trung tâm dữ liệu có thể trở nên không cần thiết, có khả năng dẫn đến một mô hình tính toán phân tán và không đồng bộ hơn.

Gemini 1.5 đã bắt đầu đi theo con đường này, tận dụng các tài nguyên tính toán trên một số thành phố lớn. Mạng tốc độ cao đồng bộ hóa các tính toán từ các trung tâm dữ liệu khác nhau, đạt được quy mô đào tạo chưa từng có. Đối với các mô hình lớn, nơi mỗi bước đào tạo có thể mất vài giây, ngay cả độ trễ mạng 50 mili giây cũng gây ra tác động tối thiểu.

Trong lĩnh vực suy luận, độ nhạy trễ trở thành một yếu tố quan trọng. Mặc dù các phản hồi ngay lập tức đòi hỏi hiệu suất độ trễ thấp được tối ưu hóa, nhưng các tác vụ không khẩn cấp, chẳng hạn như phân tích ngữ cảnh phức tạp, có thể chịu được thời gian xử lý lâu hơn.

Một hệ thống thích ứng và hiệu quả hơn có thể quản lý không đồng bộ nhiều tác vụ, nâng cao hiệu suất tổng thể đồng thời giảm thiểu thời gian chờ đợi của người dùng. Ngoài ra, những tiến bộ về thuật toán, như sử dụng các mô hình nháp nhỏ hơn, có thể giảm bớt tắc nghẽn trong quá trình suy luận. Cách tiếp cận này liên quan đến các mô hình nhỏ hơn tạo ra các token tiềm năng, sau đó được xác minh bởi các mô hình lớn hơn, tăng tốc đáng kể quá trình suy luận thông qua song song hóa.

Shazeer nói thêm rằng trong quá trình đào tạo không đồng bộ, mỗi bản sao mô hình hoạt động độc lập, gửi các bản cập nhật gradient đến một hệ thống trung tâm để ứng dụng không đồng bộ. Bất chấp những tác động lý thuyết của những biến động tham số nhỏ, phương pháp này đã chứng tỏ thành công đáng kể.

Ngược lại, đào tạo đồng bộ mang lại sự ổn định và khả năng tái tạo, một ưu tiên cho nhiều nhà nghiên cứu. Để đảm bảo khả năng sao chép trong đào tạo, Dean nhấn mạnh thông lệ ghi nhật ký các hoạt động, đặc biệt là các bản cập nhật gradient và đồng bộ hóa lô dữ liệu. Bằng cách phát lại các bản ghi này, ngay cả đào tạo không đồng bộ cũng có thể mang lại kết quả có thể tái tạo, giúp gỡ lỗi dễ dàng hơn và giảm thiểu sự không nhất quán do các yếu tố môi trường gây ra.

Vai Trò Tình Cờ của Lỗi

Mở rộng về điều này, Shazeer đã giới thiệu một quan điểm hấp dẫn:

Mặc dù các mô hình đào tạo gặp phải nhiều lỗi khác nhau, nhưng khả năng chịu đựng tiếng ồn vốn có của các mô hình này cho phép tự điều chỉnh, dẫn đến những kết quả không lường trước được. Một số lỗi thậm chí còn mang lại những tác động tích cực, mang đến cơ hội cải thiện khi quy mô khuếch đại những bất thường trong thử nghiệm.

Khi được hỏi về các phương pháp gỡ lỗi, Shazeer đã mô tả cách tiếp cận của họ là tiến hành nhiều thử nghiệm quy mô nhỏ để xác thực nhanh chóng. Phương pháp này đơn giản hóa cơ sở mã và rút ngắn chu kỳ thử nghiệm xuống còn hàng giờ thay vì hàng tuần, tạo điều kiện phản hồi và điều chỉnh nhanh chóng.

Dean đồng ý, lưu ý rằng nhiều thí nghiệm với kết quả ban đầu không thuận lợi sau này có thể cung cấp những hiểu biết quan trọng. Tuy nhiên, các nhà nghiên cứu phải đối mặt với thách thức về độ phức tạp của mã; mặc dù những cải tiến gia tăng là cần thiết, nhưng chúng cũng gây ra những thách thức về hiệu suất và bảo trì, đòi hỏi sự cân bằng giữa sự sạch sẽ của hệ thống và sự đổi mới.

Cấu Trúc Hữu Cơ của Các Mô Hình Tương Lai

Dean và Shazeer hình dung một sự thay đổi đáng kể trong các mô hình AI từ cấu trúc nguyên khối sang kiến trúc mô-đun.

Các mô hình như Gemini 1.5 Pro đã sử dụng kiến trúc Mixture of Experts (MoE), kích hoạt các thành phần khác nhau dựa trên tác vụ. Ví dụ: các vấn đề toán học thu hút phần thành thạo toán học, trong khi xử lý hình ảnh kích hoạt mô-đun chuyên dụng tương ứng.

Tuy nhiên, cấu trúc mô hình hiện tại vẫn còn hơi cứng nhắc, với các mô-đun chuyên gia có kích thước đồng đều và thiếu tính linh hoạt. Dean đề xuất một tầm nhìn hướng tới tương lai hơn: các mô hình trong tương lai nên áp dụng một cấu trúc hữu cơ, cho phép các nhóm khác nhau độc lập phát triển hoặc nâng cao các phần riêng biệt của mô hình.

Ví dụ: một nhóm chuyên về ngôn ngữ Đông Nam Á có thể tinh chỉnh mô-đun có liên quan, trong khi một nhóm khác tập trung vào cải thiện khả năng hiểu mã. Cách tiếp cận mô-đun này không chỉ tăng cường hiệu quả phát triển mà còn cho phép các nhóm toàn cầu đóng góp vào sự tiến bộ của mô hình.

Về mặt kỹ thuật, các mô hình có thể liên tục tối ưu hóa các mô-đun riêng lẻ thông qua chưng cất. Điều này liên quan đến việc cô đọng các mô-đun lớn, hiệu suất cao thành các phiên bản nhỏ hơn, hiệu quả hơn, sau đó tiếp tục học kiến thức mới.

Một bộ định tuyến có thể chọn phiên bản mô-đun phù hợp dựa trên độ phức tạp của tác vụ, cân bằng hiệu suất và hiệu quả—một khái niệm cốt lõi trong kiến trúc Pathway của Google.

Kiến trúc mới này đòi hỏi cơ sở hạ tầng mạnh mẽ, bao gồm các cụm TPU mạnh mẽ và bộ nhớ băng thông cao (HBM) rộng rãi. Mặc dù mỗi lệnh gọi có thể chỉ sử dụng một phần nhỏ các tham số của mô hình, nhưng toàn bộ hệ thống cần giữ toàn bộ mô hình trong bộ nhớ để phục vụ các yêu cầu đồng thời.

Các mô hình hiện tại có thể phân tách một tác vụ thành 10 tác vụ con với tỷ lệ thành công 80%. Các mô hình trong tương lai có khả năng chia nhỏ một tác vụ thành 100 hoặc 1.000 tác vụ con, đạt tỷ lệ thành công 90% hoặc cao hơn.

Khoảnh Khắc “Chết Tiệt”: Nhận Dạng Mèo Chính Xác

Nhìn lại, năm 2007 đánh dấu một cột mốc quan trọng đối với các mô hình ngôn ngữ lớn (LLM).

Vào thời điểm đó, Google đã đào tạo một mô hình N-gram bằng cách sử dụng 2 nghìn tỷ token để dịch máy. Tuy nhiên, sự phụ thuộc vào bộ nhớ đĩa cho dữ liệu N-gram dẫn đến độ trễ cao do I/O đĩa (ví dụ: 100.000 tìm kiếm/từ), mất 12 giờ để dịch một câu duy nhất.

Để giải quyết vấn đề này, họ đã đưa ra một số chiến lược, bao gồm nén bộ nhớ, kiến trúc phân tán và tối ưu hóa API xử lý hàng loạt:

  • Nén Bộ Nhớ: Tải toàn bộ dữ liệu N-gram vào bộ nhớ để tránh I/O đĩa.
  • Kiến Trúc Phân Tán: Phân phối dữ liệu trên nhiều máy (ví dụ: 200) cho các truy vấn song song.
  • Tối Ưu Hóa API Xử Lý Hàng Loạt: Giảm chi phí trên mỗi yêu cầu để cải thiện thông lượng.

Trong giai đoạn này, sức mạnh tính toán bắt đầu tuân theo Định luật Moore, dẫn đến sự tăng trưởng theo cấp số nhân.

“Từ cuối năm 2008, nhờ Định luật Moore, mạng thần kinh thực sự bắt đầu hoạt động.”

Khi được hỏi về một khoảnh khắc “Chết tiệt”—một khoảnh khắc không tin rằng một nỗ lực nghiên cứu cụ thể thực sự hiệu quả—Jeff kể lại dự án của một nhóm Google ban đầu, nơi họ đã đào tạo một mô hình để học các tính năng cấp cao (như nhận dạng mèo và người đi bộ) từ các khung hình video YouTube. Thông qua đào tạo phân tán (2.000 máy, 16.000 lõi), họ đã đạt được học tập không giám sát quy mô lớn.

Sau quá trình tiền đào tạo không giám sát, hiệu suất của mô hình trong các tác vụ được giám sát (ImageNet) đã được cải thiện 60%, chứng minh tiềm năng của đào tạo quy mô lớnhọc tập không giám sát.

Khi đề cập đến việc liệu Google vẫn chủ yếu là một công ty truy xuất thông tin hay không, Jeff nhấn mạnh:

“AI thực hiện sứ mệnh ban đầu của Google.”

Về bản chất, AI không chỉ truy xuất thông tin mà còn hiểu và tạo ra nội dung phức tạp, với tiềm năng to lớn trong tương lai. Về hướng đi tương lai của Google, “Tôi không biết.”

Tuy nhiên, người ta có thể dự đoán việc tích hợp Google và một số mã nguồn mở vào ngữ cảnh của mọi nhà phát triển. Nói cách khác, bằng cách cho phép các mô hình xử lý nhiều token hơn, tìm kiếm trong tìm kiếm sẽ nâng cao hơn nữa khả năng và tiện ích của mô hình.

Khái niệm này đã được thử nghiệm nội bộ tại Google.

“Trên thực tế, chúng tôi đã tiến hành đào tạo thêm trên mô hình Gemini cho các nhà phát triển nội bộ trên cơ sở mã nội bộ của chúng tôi.”

Chính xác hơn, Google đã đạt được mục tiêu 25% mã của họ được viết bởi AI trong nội bộ.

Những Khoảnh Khắc Hạnh Phúc Nhất Tại Google

Điều thú vị là bộ đôi này cũng chia sẻ nhiều trải nghiệm hấp dẫn liên quan đến Google.

Đối với Noam vào năm 1999, việc gia nhập một công ty lớn như Google ban đầu không hấp dẫn, vì ông cảm thấy kỹ năng của mình có thể không được sử dụng hết. Tuy nhiên, sau khi nhìn thấy biểu đồ chỉ số khối lượng tìm kiếm hàng ngày của Google, ông đã nhanh chóng thay đổi ý định:

“Những người này chắc chắn sẽ thành công và có vẻ như họ có nhiều vấn đề thú vị cần giải quyết.”

Ông gia nhập với một ý định “nhỏ” cụ thể:

“Kiếm một ít tiền và sau đó vui vẻ theo đuổi những mối quan tâm nghiên cứu AI của riêng tôi.”

Khi gia nhập Google, ông đã gặp người cố vấn của mình, Jeff (nhân viên mới được chỉ định người cố vấn), và họ đã hợp tác trong một số dự án.

Tại thời điểm này, Jeff xen vào với sự đánh giá cao của riêng mình đối với Google:

“Tôi thích nhiệm vụ rộng lớn của Google đối với tầm nhìn RM (Responsive and Multimodal), ngay cả khi đó là một hướng, chúng ta có thể thực hiện nhiều dự án nhỏ.”

Điều này cũng mang lại cho Noam sự tự do dẫn đến việc người ban đầu lên kế hoạch “đánh và chạy” ở lại lâu dài.

Trong khi đó, khi chủ đề chuyển sang Jeff, luận văn đại học của ông về truyền ngược song song đã được xem xét lại.

Bài báo dài 8 trang này đã trở thành luận văn đại học hàng đầu năm 1990 và được lưu giữ trong thư viện Đại học Minnesota. Trong đó, Jeff đã khám phá hai phương pháp đào tạo song song các mạng thần kinh dựa trên truyền ngược:

  • Cách tiếp cận phân vùng mẫu: Biểu diễn toàn bộ mạng thần kinh trên mỗi bộ xử lý và chia các mẫu đầu vào giữa các bộ xử lý có sẵn.
  • Cách tiếp cận phân vùng mạng (cách tiếp cận đường ống): Phân phối các nơ-ron của mạng thần kinh trên các bộ xử lý có sẵn, tạo thành một vòng giao tiếp. Các tính năng đi qua đường ống này, được xử lý bởi các nơ-ron trên mỗi bộ xử lý.

Ông đã thử nghiệm các phương pháp này với các mạng thần kinh có kích thước khác nhau và các dữ liệu đầu vào khác nhau. Kết quả cho thấy rằng đối với cách tiếp cận phân vùng mẫu, các mạng lớn hơn và nhiều mẫu đầu vào hơn mang lại khả năng tăng tốc tốt hơn.

Đáng chú ý nhất, bài báo tiết lộ một mạng thần kinh “lớn” trông như thế nào vào năm 1990:

“Một mạng thần kinh 3 lớp với 10, 21 và 10 nơ-ron trên mỗi lớp được coi là rất lớn.”

Jeff nhớ lại rằng ông đã sử dụng tới 32 bộ xử lý cho các thử nghiệm của mình.

(Vào thời điểm đó, có lẽ ông không thể tưởng tượng rằng 12 năm sau, ông, cùng với Andrew Ng, Quoc Le và những người khác, sẽ sử dụng 16.000 lõi CPU để xác định mèo từ dữ liệu khổng lồ.)

Tuy nhiên, Jeff thừa nhận rằng để những kết quả nghiên cứu này thực sự hiệu quả, “chúng ta cần sức mạnh tính toán gấp khoảng một triệu lần.”

Sau đó, họ đã thảo luận về những rủi ro tiềm ẩn của AI, đặc biệt là vấn đề vòng phản hồi khi AI trở nên cực kỳ mạnh mẽ. Nói cách khác, AI có thể đi vào một vòng gia tốc không thể kiểm soát (tức là “bùng nổ trí tuệ”) bằng cách viết mã hoặc cải thiện thuật toán của nó.

Điều này có thể dẫn đến việc AI nhanh chóng vượt qua sự kiểm soát của con người, thậm chí tạo ra các phiên bản độc hại. Như người dẫn chương trình đã nói, hãy tưởng tượng “một triệu lập trình viên hàng đầu như Jeff, cuối cùng biến thành một triệu Jeff độc ác.”

(Cư dân mạng): “Cơn ác mộng mới được mở khóa, haha!”

Cuối cùng, suy ngẫm về những khoảnh khắc hạnh phúc nhất của họ tại Google, cả hai đều chia sẻ những kỷ niệm của mình.

Đối với Jeff, những khoảnh khắc vui vẻ nhất trong những năm đầu của Google là chứng kiến sự tăng trưởng bùng nổ của lưu lượng tìm kiếm của Google.

“Xây dựng một thứ mà 2 tỷ người hiện đang sử dụng là điều đáng kinh ngạc.”

Gần đây, ông rất vui khi xây dựng những thứ với nhóm Gemini mà mọi người sẽ không tin là có thể ngay cả năm năm trước và ông thấy trước tác động của mô hình sẽ mở rộng hơn nữa.

Noam lặp lại những trải nghiệm tương tự và cảm giác về sứ mệnh, thậm chí còn trìu mến đề cập đến “khu vực bếp nhỏ” của Google.

Đây là một không gian đặc biệt với khoảng 50 bàn, cung cấp cà phê và đồ ăn nhẹ, nơi mọi người có thể tự do trò chuyện và trao đổi ý tưởng.

Khi đề cập đến điều này, ngay cả Jeff cũng trở nên hoạt bát (doge).