Thách Thức Thật Sự: Xây Dựng Ứng Dụng AI Doanh Nghiệp

Thách Thức Thật Sự: Xây Dựng Ứng Dụng AI Doanh Nghiệp

Trong khi vô số nguồn lực được đổ vào việc đào tạo các Mô hình Ngôn ngữ Lớn (LLM) mỗi năm, một trở ngại đáng kể vẫn còn: tích hợp hiệu quả các mô hình này vào các ứng dụng thực tế, hữu ích.

Ảo Ảnh Của Việc Tinh Chỉnh

Tinh chỉnh và Tạo Sinh Tăng Cường Truy Xuất (RAG) thường được coi là các phương pháp đã được thiết lập tốt để nâng cao kiến thức và khả năng của các mô hình AI được đào tạo trước. Tuy nhiên, Giám đốc điều hành của Aleph Alpha, Jonas Andrulis, chỉ ra rằng thực tế phức tạp hơn.

“Một năm trước, có một niềm tin lan rộng rằng tinh chỉnh là một giải pháp kỳ diệu. Nếu một hệ thống AI không hoạt động như mong muốn, câu trả lời đơn giản là tinh chỉnh. Nó không đơn giản như vậy,” ông giải thích.

Mặc dù tinh chỉnh có thể sửa đổi phong cách hoặc hành vi của một mô hình, nhưng nó không phải là cách tiếp cận hiệu quả nhất để dạy thông tin mới. Kỳ vọng rằng chỉ tinh chỉnh có thể giải quyết tất cả các vấn đề ứng dụng AI là một quan niệm sai lầm.

RAG: Một Cách Tiếp Cận Thay Thế

RAG cung cấp một giải pháp thay thế bằng cách hoạt động như một thủ thư truy xuất thông tin từ một kho lưu trữ bên ngoài. Cách tiếp cận này cho phép cập nhật và thay đổi thông tin trong cơ sở dữ liệu mà không cần đào tạo lại hoặc tinh chỉnh mô hình. Ngoài ra, các kết quả được tạo có thể được trích dẫn và kiểm toán để đảm bảo tính chính xác.

“Kiến thức cụ thể phải luôn được ghi lại và không được lưu trữ trong các tham số của LLM,” Andrulis nhấn mạnh.

Mặc dù RAG mang lại nhiều lợi ích, nhưng thành công của nó phụ thuộc vào việc lập tài liệu thích hợp về các quy trình, thủ tục và kiến thức tổ chức quan trọng ở định dạng mà mô hình có thể hiểu được. Thật không may, điều này thường không phải là trường hợp.

Ngay cả khi tài liệu tồn tại, các doanh nghiệp có thể gặp phải các vấn đề nếu các tài liệu hoặc quy trình dựa trên dữ liệu ngoài phân phối - dữ liệu khác biệt đáng kể so với dữ liệu được sử dụng để đào tạo mô hình cơ sở. Ví dụ: một mô hình chỉ được đào tạo trên các bộ dữ liệu tiếng Anh sẽ gặp khó khăn với tài liệu tiếng Đức, đặc biệt nếu nó chứa các công thức khoa học. Trong nhiều trường hợp, mô hình có thể không thể diễn giải dữ liệu.

Do đó, Andrulis gợi ý rằng sự kết hợp giữa tinh chỉnh và RAG thường là cần thiết để đạt được kết quả có ý nghĩa. Cách tiếp cận kết hợp này tận dụng các điểm mạnh của cả hai phương pháp để khắc phục những hạn chế riêng của chúng.

Thu Hẹp Khoảng Cách

Aleph Alpha đặt mục tiêu phân biệt mình với tư cách là một DeepMind của Châu Âu bằng cách giải quyết những thách thức ngăn cản các doanh nghiệp và quốc gia phát triển AI chủ quyền của riêng họ.

AI chủ quyền đề cập đến các mô hình được đào tạo hoặc tinh chỉnh bằng cách sử dụng các bộ dữ liệu nội bộ của một quốc gia trên phần cứng được xây dựng hoặc triển khai trong biên giới của quốc gia đó. Cách tiếp cận này đảm bảo quyền riêng tư, bảo mật và kiểm soát dữ liệu, rất quan trọng đối với nhiều tổ chức và chính phủ.

“Chúng tôi cố gắng trở thành hệ điều hành, nền tảng để các doanh nghiệp và chính phủ xây dựng chiến lược AI chủ quyền của riêng họ,” Andrulis tuyên bố. “Chúng tôi mong muốn đổi mới khi cần thiết, đồng thời tận dụng các công nghệ nguồn mở và hiện đại nhất khi có thể.”

Mặc dù điều này đôi khi liên quan đến việc đào tạo các mô hình, chẳng hạn như Pharia-1-LLM của Aleph, Andrulis nhấn mạnh rằng họ không cố gắng sao chép các mô hình hiện có như Llama hoặc DeepSeek. Trọng tâm của họ là tạo ra các giải pháp độc đáo để giải quyết các thách thức cụ thể.

“Tôi luôn hướng nghiên cứu của chúng tôi tập trung vào những điều khác biệt có ý nghĩa, không chỉ sao chép những gì mọi người đang làm, bởi vì điều đó đã tồn tại,” Andrulis nói. “Chúng tôi không cần xây dựng một Llama hoặc DeepSeek khác vì chúng đã tồn tại.”

Thay vào đó, Aleph Alpha tập trung vào việc xây dựng các khuôn khổ đơn giản hóa và hợp lý hóa việc áp dụng các công nghệ này. Một ví dụ gần đây là kiến trúc đào tạo không có mã thông báo, hay “T-Free” mới của họ, nhằm mục đích tinh chỉnh các mô hình có thể hiểu dữ liệu ngoài phân phối hiệu quả hơn.

Các phương pháp dựa trên mã thông báo truyền thống thường yêu cầu số lượng lớn dữ liệu ngoài phân phối để tinh chỉnh hiệu quả một mô hình. Điều này tốn kém về mặt tính toán và giả định rằng có đủ dữ liệu.

Kiến trúc T-Free của Aleph Alpha bỏ qua vấn đề này bằng cách loại bỏ mã thông báo. Thử nghiệm ban đầu trên Pharia LLM của họ bằng tiếng Phần Lan cho thấy giảm 70% chi phí đào tạo và lượng khí thải carbon so với các phương pháp dựa trên mã thông báo. Cách tiếp cận sáng tạo này giúp việc tinh chỉnh trở nên dễ tiếp cận và bền vững hơn.

Aleph Alpha cũng đã phát triển các công cụ để giải quyết những khoảng trống trong kiến thức được ghi lại có thể dẫn đến những kết luận không chính xác hoặc vô ích.

Ví dụ: nếu hai hợp đồng liên quan đến một câu hỏi tuân thủ mâu thuẫn với nhau, “hệ thống có thể tiếp cận con người và nói, ‘Tôi đã tìm thấy một sự khác biệt… bạn có thể vui lòng cung cấp phản hồi về việc đây có phải là một xung đột thực sự không?’” Andrulis giải thích.

Thông tin thu thập được thông qua khuôn khổ này, được gọi là Pharia Catch, có thể được đưa trở lại cơ sở kiến thức của ứng dụng hoặc được sử dụng để tinh chỉnh các mô hình hiệu quả hơn. Vòng phản hồi này cải thiện tính chính xác và độ tin cậy của hệ thống AI theo thời gian.

Theo Andrulis, các công cụ này đã thu hút các đối tác như PwC, Deloitte, Capgemini và Supra, những người làm việc với khách hàng cuối để triển khai công nghệ của Aleph Alpha. Các quan hệ đối tác này chứng minh giá trị và tính thực tế của các giải pháp của Aleph Alpha trong các ứng dụng thực tế.

Yếu Tố Phần Cứng

Phần mềm và dữ liệu không phải là những thách thức duy nhất mà những người áp dụng AI chủ quyền phải đối mặt. Phần cứng là một cân nhắc quan trọng khác.

Các doanh nghiệp và quốc gia khác nhau có thể có các yêu cầu cụ thể để chạy trên phần cứng do quốc gia phát triển hoặc có thể chỉ định nơi có thể chạy khối lượng công việc. Những hạn chế này có thể ảnh hưởng đáng kể đến việc lựa chọn phần cứng và cơ sở hạ tầng.

Điều này có nghĩa là Andrulis và nhóm của ông phải hỗ trợ một loạt các tùy chọn phần cứng. Aleph Alpha đã thu hút một nhóm đối tác phần cứng chiết trung, bao gồm AMD, Graphcore và Cerebras.

Tháng trước, Aleph Alpha đã công bố hợp tác với AMD để sử dụng bộ tăng tốc dòng MI300 của mình. Sự hợp tác này sẽ tận dụng phần cứng tiên tiến của AMD để tăng tốc đào tạo và suy luận AI.

Andrulis cũng nhấn mạnh sự hợp tác với Graphcore, được Softbank mua lại và Cerebras, có bộ tăng tốc quy mô wafer CS-3 được sử dụng để đào tạo các mô hình AI cho lực lượng vũ trang Đức. Các quan hệ đối tác này chứng minh cam kết của Aleph Alpha trong việc làm việc với các nhà cung cấp phần cứng đa dạng để đáp ứng các nhu cầu cụ thể của khách hàng.

Bất chấp những sự hợp tác này, Andrulis khẳng định rằng mục tiêu của Aleph Alpha không phải là trở thành một dịch vụ được quản lý hoặc nhà cung cấp đám mây. “Chúng tôi sẽ không bao giờ trở thành nhà cung cấp đám mây,” ông tuyên bố. “Tôi muốn khách hàng của mình được tự do và không bị khóa.” Cam kết về sự tự do và linh hoạt của khách hàng này giúp Aleph Alpha khác biệt với nhiều công ty AI khác.

Con Đường Phía Trước: Tăng Cường Độ Phức Tạp

Nhìn về phía trước, Andrulis dự đoán rằng việc xây dựng các ứng dụng AI sẽ trở nên phức tạp hơn khi ngành công nghiệp chuyển từ chatbot sang các hệ thống AI đại diện có khả năng giải quyết vấn đề phức tạp hơn.

AI đại diện đã thu hút được sự chú ý đáng kể trong năm qua, với các nhà xây dựng mô hình, nhà phát triển phần mềm và nhà cung cấp phần cứng hứa hẹn các hệ thống có thể hoàn thành các quy trình nhiều bước không đồng bộ. Các ví dụ ban đầu bao gồm Operator của OpenAI và API sử dụng máy tính của Anthropic. Các hệ thống AI đại diện này thể hiện một bước tiến đáng kể trong khả năng AI.

“Năm ngoái, chúng tôi chủ yếu tập trung vào các tác vụ đơn giản như tóm tắt tài liệu hoặc hỗ trợ viết,” ông nói. “Bây giờ, nó đang trở nên thú vị hơn với những thứ mà thoạt nhìn, thậm chí không có vẻ là vấn đề genAI, nơi trải nghiệm người dùng không phải là chatbot.” Sự thay đổi này hướng tới các ứng dụng AI phức tạp và tích hợp hơn đặt ra những thách thức và cơ hội mới cho ngành công nghiệp.

Những Thách Thức Chính Trong Việc Xây Dựng Ứng Dụng AI Doanh Nghiệp:

  • Thu hẹp khoảng cách giữa đào tạo mô hình và tích hợp ứng dụng: Dịch hiệu quả các khả năng của LLM thành các ứng dụng thực tế vẫn là một trở ngại đáng kể.
  • Vượt qua những hạn chế của việc tinh chỉnh: Chỉ tinh chỉnh thường không đủ để dạy các mô hình AI thông tin mới hoặc điều chỉnh chúng cho các tác vụ cụ thể.
  • Đảm bảo chất lượng và khả năng truy cập của dữ liệu: RAG dựa vào dữ liệu được ghi chép đầy đủ và dễ dàng truy cập, thường thiếu ở nhiều tổ chức.
  • Xử lý dữ liệu ngoài phân phối: Các mô hình AI phải có khả năng xử lý dữ liệu khác với dữ liệu mà chúng được đào tạo, điều này đòi hỏi các kỹ thuật chuyên biệt.
  • Giải quyết các hạn chế về phần cứng: Các doanh nghiệp và quốc gia khác nhau có các yêu cầu phần cứng khác nhau cần được xem xét.
  • Duy trì quyền riêng tư và bảo mật dữ liệu: AI chủ quyền yêu cầu đảm bảo rằng dữ liệu được xử lý và lưu trữ an toàn trong biên giới của một quốc gia.
  • Phát triển các hệ thống AI đại diện: Xây dựng các ứng dụng AI có thể thực hiện các quy trình nhiều bước phức tạp không đồng bộ là một lĩnh vực nghiên cứu đầy thách thức nhưng đầy hứa hẹn.

Những Cơ Hội Chính Trong Việc Xây Dựng Ứng Dụng AI Doanh Nghiệp:

  • Phát triển các giải pháp AI sáng tạo: Những thách thức trong việc xây dựng các ứng dụng AI doanh nghiệp tạo ra cơ hội để phát triển các giải pháp sáng tạo đáp ứng các nhu cầu cụ thể.
  • Tận dụng các công nghệ nguồn mở: Các công nghệ nguồn mở có thể giúp giảm chi phí và tăng tốc phát triển các ứng dụng AI.
  • Hợp tác với các đối tác phần cứng: Hợp tác với các đối tác phần cứng có thể giúp đảm bảo rằng các ứng dụng AI được tối ưu hóa cho các nền tảng phần cứng cụ thể.
  • Xây dựng khả năng AI chủ quyền: AI chủ quyền có thể cung cấp cho các quốc gia và tổ chức quyền kiểm soát lớn hơn đối với dữ liệu và cơ sở hạ tầng AI của họ.
  • Chuyển đổi các ngành công nghiệp bằng AI: AI có tiềm năng chuyển đổi các ngành công nghiệp bằng cách tự động hóa các tác vụ, cải thiện việc ra quyết định và tạo ra các sản phẩm và dịch vụ mới.

Tương Lai Của Ứng Dụng AI Doanh Nghiệp:

Tương lai của các ứng dụng AI doanh nghiệp có khả năng được đặc trưng bởi:

  • Tăng cường độ phức tạp: Các ứng dụng AI sẽ trở nên phức tạp và tích hợp hơn, đòi hỏi chuyên môn và công cụ chuyên biệt.
  • Tập trung nhiều hơn vào chất lượng dữ liệu: Chất lượng dữ liệu sẽ ngày càng trở nên quan trọng khi các ứng dụng AI dựa vào dữ liệu chính xác và đáng tin cậy.
  • Nhấn mạnh hơn vào bảo mật và quyền riêng tư: Bảo mật và quyền riêng tư sẽ là tối quan trọng khi các ứng dụng AI xử lý dữ liệu nhạy cảm.
  • Áp dụng rộng rãi hơn AI đại diện: Các hệ thống AI đại diện sẽ trở nên phổ biến hơn khi các tổ chức tìm cách tự động hóa các tác vụ phức tạp.
  • Tiếp tục đổi mới: Lĩnh vực AI sẽ tiếp tục phát triển nhanh chóng, dẫn đến những đột phá và cơ hội mới.

Bằng cách giải quyết những thách thức và nắm bắt những cơ hội, các tổ chức có thể khai thác sức mạnh của AI để chuyển đổi doanh nghiệp của họ và tạo ra một tương lai tốt đẹp hơn.