Trí tuệ nhân tạo, đặc biệt là nhánh xử lý ngôn ngữ, trong những năm gần đây đã bị chi phối bởi quy mô và sức mạnh tuyệt đối của các Mô hình Ngôn ngữ Lớn (LLMs). Những gã khổng lồ này, được huấn luyện trên biển dữ liệu khổng lồ, đã thể hiện những khả năng đáng kinh ngạc, thu hút trí tưởng tượng của công chúng và đô la đầu tư. Tuy nhiên, bên dưới những tiêu đề báo chí ca ngợi các mô hình ngày càng lớn hơn, một cuộc cách mạng lặng lẽ hơn nhưng tiềm năng biến đổi mạnh mẽ hơn đang hình thành: sự trỗi dậy của các Mô hình Ngôn ngữ Nhỏ (SLMs). Những hệ thống AI gọn nhẹ, tập trung hơn này đang nhanh chóng tạo ra một thị trường ngách đáng kể, hứa hẹn mang lại khả năng AI tinh vi cho các môi trường mà những người anh em lớn hơn của chúng đơn giản là không thể hoạt động hiệu quả hoặc kinh tế.
Sự quan tâm ngày càng tăng đối với SLMs không chỉ mang tính học thuật; nó đang chuyển thành động lực thị trường hữu hình. Các nhà phân tích ngành dự đoán một sự thăng tiến mạnh mẽ cho lĩnh vực SLM, dự kiến quy mô thị trường sẽ mở rộng từ khoảng 0,93 tỷ đô la vào năm 2025 lên mức đáng kinh ngạc 5,45 tỷ đô la vào năm 2032. Quỹ đạo này đại diện cho tốc độ tăng trưởng kép hàng năm (CAGR) mạnh mẽ khoảng 28,7% trong giai đoạn dự báo. Sự tăng trưởng bùng nổ như vậy không xảy ra trong chân không; nó được thúc đẩy bởi sự hội tụ của các lực lượng công nghệ và thị trường mạnh mẽ.
Đứng đầu trong số các động lực này là nhu cầu không ngừng đối với Edge AI và trí tuệ trên thiết bị. Các doanh nghiệp trên vô số lĩnh vực ngày càng tìm kiếm các giải pháp AI có thể thực hiện trực tiếp trên điện thoại thông minh, cảm biến, thiết bị công nghiệp và các hệ thống nhúng khác, mà không gặp phải độ trễ, chi phí hoặc lo ngại về quyền riêng tư liên quan đến kết nối đám mây liên tục. Chạy AI cục bộ cho phép khả năng phản hồi thời gian thực quan trọng đối với các ứng dụng từ hệ thống xe tự hành đến trợ lý di động tương tác và tự động hóa nhà máy thông minh. SLMs, với dấu chân tính toán nhỏ hơn đáng kể so với LLMs, là lựa chọn lý tưởng cho các môi trường hạn chế tài nguyên này.
Đồng thời, những bước tiến đáng kể trong kỹ thuật nén mô hình đã đóng vai trò như một chất xúc tác mạnh mẽ. Các đổi mới như lượng tử hóa (quantization - giảm độ chính xác của các số được sử dụng trong mô hình) và tỉa cành (pruning - loại bỏ các kết nối ít quan trọng hơn trong mạng nơ-ron) cho phép các nhà phát triển thu nhỏ kích thước mô hình và tăng đáng kể tốc độ xử lý. Quan trọng là, các kỹ thuật này đang phát triển để đạt được hiệu quả cao hơn trong khi giảm thiểu tác động đến hiệu suất và độ chính xác của mô hình. Lợi ích kép này—kích thước nhỏ hơn và khả năng được giữ lại—làm cho SLMs ngày càng trở thành lựa chọn thay thế khả thi cho LLMs trong một phạm vi ngày càng rộng các tác vụ.
Hơn nữa, các doanh nghiệp đang nhận ra giá trị thực dụng của việc tích hợp SLMs vào hoạt động cốt lõi của họ. Từ tự động hóa CNTT, nơi SLMs có thể phân tích nhật ký và dự đoán lỗi hệ thống, đến an ninh mạng, nơi chúng có thể phát hiện các bất thường trong lưu lượng mạng, và các ứng dụng kinh doanh đa dạng nhằm nâng cao năng suất và tinh chỉnh quy trình ra quyết định, tác động tiềm năng là rất lớn. SLMs cung cấp một con đường để triển khai AI rộng rãi hơn, đặc biệt là trong các tình huống nhạy cảm về chi phí, quyền riêng tư hoặc yêu cầu xử lý gần như tức thời. Sự hội tụ của nhu cầu điện toán biên, lợi ích hiệu quả thông qua nén và các trường hợp sử dụng doanh nghiệp rõ ràng định vị SLMs không chỉ là phiên bản nhỏ hơn của LLMs, mà còn là một loại AI riêng biệt và quan trọng, sẵn sàng tạo ra ảnh hưởng đáng kể.
Phân chia chiến lược: Kiểm soát hệ sinh thái vs. Chuyên môn hóa thị trường ngách
Khi bối cảnh SLM hình thành, các cách tiếp cận chiến lược khác biệt đang nổi lên giữa những người chơi chính tranh giành sự thống trị. Động lực cạnh tranh phần lớn đang tập hợp xung quanh hai triết lý chính, mỗi triết lý phản ánh các mô hình kinh doanh và tầm nhìn dài hạn khác nhau về cách giá trị AI sẽ được nắm bắt.
Một con đường nổi bật là chiến lược kiểm soát hệ sinh thái độc quyền. Cách tiếp cận này được ưa chuộng bởi một số gã khổng lồ công nghệ và các phòng thí nghiệm AI được tài trợ tốt nhằm xây dựng các khu vườn có tường bao quanh các dịch vụ SLM của họ. Các công ty như OpenAI, với các biến thể bắt nguồn từ dòng GPT (chẳng hạn như dòng GPT-4 mini được mong đợi), Google với các mô hình Gemma, Anthropic ủng hộ Claude Haiku của mình và Cohere quảng bá Command R+, là những ví dụ điển hình. Chiến lược của họ thường liên quan đến việc thương mại hóa SLMs như các thành phần không thể thiếu của các nền tảng rộng lớn hơn, thường được cung cấp thông qua Giao diện Lập trình Ứng dụng (APIs) dựa trên đăng ký, các dịch vụ đám mây tích hợp (như Azure AI hoặc Google Cloud AI), hoặc thông qua các thỏa thuận cấp phép doanh nghiệp.
Sức hấp dẫn của chiến lược này nằm ở tiềm năng tích hợp chặt chẽ, hiệu suất nhất quán, bảo mật nâng cao và triển khai đơn giản hóa trong các quy trình công việc doanh nghiệp đã được thiết lập. Bằng cách kiểm soát hệ sinh thái, các nhà cung cấp này có thể đưa ra đảm bảo về độ tin cậy và hỗ trợ, làm cho SLMs của họ trở nên hấp dẫn đối với các doanh nghiệp đang tìm kiếm tự động hóa dựa trên AI mạnh mẽ, các trợ lý ‘copilot’ tinh vi được nhúng trong các bộ phần mềm và các công cụ hỗ trợ quyết định đáng tin cậy. Mô hình này ưu tiên nắm bắt giá trị thông qua việc cung cấp dịch vụ và khóa chặt nền tảng, tận dụng cơ sở hạ tầng và phạm vi tiếp cận thị trường hiện có của nhà cung cấp. Nó phục vụ hiệu quả cho các tổ chức ưu tiên tích hợp liền mạch và các dịch vụ AI được quản lý.
Tương phản rõ rệt với cuộc chơi hệ sinh thái là chiến lược mô hình chuyên biệt theo lĩnh vực cụ thể. Cách tiếp cận này tập trung vào việc phát triển các SLMs được điều chỉnh và tinh chỉnh tỉ mỉ cho các yêu cầu, từ vựng và các ràng buộc quy định độc đáo của các ngành cụ thể. Thay vì nhắm đến khả năng ứng dụng rộng rãi, các mô hình này được mài giũa để đạt hiệu suất cao trong các ngành dọc như tài chính, chăm sóc sức khỏe, dịch vụ pháp lý hoặc thậm chí các lĩnh vực kỹ thuật chuyên biệt như phát triển phần mềm.
Những người tiên phong trong không gian này bao gồm các nền tảng như Hugging Face, nơi lưu trữ các mô hình như Zephyr 7B được tối ưu hóa rõ ràng cho các tác vụ mã hóa, và các công ty doanh nghiệp đã thành danh như IBM, với dòng mô hình Granite được thiết kế với nhu cầu AI doanh nghiệp, bao gồm quản trị dữ liệu và tuân thủ, làm cốt lõi. Lợi thế chiến lược ở đây nằm ở chiều sâu chứ không phải chiều rộng. Bằng cách huấn luyện các mô hình trên các bộ dữ liệu dành riêng cho ngành và tối ưu hóa chúng cho các tác vụ cụ thể (ví dụ: hiểu biệt ngữ tài chính, diễn giải ghi chú y tế, soạn thảo các điều khoản pháp lý), các SLMs này có thể đạt được độ chính xác và mức độ liên quan theo ngữ cảnh vượt trội trong các lĩnh vực được chỉ định của chúng. Chiến lược này gây được tiếng vang mạnh mẽ với các tổ chức trong các lĩnh vực được quản lý hoặc đòi hỏi nhiều kiến thức, nơi các mô hình chung chung có thể không đáp ứng được, cho phép họ triển khai các giải pháp AI có độ chính xác cao, nhận biết ngữ cảnh cho các trường hợp sử dụng chuyên biệt, quan trọng. Nó thúc đẩy việc áp dụng bằng cách giải quyết các điểm yếu cụ thể và các yêu cầu tuân thủ mà các mô hình dựa trên nền tảng rộng có thể bỏ qua.
Haichiến lược thống trị này không nhất thiết loại trừ lẫn nhau đối với toàn bộ thị trường, nhưng chúng đại diện cho những căng thẳng chính định hình sự cạnh tranh. Những người chơi hệ sinh thái đặt cược vào quy mô, tích hợp và sức mạnh nền tảng, trong khi các chuyên gia tập trung vào chiều sâu, độ chính xác và chuyên môn ngành. Sự phát triển của thị trường SLM có thể sẽ liên quan đến sự tương tác và cạnh tranh giữa các cách tiếp cận này, có khả năng dẫn đến các mô hình lai hoặc đa dạng hóa chiến lược hơn nữa khi công nghệ trưởng thành.
Các Titan tham chiến: Sách lược của những người đương nhiệm
Sự gián đoạn và cơ hội tiềm năng do các Mô hình Ngôn ngữ Nhỏ mang lại đã không bị bỏ qua bởi những gã khổng lồ công nghệ đã thành danh. Tận dụng nguồn lực khổng lồ, mối quan hệ khách hàng hiện có và cơ sở hạ tầng rộng lớn, những người đương nhiệm này đang điều động chiến lược để đảm bảo vị trí dẫn đầu trong lĩnh vực đang phát triển mạnh mẽ này.
Microsoft
Microsoft, một cường quốc lâu năm trong lĩnh vực phần mềm doanh nghiệp và điện toán đám mây, đang tích cực đưa SLMs vào cơ cấu công nghệ của mình. Áp dụng chiến lược kiểm soát hệ sinh thái độc quyền, gã khổng lồ Redmond đang tích hợp sâu các mô hình nhanh nhẹn hơn này vào nền tảng đám mây Azure và bộ giải pháp doanh nghiệp rộng lớn hơn của mình. Các sản phẩm như dòng Phi (bao gồm Phi-2) và dòng Orca đại diện cho các SLMs thương mại có sẵn được tối ưu hóa đặc biệt cho các tác vụ AI doanh nghiệp, cung cấp năng lượng cho các tính năng trong trợ lý Copilot của mình và cung cấp các công cụ mạnh mẽ cho các nhà phát triển xây dựng trên nền tảng Microsoft.
Năng lực cốt lõi củng cố động lực của Microsoft là bộ phận nghiên cứu AI đáng gờm cùng với cơ sở hạ tầng đám mây Azure trải rộng toàn cầu. Sự kết hợp này cho phép Microsoft không chỉ phát triển các mô hình tiên tiến mà còn cung cấp chúng dưới dạng các dịch vụ có thể mở rộng, an toàn và đáng tin cậy cho cơ sở khách hàng doanh nghiệp khổng lồ của mình. Quan hệ đối tác chiến lược trị giá hàng tỷ đô la của công ty với OpenAI là nền tảng của chiến lược AI, cấp cho họ quyền truy cập đặc quyền vào các mô hình của OpenAI (bao gồm cả các biến thể SLM tiềm năng) và cho phép tích hợp chặt chẽ chúng vào các sản phẩm của Microsoft như Office 365, Bing và các dịch vụ Azure AI khác nhau. Mối quan hệ cộng sinh này cung cấp cho Microsoft cả SLMs được phát triển nội bộ và quyền truy cập vào thương hiệu được công nhận nhất trong lĩnh vực AI tạo sinh.
Hơn nữa, các thương vụ mua lại chiến lược củng cố vị thế của Microsoft. Việc mua lại Nuance Communications, công ty hàng đầu về AI đàm thoại và công nghệ tài liệu chăm sóc sức khỏe, đã tăng cường đáng kể khả năng của họ trong các ứng dụng AI theo ngành dọc, đặc biệt là trong các kịch bản chăm sóc sức khỏe và tự động hóa doanh nghiệp, nơi sự hiểu biết ngôn ngữ chuyên biệt là tối quan trọng. Những động thái có tính toán này – kết hợp phát triển nội bộ, quan hệ đối tác chiến lược, mua lại và tích hợp sâu với các nền tảng đám mây và phần mềm thống trị của mình – định vị Microsoft như một thế lực đáng gờm nhằm biến hệ sinh thái của mình thành lựa chọn mặc định cho việc áp dụng SLM doanh nghiệp trên các ngành công nghiệp đa dạng.
IBM
International Business Machines (IBM), với lịch sử lâu đời bắt nguồn sâu sắc từ điện toán doanh nghiệp, đang tiếp cận thị trường SLM với sự tập trung đặc trưng vào các ứng dụng tập trung vào kinh doanh, sự tin cậy và quản trị. Big Blue đang tích cực phát triển và tối ưu hóa SLMs trong nền tảng watsonx.ai của mình, định hình chúng như các giải pháp AI hiệu quả về chi phí, hiệu quả và nhận biết lĩnh vực được thiết kế riêng cho nhu cầu của tổ chức.
Chiến lược của IBM cố tình tương phản với các cách tiếp cận ưu tiên các mô hình hướng tới người tiêu dùng hoặc mục đích chung. Thay vào đó, trọng tâm hoàn toàn đặt vào các thuộc tính quan trọng cho việc triển khai doanh nghiệp: độ tin cậy, quản trị dữ liệu và tuân thủ các nguyên tắc đạo đức AI. Điều này làm cho các dịch vụ SLM của IBM, chẳng hạn như mô hình Granite, đặc biệt phù hợp để triển khai trong các môi trường an toàn và các ngành chịu sự tuân thủ quy định nghiêm ngặt. IBM hiểu rằng đối với nhiều tổ chức lớn, đặc biệt là trong lĩnh vực tài chính và chăm sóc sức khỏe, khả năng kiểm toán, kiểm soát và đảm bảo việc sử dụng AI có trách nhiệm là không thể thương lượng.
Bằng cách kết hợp các SLMs tập trung vào quản trị này vào các giải pháp đám mây lai và dịch vụ tư vấn của mình, IBM nhằm mục đích trao quyền cho các doanh nghiệp để tăng cường tự động hóa, cải thiện việc ra quyết định dựa trên dữ liệu và hợp lý hóa hiệu quả hoạt động mà không ảnh hưởng đến bảo mật hoặc các tiêu chuẩn đạo đức. Mối quan hệ doanh nghiệp sâu sắc và danh tiếng về độ tin cậy của họ đóng vai trò là tài sản chính trong việc quảng bá SLMs như những công cụ thực tế, đáng tin cậy cho chuyển đổi số trong các cấu trúc tổ chức phức tạp. IBM đang đặt cược rằng đối với nhiều doanh nghiệp, “cách thức” triển khai AI – một cách an toàn và có trách nhiệm – cũng quan trọng như “cái gì”.
Mặc dù có lẽ được biết đến nhiều hơn với các mô hình quy mô lớn như Gemini, Google cũng là một người chơi quan trọng trong lĩnh vực SLM, chủ yếu tận dụng hệ sinh thái và khả năng nghiên cứu rộng lớn của mình. Thông qua các mô hình như Gemma (ví dụ: Gemma 7B), Google cung cấp các mô hình mở tương đối nhẹ nhưng có khả năng, nhằm mục đích thúc đẩy việc áp dụng và tích hợp của nhà phát triển trong hệ sinh thái của riêng mình, đặc biệt là Google Cloud Platform (GCP).
Chiến lược của Google dường như pha trộn các yếu tố của cả kiểm soát hệ sinh thái và nuôi dưỡng một cộng đồng rộng lớn hơn. Bằng cách phát hành các mô hình như Gemma, nó khuyến khích thử nghiệm và cho phép các nhà phát triển xây dựng các ứng dụng tận dụng cơ sở hạ tầng cơ bản của Google (như TPUs để đào tạo và suy luận hiệu quả). Cách tiếp cận này giúp thúc đẩy việc sử dụng các dịch vụ GCP AI và định vị Google là nhà cung cấp cả mô hình nền tảng và công cụ để triển khai chúng một cách hiệu quả. Chuyên môn sâu của họ về tìm kiếm, di động (Android) và cơ sở hạ tầng đám mây cung cấp nhiều con đường để tích hợp SLMs nhằm nâng cao các sản phẩm hiện có hoặc tạo ra trải nghiệm mới trên thiết bị. Sự tham gia của Google đảm bảo rằng thị trường SLM vẫn cạnh tranh gay gắt, đẩy lùi các giới hạn về hiệu quả và khả năng tiếp cận.
AWS
Amazon Web Services (AWS), người chơi thống trị trong cơ sở hạ tầng đám mây, tự nhiên đang tích hợp SLMs vào danh mục AI và học máy toàn diện của mình. Thông qua các dịch vụ như Amazon Bedrock, AWS cung cấp cho các doanh nghiệp quyền truy cập vào một lựa chọn các mô hình nền tảng được tuyển chọn, bao gồm cả SLMs từ các nhà cung cấp khác nhau (có khả năng bao gồm cả mô hình của riêng mình, như các mô hình Nova khái niệm được đề cập trong một số ngữ cảnh, mặc dù chi tiết cụ thể có thể khác nhau).
Chiến lược của AWS phần lớn tập trung vào việc cung cấp sự lựa chọn và linh hoạt trong môi trường đám mây mạnh mẽ của mình. Bằng cách cung cấp SLMs qua Bedrock, AWS cho phép khách hàng của mình dễ dàng thử nghiệm, tùy chỉnh và triển khai các mô hình này bằng các công cụ và cơ sở hạ tầng AWS quen thuộc. Cách tiếp cận tập trung vào nền tảng này tập trung vào việc làm cho SLMs có thể truy cập dưới dạng các dịch vụ được quản lý, giảm gánh nặng vận hành cho các doanh nghiệp muốn tận dụng AI mà không cần quản lý phần cứng cơ bản hoặc các quy trình triển khai mô hình phức tạp. AWS đặt mục tiêu trở thành nền tảng cơ bản nơi các doanh nghiệp có thể xây dựng và chạy các ứng dụng AI của họ, bất kể họ chọn mô hình lớn hay nhỏ, tận dụng quy mô, bảo mật và các dịch vụ mở rộng của mình để duy trì vị trí dẫn đầu về đám mây trong kỷ nguyên AI.
Những Kẻ Phá Vỡ và Chuyên Gia: Rèn Luyện Con Đường Mới
Ngoài những gã khổng lồ công nghệ đã thành danh, một nhóm sôi động gồm những người mới tham gia và các công ty chuyên biệt đang ảnh hưởng đáng kể đến hướng đi và sự năng động của thị trường Mô hình Ngôn ngữ Nhỏ. Các công ty này thường mang đến những góc nhìn mới mẻ, tập trung vào các nguyên tắc nguồn mở, các thị trường ngách cụ thể trong ngành hoặc các phương pháp công nghệ độc đáo.
OpenAI
OpenAI, được cho là chất xúc tác cho sự bùng nổ gần đây về sự quan tâm đến AI tạo sinh, giữ một vị thế chỉ huy trong không gian SLM, xây dựng dựa trên nghiên cứu tiên phong và các chiến lược triển khai thành công. Mặc dù nổi tiếng với các mô hình lớn, OpenAI đang tích cực phát triển và triển khai các biến thể nhỏ hơn, hiệu quả hơn, chẳng hạn như dòng GPT-4o mini, dòng o1-mini và dòng o3-mini được mong đợi. Điều này phản ánh sự hiểu biết chiến lược rằng các trường hợp sử dụng khác nhau đòi hỏi kích thước mô hình và đặc điểm hiệu suất khác nhau.
Là người tiên phong trong xử lý ngôn ngữ tự nhiên, lợi thế cạnh tranh của OpenAI bắt nguồn từ chuyên môn nghiên cứu sâu sắc và khả năng đã được chứng minh trong việc chuyển đổi nghiên cứu thành các sản phẩm thương mại khả thi. Sự tập trung của họ vượt ra ngoài khả năng thô để bao gồm các khía cạnh quan trọng như hiệu quả, an toàn và triển khai đạo đức của AI, những điều đặc biệt phù hợp khi các mô hình trở nên phổ biến hơn. Mô hình phân phối dựa trên API của công ty đã đóng vai trò quan trọng trong việc dân chủ hóa quyền truy cập vào AI mạnh mẽ, cho phép các nhà phát triển và doanh nghiệp trên toàn thế giới tích hợp công nghệ của mình. Quan hệ đối tác chiến lược với Microsoft cung cấp nguồn vốn đáng kể và phạm vi tiếp cận thị trường vô song, nhúng công nghệ của OpenAI vào một hệ sinh thái doanh nghiệp rộng lớn.
OpenAI tiếp tục đẩy mạnh giới hạn bằng cách tích cực khám phá các kỹ thuật nén mô hình tiên tiến và điều tra các kiến trúc lai có thể kết hợp sức mạnh của các kích thước mô hình khác nhau để nâng cao hiệu suất trong khi giảm thiểu nhu cầu tính toán. Khả năng lãnh đạo của họ trong việc phát triển các kỹ thuật tinh chỉnh và tùy chỉnh mô hình cho phép các tổ chức điều chỉnh các mô hình cơ sở mạnh mẽ của OpenAI cho các nhu cầu ngành cụ thể và bộ dữ liệu độc quyền, củng cố hơn nữa vị thế thị trường của mình như một nhà đổi mới và một yếu tố hỗ trợ quan trọng của AI ứng dụng.
Anthropic
Anthropic đã tạo dựng được một bản sắc riêng biệt trong bối cảnh AI bằng cách đặt an toàn, độ tin cậy và các cân nhắc đạo đức lên hàng đầu trong triết lý phát triển của mình. Sự tập trung này được phản ánh rõ ràng trong cách tiếp cận của họ đối với SLMs, được minh chứng bằng các mô hình như Claude Haiku. Được thiết kế rõ ràng cho hiệu suất an toàn và đáng tin cậy trong bối cảnh doanh nghiệp, Haiku nhằm mục đích cung cấp các khả năng AI hữu ích trong khi giảm thiểu rủi ro tạo ra nội dung có hại, thiên vị hoặc không trung thực.
Định vị mình là nhà cung cấp AI đáng tin cậy, Anthropic đặc biệt thu hút các tổ chức hoạt động trong các lĩnh vực nhạy cảm hoặc những tổ chức ưu tiên áp dụng AI có trách nhiệm. Sự nhấn mạnh của họ vào AI hiến pháp (constitutional AI) và thử nghiệm an toàn nghiêm ngặt đã tạo sự khác biệt so với các đối thủ cạnh tranh có thể ưu tiên hiệu suất thô hơn tất cả. Bằng cách cung cấp các SLMs không chỉ có khả năng mà còn được thiết kế với các rào chắn chống lạm dụng, Anthropic đáp ứng nhu cầu ngày càng tăng về các giải pháp AI phù hợp với các giá trị doanh nghiệp và kỳ vọng quy định, khiến họ trở thành đối thủ cạnh tranh chính, đặc biệt đối với các doanh nghiệp đang tìm kiếm các đối tác AI đáng tin cậy và có nền tảng đạo đức.
Mistral AI
Nổi lên nhanh chóng từ bối cảnh công nghệ châu Âu, Mistral AI, một công ty Pháp được thành lập vào năm 2023, đã tạo ra những làn sóng đáng kể trong lĩnh vực SLM. Chiến lược cốt lõi của họ xoay quanh việc tạo ra các mô hình AI nhỏ gọn, hiệu quả cao được thiết kế rõ ràng cho hiệu suất và khả năng triển khai, ngay cả trên các thiết bị cục bộ hoặc trong môi trường điện toán biên. Các mô hình như Mistral 7B (ban đầu được phát hành) đã thu hút sự chú ý rộng rãi vì mang lại hiệu suất đáng kể so với kích thước khiêm tốn của chúng (7 tỷ tham số), khiến chúng rất phù hợp cho các tình huống hạn chế tài nguyên tính toán.
Một yếu tố khác biệt quan trọng của Mistral AI là cam kết mạnh mẽ đối với phát triển nguồn mở. Bằng cách phát hành nhiều mô hình và công cụ của mình theo giấy phép cho phép, Mistral AI thúc đẩy sự hợp tác, minh bạch và đổi mới nhanh chóng trong cộng đồng AI rộng lớn hơn. Cách tiếp cận này tương phản với các hệ sinh thái độc quyền của một số người chơi lớn hơn và đã nhanh chóng xây dựng được một lượng người theo dõi trung thành trong giới phát triển và nghiên cứu. Ngoài các mô hình nền tảng của mình, công ty đã thể hiện sự linh hoạt bằng cách sản xuất các biến thể như Mistral Saba, được thiết kế riêng cho các ngôn ngữ Trung Đông và Nam Á, và khám phá các khả năng đa phương thức với các khái niệm như Pixtral (nhằm mục đích hiểu hình ảnh), thể hiện tham vọng giải quyết các nhu cầu ngôn ngữ và chức năng đa dạng. Sự trỗi dậy nhanh chóng của Mistral AI nhấn mạnh nhu cầu đáng kể về các lựa chọn thay thế hiệu suất cao, hiệu quả và thường là nguồn mở trên thị trường AI.
Infosys
Infosys, một công ty kỳ cựu toàn cầu trong lĩnh vực dịch vụ và tư vấn CNTT, đang tận dụng chuyên môn sâu trong ngành và mối quan hệ khách hàng để tạo ra một thị trường ngách trong thị trường SLM, tập trung vào các giải pháp dành riêng cho ngành. Việc ra mắt Infosys Topaz BankingSLM và Infosys Topaz ITOpsSLM là minh chứng cho chiến lược này. Các mô hình này được xây dựng có mục đích để giải quyết những thách thức và quy trình công việc độc đáo trong lĩnh vực ngân hàng và vận hành CNTT tương ứng.
Một yếu tố hỗ trợ quan trọng cho Infosys là quan hệ đối tác chiến lược với NVIDIA, sử dụng nền tảng AI của NVIDIA làm nền tảng cho các SLMs chuyên biệt này. Các mô hình được thiết kế để tích hợp liền mạch với các hệ thống doanh nghiệp hiện có, bao gồm cả nền tảng ngân hàng Finacle được sử dụng rộng rãi của chính Infosys. Được phát triển trong một trung tâm xuất sắc chuyên dụng tập trung vào các công nghệ NVIDIA, và được củng cố hơn nữa thông qua sự hợp tác với các đối tác như Sarvam AI, các SLMs này được hưởng lợi từ việc đào tạo trên cả dữ liệu mục đích chung và dữ liệu dành riêng cho ngành. Quan trọng là, Infosys không chỉ cung cấp các mô hình; họ còn cungcấp dịch vụ tiền huấn luyện và tinh chỉnh, cho phép các doanh nghiệp tạo ra các mô hình AI tùy chỉnh phù hợp với dữ liệu độc quyền và nhu cầu hoạt động cụ thể của họ, đồng thời đảm bảo an ninh và tuân thủ các tiêu chuẩn ngành liên quan. Cách tiếp cận định hướng dịch vụ này định vị Infosys như một nhà tích hợp và tùy biến công nghệ SLM cho các doanh nghiệp lớn.
Các Người Chơi Đáng Chú Ý Khác
Lĩnh vực SLM rộng hơn chỉ những công ty được nêu bật này. Các nhà đóng góp quan trọng khác đang thúc đẩy sự đổi mới và định hình các phân khúc thị trường cụ thể:
- Cohere: Tập trung vào AI doanh nghiệp, cung cấp các mô hình như Command R+ được thiết kế cho các trường hợp sử dụng kinh doanh và thường nhấn mạnh quyền riêng tư dữ liệu và tính linh hoạt triển khai (ví dụ: trên các đám mây khác nhau hoặc tại chỗ).
- Hugging Face: Mặc dù chủ yếu được biết đến như một nền tảng và trung tâm cộng đồng, Hugging Face cũng đóng góp vào việc phát triển mô hình (như Zephyr 7B cho mã hóa) và đóng vai trò quan trọng trong việc dân chủ hóa quyền truy cập vào hàng nghìn mô hình, bao gồm nhiều SLMs, tạo điều kiện cho nghiên cứu và phát triển ứng dụng.
- Stability AI: Ban đầu nổi tiếng với công việc tạo hình ảnh (Stable Diffusion), Stability AI đang mở rộng danh mục đầu tư của mình sang các mô hình ngôn ngữ, khám phá các SLMs nhỏ gọn và hiệu quả phù hợp để triển khai trên thiết bị và các ứng dụng doanh nghiệp khác nhau, tận dụng chuyên môn của mình về AI tạo sinh.
Các công ty này, cùng với những người chơi lớn hơn, đóng góp vào một hệ sinh thái năng động và phát triển nhanh chóng. Các chiến lược đa dạng của họ—bao gồm nguồn mở, nền tảng độc quyền, chuyên môn hóa ngành và nghiên cứu nền tảng—đang cùng nhau thúc đẩy những tiến bộ về hiệu quả, khả năng tiếp cận và năng lực của SLM, đảm bảo rằng những mô hình nhỏ hơn này đóng vai trò ngày càng trung tâm trong tương lai của trí tuệ nhân tạo trên vô số ứng dụng và ngành công nghiệp.