Die Illusion des Fine-Tunings
Obwohl jedes Jahr unzählige Ressourcen in das Training großer Sprachmodelle (LLMs) fließen, bleibt eine erhebliche Hürde bestehen: die effektive Integration dieser Modelle in praktische, nützliche Anwendungen.
Fine-Tuning und Retrieval Augmented Generation (RAG) gelten im Allgemeinen als etablierte Methoden zur Verbesserung des Wissens und der Fähigkeiten vortrainierter KI-Modelle. Aleph Alpha CEO Jonas Andrulis weist jedoch darauf hin, dass die Realität komplexer ist.
“Vor einem Jahr herrschte die weitverbreitete Überzeugung, dass Fine-Tuning eine magische Lösung sei. Wenn ein KI-System nicht wie gewünscht funktionierte, war die Antwort einfach Fine-Tuning. So einfach ist es nicht”, erklärte er.
Während Fine-Tuning den Stil oder das Verhalten eines Modells verändern kann, ist es nicht der effektivste Ansatz, um neue Informationen zu vermitteln. Die Erwartung, dass Fine-Tuning allein alle Probleme bei KI-Anwendungen lösen kann, ist ein Irrtum.
RAG: Ein alternativer Ansatz
RAG bietet eine Alternative, indem es wie ein Bibliothekar funktioniert, der Informationen aus einem externen Archiv abruft. Dieser Ansatz ermöglicht Aktualisierungen und Änderungen der Informationen in der Datenbank, ohne das Modell neu trainieren oder feinabstimmen zu müssen. Darüber hinaus können die generierten Ergebnisse zitiert und auf ihre Richtigkeit geprüft werden.
“Spezifisches Wissen sollte immer dokumentiert und nicht in den Parametern des LLM gespeichert werden”, betonte Andrulis.
Obwohl RAG zahlreiche Vorteile bietet, hängt sein Erfolg von der ordnungsgemäßen Dokumentation wichtiger Prozesse, Verfahren und institutionellen Wissens in einem Format ab, das das Modell verstehen kann. Leider ist dies oft nicht der Fall.
Selbst wenn eine Dokumentation vorhanden ist, können Unternehmen auf Probleme stoßen, wenn die Dokumente oder Prozesse auf Out-of-Distribution-Daten basieren – Daten, die sich erheblich von den Daten unterscheiden, die zum Trainieren des Basismodells verwendet wurden. Beispielsweise wird ein Modell, das ausschließlich mit englischen Datensätzen trainiert wurde, Schwierigkeiten mit der deutschen Dokumentation haben, insbesondere wenn diese wissenschaftliche Formeln enthält. In vielen Fällen ist das Modell möglicherweise überhaupt nicht in der Lage, die Daten zu interpretieren.
Daher schlägt Andrulis vor, dass in der Regel eine Kombination aus Fine-Tuning und RAG erforderlich ist, um sinnvolle Ergebnisse zu erzielen. Dieser hybride Ansatz nutzt die Stärken beider Methoden, um ihre individuellen Einschränkungen zu überwinden.
Die Kluft überbrücken
Aleph Alpha will sich als europäisches DeepMind profilieren, indem es die Herausforderungen angeht, die Unternehmen und Nationen daran hindern, ihre eigenen souveränen KIs zu entwickeln.
Souveräne KI bezieht sich auf Modelle, die mit den internen Datensätzen einer Nation auf Hardware trainiert oder feinabgestimmt werden, die innerhalb ihrer Grenzen gebaut oder eingesetzt wird. Dieser Ansatz gewährleistet Datenschutz, Sicherheit und Kontrolle, die für viele Organisationen und Regierungen von entscheidender Bedeutung sind.
“Wir streben danach, das Betriebssystem zu sein, die Grundlage für Unternehmen und Regierungen, um ihre eigene souveräne KI-Strategie aufzubauen”, erklärte Andrulis. “Wir wollen dort innovativ sein, wo es notwendig ist, und gleichzeitig Open-Source- und State-of-the-Art-Technologien nutzen, wo immer dies möglich ist.”
Obwohl dies gelegentlich das Trainieren von Modellen beinhaltet, wie z. B. Alephs Pharia-1-LLM, betont Andrulis, dass sie nicht versuchen, bestehende Modelle wie Llama oder DeepSeek zu replizieren. Ihr Fokus liegt auf der Entwicklung einzigartiger Lösungen, die spezifische Herausforderungen angehen.
“Ich weise unsere Forschung immer an, sich auf sinnvolle, andere Dinge zu konzentrieren, nicht nur darauf, das zu kopieren, was alle anderen tun, denn das gibt es bereits”, sagte Andrulis. “Wir müssen kein weiteres Llama oder DeepSeek bauen, weil es sie bereits gibt.”
Stattdessen konzentriert sich Aleph Alpha auf den Aufbau von Frameworks, die die Einführung dieser Technologien vereinfachen und rationalisieren. Ein aktuelles Beispiel ist ihre neue Tokenizer-freie oder “T-Free”-Trainingsarchitektur, die darauf abzielt, Modelle feinabzustimmen, die Out-of-Distribution-Daten effizienter verstehen können.
Herkömmliche Tokenizer-basierte Ansätze erfordern oft große Mengen an Out-of-Distribution-Daten, um ein Modell effektiv feinabzustimmen. Dies ist rechenintensiv und setzt voraus, dass ausreichend Daten verfügbar sind.
Die T-Free-Architektur von Aleph Alpha umgeht dieses Problem, indem sie den Tokenizer eliminiert. Frühe Tests mit ihrem Pharia LLM in finnischer Sprache zeigten eine Reduzierung der Trainingskosten und des CO2-Fußabdrucks um 70 Prozent im Vergleich zu Tokenizer-basierten Ansätzen. Dieser innovative Ansatz macht Fine-Tuning zugänglicher und nachhaltiger.
Aleph Alpha hat auch Tools entwickelt, um Lücken im dokumentierten Wissen zu schließen, die zu ungenauen oder wenig hilfreichen Schlussfolgerungen führen können.
Wenn sich beispielsweise zwei für eine Compliance-Frage relevante Verträge widersprechen, “kann sich das System an den Menschen wenden und sagen: ‘Ich habe eine Diskrepanz festgestellt… können Sie bitte Feedback geben, ob dies ein tatsächlicher Konflikt ist?’”, erklärte Andrulis.
Die über dieses Framework, Pharia Catch genannt, gesammelten Informationen können in die Wissensbasis der Anwendung zurückgespeist oder zur Feinabstimmung effektiverer Modelle verwendet werden. Diese Feedbackschleife verbessert die Genauigkeit und Zuverlässigkeit des KI-Systems im Laufe der Zeit.
Laut Andrulis haben diese Tools Partner wie PwC, Deloitte, Capgemini und Supra angezogen, die mit Endkunden zusammenarbeiten, um die Technologie von Aleph Alpha zu implementieren. Diese Partnerschaften demonstrieren den Wert und die Praktikabilität der Lösungen von Aleph Alpha in realen Anwendungen.
Der Hardware-Faktor
Software und Daten sind nicht die einzigen Herausforderungen für Anwender von Sovereign AI. Hardware ist ein weiterer wichtiger Aspekt.
Verschiedene Unternehmen und Nationen haben möglicherweise spezifische Anforderungen, um auf im Inland entwickelter Hardware zu laufen, oder schreiben einfach vor, wo Workloads ausgeführt werden können. Diese Einschränkungen können die Wahl der Hardware und Infrastruktur erheblich beeinflussen.
Dies bedeutet, dass Andrulis und sein Team eine breite Palette von Hardwareoptionen unterstützen müssen. Aleph Alpha hat eine vielseitige Gruppe von Hardwarepartnern angezogen, darunter AMD, Graphcore und Cerebras.
Letzten Monat kündigte Aleph Alpha eine Partnerschaft mit AMD an, um dessen Beschleuniger der MI300-Serie zu nutzen. Diese Zusammenarbeit wird die fortschrittliche Hardware von AMD nutzen, um KI-Training und -Inferenz zu beschleunigen.
Andrulis hob auch die Zusammenarbeit mit Graphcore hervor, das von Softbank übernommen wurde, und Cerebras, dessen CS-3 Wafer-Scale-Beschleuniger zum Trainieren von KI-Modellen für die Bundeswehr eingesetzt werden. Diese Partnerschaften demonstrieren das Engagement von Aleph Alpha, mit verschiedenen Hardwareanbietern zusammenzuarbeiten, um die spezifischen Bedürfnisse seiner Kunden zu erfüllen.
Trotz dieser Kooperationen besteht Andrulis darauf, dass es nicht das Ziel von Aleph Alpha ist, ein Managed Service oder Cloud Provider zu werden. “Wir werden niemals ein Cloud Provider werden”, erklärte er. “Ich möchte, dass meine Kunden frei sind und nicht eingeschränkt werden.” Dieses Engagement für Kundenfreiheit und Flexibilität unterscheidet Aleph Alpha von vielen anderen KI-Unternehmen.
Der Weg nach vorn: Zunehmende Komplexität
Mit Blick auf die Zukunft geht Andrulis davon aus, dass der Aufbau von KI-Anwendungen komplexer wird, da sich die Branche von Chatbots zu agentischen KI-Systemen verlagert, die in der Lage sind, anspruchsvollere Probleme zu lösen.
Agentische KI hat im vergangenen Jahr große Aufmerksamkeit erregt, wobei Modellbauer, Softwareentwickler und Hardwareanbieter Systeme versprechen, die mehrstufige Prozesse asynchron abschließen können. Frühe Beispiele sind OpenAIs Operator und Anthropic’s Computer Use API. Diese agentischen KI-Systeme stellen einen bedeutenden Fortschritt in den KI-Fähigkeiten dar.
“Letztes Jahr haben wir uns hauptsächlich auf einfache Aufgaben wie Dokumentenzusammenfassung oder Schreibhilfe konzentriert”, sagte er. “Jetzt wird es spannender mit Dingen, die auf den ersten Blick nicht einmal wie GenAI-Probleme erscheinen, bei denen die User Experience kein Chatbot ist.” Diese Verlagerung hin zu komplexeren und integrierten KI-Anwendungen stellt die Branche vor neue Herausforderungen und Chancen.
Wichtige Herausforderungen beim Aufbau von KI-Anwendungen im Unternehmen:
- Überbrückung der Kluft zwischen Modelltraining und Anwendungsintegration: Die effektive Umsetzung der Fähigkeiten von LLMs in praktische Anwendungen bleibt eine erhebliche Hürde.
- Überwindung der Einschränkungen des Fine-Tunings: Fine-Tuning allein reicht oft nicht aus, um KI-Modellen neue Informationen zu vermitteln oder sie an spezifische Aufgaben anzupassen.
- Sicherstellung der Qualität und Zugänglichkeit von Daten: RAG basiert auf gut dokumentierten und leicht zugänglichen Daten, die in vielen Organisationen oft fehlen.
- Umgang mit Out-of-Distribution-Daten: KI-Modelle müssen in der Lage sein, Daten zu verarbeiten, die sich von den Daten unterscheiden, mit denen sie trainiert wurden, was spezielle Techniken erfordert.
- Berücksichtigung von Hardware-Einschränkungen: Verschiedene Unternehmen und Nationen haben unterschiedliche Hardware-Anforderungen, die berücksichtigt werden müssen.
- Wahrung des Datenschutzes und der Sicherheit: Souveräne KI erfordert die Gewährleistung, dass Daten sicher innerhalb der Grenzen einer Nation verarbeitet und gespeichert werden.
- Entwicklung agentischer KI-Systeme: Der Aufbau von KI-Anwendungen, die komplexe, mehrstufige Prozesse asynchron ausführen können, ist ein herausfordernder, aber vielversprechender Forschungsbereich.
Wichtige Chancen beim Aufbau von KI-Anwendungen im Unternehmen:
- Entwicklung innovativer KI-Lösungen: Die Herausforderungen beim Aufbau von KI-Anwendungen im Unternehmen schaffen Möglichkeiten zur Entwicklung innovativer Lösungen, die spezifische Bedürfnisse erfüllen.
- Nutzung von Open-Source-Technologien: Open-Source-Technologien können dazu beitragen, Kosten zu senken und die Entwicklung von KI-Anwendungen zu beschleunigen.
- Zusammenarbeit mit Hardwarepartnern: Die Zusammenarbeit mit Hardwarepartnern kann dazu beitragen, dass KI-Anwendungen für bestimmte Hardwareplattformen optimiert werden.
- Aufbau souveräner KI-Fähigkeiten: Souveräne KI kann Nationen und Organisationen eine größere Kontrolle über ihre Daten und KI-Infrastruktur ermöglichen.
- Transformation von Branchen mit KI: KI hat das Potenzial, Branchen zu transformieren, indem sie Aufgaben automatisiert, die Entscheidungsfindung verbessert und neue Produkte und Dienstleistungen schafft.
Die Zukunft von KI-Anwendungen im Unternehmen:
Die Zukunft von KI-Anwendungen im Unternehmen wird wahrscheinlich durch Folgendes gekennzeichnet sein:
- Zunehmende Komplexität: KI-Anwendungen werden komplexer und integrierter, was spezialisiertes Fachwissen und Tools erfordert.
- Stärkerer Fokus auf Datenqualität: Die Datenqualität wird immer wichtiger, da KI-Anwendungen auf genaue und zuverlässige Daten angewiesen sind.
- Mehr Betonung auf Sicherheit und Datenschutz: Sicherheit und Datenschutz werden von größter Bedeutung sein, da KI-Anwendungen sensible Daten verarbeiten.
- Breitere Akzeptanz von agentischer KI: Agentische KI-Systeme werden sich immer mehr durchsetzen, da Unternehmen versuchen, komplexe Aufgaben zu automatisieren.
- Kontinuierliche Innovation: Der Bereich der KI wird sich weiterhin rasant weiterentwickeln, was zu neuen Durchbrüchen und Chancen führt.
Indem sie die Herausforderungen angehen und die Chancen nutzen, können Unternehmen die Leistungsfähigkeit der KI nutzen, um ihre Geschäfte zu transformieren und eine bessere Zukunft zu schaffen.