Der Sirenengesang der künstlichen Intelligenz wird lauter und verspricht Effizienz und Transformation in allen Branchen. Eine besonders verlockende Aussicht ist der Betrieb leistungsstarker KI-Modelle direkt auf PCs, wodurch Cloud-Abhängigkeit, Abonnementgebühren und Datenschutzbedenken umgangen werden. Giganten wie Google, Meta und Mistral AI haben hochentwickelte Large Language Models (LLMs) kostenlos zum Download bereitgestellt. Aber führt diese Zugänglichkeit auch zu praktischem Nutzen? Können diese digitalen Gehirne, beschränkt auf das Silizium eines Desktops oder Laptops, komplexe Arbeitsabläufe wie das journalistische Schreiben wirklich erweitern? Dieser Bericht beschreibt ein umfangreiches Experiment, das genau diese Frage beantworten soll.
Die Bühne bereiten: Das lokale KI-Experiment
Über mehrere Monate hinweg wurde eine engagierte Anstrengung unternommen, um die reale Leistung verschiedener frei herunterladbarer LLMs zu bewerten, die vollständig auf lokaler Hardware betrieben werden. Die Liste der untersuchten Modelle war vielfältig und spiegelte die sich schnell entwickelnde Landschaft der Open-Source-KI wider:
- Google Gemma (insbesondere Version 3)
- Meta Llama (Version 3.3)
- Anthropic Claude (Version 3.7 Sonnet – obwohl typischerweise Cloud-basiert, deutet seine Einbeziehung auf breite Tests hin)
- Mehrere Iterationen von Mistral AI (einschließlich Mistral, Mistral Small 3.1, Mistral Nemo und Mixtral)
- IBM Granite (Version 3.2)
- Alibaba Qwen (Version 2.5)
- DeepSeek R1 (eine Reasoning-Schicht, die oft über destillierte Versionen von Qwen oder Llama angewendet wird)
Das Kernziel war ehrgeizig und doch praktisch: festzustellen, ob diese lokal betriebenen KIs rohe Interview-Transkripte in ausgefeilte, veröffentlichungsreife Artikel umwandeln können. Dies umfasste die Bewertung nicht nur der technischen Machbarkeit – konnte die Hardware die Last bewältigen? – sondern auch der qualitativen Ausgabe – war der resultierende Text brauchbar? Es ist wichtig, von vornherein festzuhalten, dass sich die Erstellung eines vollständig automatisierten, veröffentlichungsreifen Artikels als schwer fassbar erwies. Das Hauptziel verlagerte sich darauf, die tatsächlichen Fähigkeiten und Grenzen der aktuellen On-Device-KI durch diesen spezifischen, anspruchsvollen Anwendungsfall zu verstehen.
Die gewählte Methodik konzentrierte sich auf einen umfangreichen Prompt. Dieser umfasste etwa 1.500 Tokens (ungefähr 6.000 Zeichen oder zwei volle Textseiten), die die gewünschte Artikelstruktur, den Stil und den Ton akribisch darlegten. Zu diesem Anweisungssatz kam das Interview-Transkript selbst hinzu, das für ein typisches 45-minütiges Gespräch durchschnittlich etwa 11.000 Tokens umfasste. Die schiere Größe dieser kombinierten Eingabe (oft über 12.500 Tokens) übersteigt typischerweise die kostenlosen Nutzungsgrenzen vieler Online-KI-Plattformen. Diese Einschränkung unterstrich die Begründung für die Erforschung der lokalen Bereitstellung, bei der die Verarbeitung unabhängig von der Eingabegröße kostenlos bleibt und nur durch die Fähigkeiten des Rechners begrenzt ist.
Die Durchführung dieser Tests erfolgte mit LM Studio, einer beliebten Community-Software, die eine benutzerfreundliche, Chatbot-ähnliche Oberfläche für die Interaktion mit lokal laufenden LLMs bietet. LM Studio integriert bequem Funktionen zum Herunterladen verschiedener Modellversionen, obwohl die Hauptquelle für diese frei verfügbaren Modelle das Hugging Face-Repository bleibt, ein zentraler Knotenpunkt für die KI-Community.
Navigation durch das technische Labyrinth: Hardware, Speicher und Modellgröße
Der Ausflug in die lokale KI-Verarbeitung offenbarte schnell ein komplexes Zusammenspiel von Software und Hardware. Die Qualität und Geschwindigkeit der KI-Ausgabe waren eng mit den auf dem Testrechner verfügbaren Ressourcen verbunden – einem Mac, ausgestattet mit einem Apple Silicon M1 Max System-on-Chip (SoC) und großzügigen 64 GB RAM. Entscheidend ist, dass diese Architektur über eine Unified Memory Architecture (UMA) verfügt, die es ermöglicht, 48 GB RAM dynamisch zwischen den Prozessorkernen (CPU), den Grafikkernen (GPU – verwendet für Vektorbeschleunigung) und den Kernen der Neural Processing Unit (NPU – verwendet für Matrixbeschleunigung) zu teilen.
Mehrere wichtige technische Faktoren erwiesen sich als entscheidend:
- Modellparameter: LLMs werden oft anhand ihrer Anzahl von Parametern (typischerweise Milliarden) gemessen. Größere Modelle verfügen im Allgemeinen über mehr Wissen und Nuancen. Sie erfordern jedoch erheblich mehr Speicher.
- Quantisierung: Dies bezieht sich auf die Präzision, mit der die Parameter des Modells gespeichert werden (z. B. 8-Bit, 4-Bit, 3-Bit). Eine geringere Bit-Präzision reduziert den Speicherbedarf drastisch und erhöht die Verarbeitungsgeschwindigkeit, oft jedoch auf Kosten der Genauigkeit und Ausgabequalität (Einführung von Fehlern, Wiederholungen oder unsinniger Sprache).
- Kontextfenster: Dies definiert die maximale Informationsmenge (Prompt + Eingabedaten), die die KI auf einmal berücksichtigen kann, gemessen in Tokens. Die erforderliche Fenstergröße wird durch die Aufgabe bestimmt; in diesem Fall erforderte der große Prompt und das Transkript ein erhebliches Fenster.
- Verfügbarer RAM: Die Speichermenge begrenzt direkt, welche Modelle (und auf welcher Quantisierungsstufe) effektiv geladen und ausgeführt werden können.
Der Sweet Spot, der zum Zeitpunkt der Evaluierung das beste Gleichgewicht zwischen Qualität und Machbarkeit auf dem Testrechner bot, wurde mit Googles Gemma-Modell mit 27 Milliarden Parametern erreicht, quantisiert auf 8 Bit (Version ‘27B Q8_0’). Diese Konfiguration arbeitete innerhalb eines 32.000-Token-Kontextfensters und bewältigte bequem die etwa 15.000-Token-Eingabe (Anweisungen + Transkript). Sie lief auf der spezifizierten Mac-Hardware und nutzte die 48 GB gemeinsam genutzten Speicher.
Unter diesen optimalen Bedingungen wurde die Verarbeitungsgeschwindigkeit mit 6,82 Tokens pro Sekunde gemessen. Obwohl funktional, ist dies weit von sofortig entfernt. Geschwindigkeitsverbesserungen ohne Einbußen bei der Ausgabequalität hängen hauptsächlich von schnellerer Hardware ab – insbesondere von SoCs mit höheren Taktraten (GHz) oder einer größeren Anzahl von Verarbeitungskernen (CPU, GPU, NPU).
Der Versuch, Modelle mit deutlich mehr Parametern (z. B. 32 Milliarden, 70 Milliarden) zu laden, stieß schnell an die Speichergrenze. Diese größeren Modelle konnten entweder gar nicht geladen werden oder erzeugten stark verkürzte, unbrauchbare Ausgaben (wie einen einzelnen Absatz anstelle eines vollständigen Artikels). Umgekehrt führte die Verwendung von Modellen mit weniger Parametern zwar zur Freigabe von Speicher, aber zu einem spürbaren Rückgang der Schreibqualität, gekennzeichnet durch Wiederholungen und schlecht formulierte Ideen. Ebenso steigerte eine aggressivere Quantisierung (Reduzierung der Parameter auf 3, 4, 5 oder 6 Bit) zwar die Geschwindigkeit, verschlechterte jedoch die Ausgabe erheblich und führte zu grammatikalischen Fehlern und sogar erfundenen Wörtern.
Die Größe des erforderlichen Kontextfensters, bestimmt durch die Eingabedaten, ist für die Aufgabe im Wesentlichen nicht verhandelbar. Wenn die Eingabedaten ein Fenster erfordern, das in Kombination mit der gewählten Modellgröße und Quantisierung den verfügbaren RAM übersteigt, besteht die einzige Möglichkeit darin, ein kleineres Modell zu wählen, was unweigerlich die potenzielle Qualität des Endergebnisses beeinträchtigt, um innerhalb der Speichergrenzen zu bleiben.
Die Suche nach Qualität: Wenn Struktur auf Substanz trifft (oder deren Fehlen)
Gelang es der lokal betriebenen KI, brauchbare Artikel zu generieren? Ja und nein. Die generierten Texte wiesen oft eine überraschend gute Struktur auf. Sie hielten sich im Allgemeinen an das angeforderte Format und enthielten:
- Einen erkennbaren Blickwinkel oder Fokus.
- Einen kohärenten Fluss durch thematische Abschnitte.
- Angemessen platzierte Zitate aus dem Transkript.
- Ansprechende Überschriften und Schlusssätze.
Ein kritischer Fehler trat jedoch bei allen getesteten LLMs durchweg auf, einschließlich solcher wie DeepSeek R1, die speziell für verbessertes Reasoning entwickelt wurden: eine grundlegende Unfähigkeit, die Relevanz von Informationen innerhalb des Interviews korrekt zu erkennen und zu priorisieren. Die KI-Modelle verfehlten durchweg den Kern des Gesprächs und konzentrierten sich auf sekundäre Punkte oder nebensächliche Details.
Das Ergebnis waren oft Artikel, die grammatikalisch korrekt und gut organisiert waren, aber letztendlich oberflächlich und uninteressant blieben. In einigen Fällen widmete die KI bedeutende, gut argumentierte Passagen der Feststellung des Offensichtlichen – zum Beispiel, indem sie ausführlich darlegte, dass das interviewte Unternehmen in einem Markt mit Wettbewerbern tätig ist. Dies verdeutlichte eine Lücke zwischen sprachlicher Kompetenz (Bildung kohärenter Sätze) und echtem Verständnis (Verständnis von Bedeutung und Kontext).
Darüber hinaus variierte die stilistische Ausgabe erheblich zwischen den Modellen:
- Metas Llama 3.x: Zum Zeitpunkt des Tests produzierte es Sätze, die oft verschachtelt und schwer zu verstehen waren.
- Mistral Models & Gemma: Zeigten eine Tendenz zu einem ‘Marketing-Sprech’-Stil, verwendeten überschwängliche Adjektive und positive Formulierungen, denen es jedoch an konkreter Substanz und spezifischen Details mangelte.
- Alibabas Qwen: Überraschenderweise produzierte dieses chinesische Modell innerhalb der Einschränkungen des Testaufbaus einige der ästhetisch ansprechendsten Prosa auf Französisch (der Sprache des ursprünglichen Evaluierungsteams).
- Mixtral 8x7B: Anfangs zeigte dieses ‘Mixture of Experts’-Modell (das acht kleinere, spezialisierte 7-Milliarden-Parameter-Modelle kombiniert) Potenzial. Um es jedoch in die 48 GB Speicherbeschränkung einzupassen, war eine aggressive 3-Bit-Quantisierung erforderlich, was zu erheblichen Syntaxfehlern führte. Eine 4-Bit-quantisierte Version (‘Q4_K_M’) bot zunächst einen besseren Kompromiss, aber nachfolgende Updates der LM Studio-Software erhöhten ihren Speicherbedarf, was dazu führte, dass auch diese Konfiguration verkürzte Ergebnisse produzierte.
- Mistral Small 3.1: Ein neueres Modell mit 24 Milliarden Parametern bei 8-Bit-Quantisierung erwies sich als starker Konkurrent. Seine Ausgabequalität näherte sich der des 27B Gemma-Modells an, und es bot einen leichten Geschwindigkeitsvorteil mit einer Verarbeitung von 8,65 Tokens pro Sekunde.
Diese Variation unterstreicht, dass die Wahl eines LLM nicht nur eine Frage der Größe oder Geschwindigkeit ist; die zugrunde liegenden Trainingsdaten und die Architektur beeinflussen maßgeblich seinen Schreibstil und potenzielle Verzerrungen.
Hardware-Architektur: Der unbesungene Held der lokalen KI
Die Experimente beleuchteten einen entscheidenden, oft übersehenen Faktor: die zugrunde liegende Hardware-Architektur, insbesondere wie auf den Speicher zugegriffen wird. Die überlegene Leistung, die auf dem Apple Silicon Mac beobachtet wurde, war nicht nur auf die Menge des RAM zurückzuführen, sondern hing entscheidend von seiner Unified Memory Architecture (UMA) ab.
In einem UMA-System teilen sich die CPU-, GPU- und NPU-Kerne denselben Pool an physischem RAM und können gleichzeitig auf Daten an denselben Speicheradressen zugreifen. Dies eliminiert die Notwendigkeit, Daten zwischen separaten Speicherpools zu kopieren, die verschiedenen Prozessoren gewidmet sind (z. B. System-RAM für die CPU und dediziertes VRAM für eine diskrete Grafikkarte).
Warum ist das für LLMs so wichtig?
- Effizienz: Die LLM-Verarbeitung beinhaltet intensive Berechnungen über verschiedene Kerntypen hinweg. UMA ermöglicht einen nahtlosen Datenaustausch, reduziert Latenzzeiten und den Overhead, der mit Datenverdopplung und -übertragung verbunden ist.
- Speichernutzung: In Systemen ohne UMA (wie einem typischen PC mit einer diskreten GPU) müssen dieselben Daten möglicherweise sowohl in den Hauptsystem-RAM (für die CPU) als auch in das VRAM der GPU geladen werden. Dies reduziert effektiv den nutzbaren Speicher für das LLM selbst.
Die praktische Auswirkung ist erheblich. Während der Test-Mac bequem ein 27-Milliarden-Parameter-Modell mit 8-Bit-Quantisierung unter Verwendung von 48 GB gemeinsam genutztem UMA-RAM ausführen konnte, könnte das Erreichen einer ähnlichen Leistung auf einem PC ohne UMA erheblich mehr Gesamt-RAM erfordern. Zum Beispiel könnte ein PC mit insgesamt 48 GB RAM, aufgeteilt in 24 GB für die CPU und 24 GB für die GPU, aufgrund der Speicherpartitionierung und des Datenverdopplungs-Overheads möglicherweise nur ein viel kleineres 13-Milliarden-Parameter-Modell effektiv ausführen.
Dieser architektonische Vorteil erklärt den frühen Vorsprung, den Macs mit Apple Silicon Chips im Bereich der lokalen KI erlangten. In Anerkennung dessen kündigten Wettbewerber wie AMD ihre Ryzen AI Max SoC-Reihe (erwartet Anfang 2025) an, die einen ähnlichen Ansatz mit vereinheitlichtem Speicher integrieren soll. Zum Zeitpunkt dieser Tests verfügten Intels Core Ultra SoCs zwar über integrierte CPU, GPU und NPU, boten jedoch nicht das gleiche Maß an vollständig vereinheitlichtem Speicherzugriff über alle Kerntypen hinweg. Diese Hardware-Unterscheidung ist eine kritische Überlegung für jeden, der ernsthaft daran interessiert ist, größere, leistungsfähigere LLMs lokal auszuführen.
Der komplizierte Tanz des Prompt Engineering
Eine KI dazu zu bringen, eine komplexe Aufgabe wie die Umwandlung eines Interviews in einen Artikel auszuführen, erfordert mehr als nur leistungsstarke Hardware und ein fähiges Modell; es erfordert ausgefeilte Anweisungen – die Kunst und Wissenschaft des Prompt Engineering. Die Erstellung des anfänglichen 1.500-Token-Prompts, der die KI leitete, war ein bedeutendes Unterfangen.
Ein nützlicher Ausgangspunkt war das Reverse Engineering: Man fütterte die KI mit einem fertigen, von Menschen geschriebenen Artikel zusammen mit dem entsprechenden Transkript und fragte, welcher Prompt hätte gegeben werden sollen, umdieses Ergebnis zu erzielen. Die Analyse der Vorschläge der KI über mehrere verschiedene Beispiele hinweg half dabei, wesentliche Elemente für den Anweisungssatz zu identifizieren.
Die von der KI generierten Prompt-Vorschläge waren jedoch durchweg zu kurz und es fehlte ihnen an den notwendigen Details, um die Erstellung eines umfassenden Artikels zu leiten. Die eigentliche Arbeit bestand darin, diese anfänglichen, von der KI gelieferten Ansätze zu nehmen und sie auszuarbeiten, indem tiefes Fachwissen über journalistische Struktur, Ton, Stil und ethische Überlegungen eingebettet wurde.
Mehrere nicht-intuitive Lektionen ergaben sich:
- Klarheit vor Eleganz: Überraschenderweise verringerte das Schreiben des Prompts in einem natürlicheren, fließenderen Stil oft das Verständnis der KI. Modelle hatten Schwierigkeiten mit Mehrdeutigkeiten, insbesondere mit Pronomen (‘er’, ‘es’, ‘dies’). Der effektivste Ansatz bestand darin, die Lesbarkeit für Menschen zugunsten der Präzision für Maschinen zu opfern und Subjekte explizit zu wiederholen (‘der Artikel sollte…’, ‘der Ton des Artikels muss…’, ‘die Einleitung des Artikels benötigt…’), um mögliche Fehlinterpretationen zu vermeiden.
- Die schwer fassbare Natur der Kreativität: Trotz sorgfältiger Prompt-Gestaltung, die auf Flexibilität abzielte, teilten die von der KI generierten Artikel durchweg eine ‘Familienähnlichkeit’. Die Breite menschlicher Kreativität und stilistischer Variation innerhalb eines einzigen Prompts oder sogar mehrerer konkurrierender Prompts zu erfassen, erwies sich als außerordentlich schwierig. Echte Vielfalt schien grundlegendere Veränderungen zu erfordern, als sie durch alleiniges Prompt-Tuning erreicht werden konnten.
Prompt Engineering ist keine einmalige Aufgabe, sondern ein iterativer Prozess der Verfeinerung, des Testens und der Einbeziehung spezifischer Geschäftslogik und stilistischer Nuancen. Es erfordert eine Mischung aus technischem Verständnis und tiefem Fachwissen.
Die Arbeitslastverschiebung: Das KI-Paradox entpacken
Die Experimente führten letztendlich zu einer kritischen Erkenntnis, die als KI-Paradox bezeichnet wird: In ihrem aktuellen Zustand muss der Benutzer oft mehr Vorarbeit leisten, damit die KI potenziell einen Teil der Benutzerarbeitslast (das Schreiben des Artikelentwurfs) lindern kann.
Das Kernproblem blieb die Unfähigkeit der KI, die Relevanz innerhalb des rohen Interview-Transkripts zuverlässig einzuschätzen. Um einen relevanten Artikel zu produzieren, reichte es nicht aus, einfach das gesamte Transkript einzuspeisen. Ein notwendiger Zwischenschritt kristallisierte sich heraus: die manuelle Vorverarbeitung des Transkripts. Dies umfasste:
- Das Entfernen von irrelevantem Geplauder, Abschweifungen und Redundanzen.
- Das potenzielle Hinzufügen von kontextbezogenen Notizen (auch wenn sie nicht für den endgültigen Artikel gedacht sind), um das Verständnis der KI zu lenken.
- Die sorgfältige Auswahl und möglicherweise Neuordnung von Schlüsselsegmenten.
Diese ‘Kuration’ des Transkripts erfordert erhebliche menschliche Zeit und Urteilsvermögen. Die Zeitersparnis durch die Generierung eines ersten Entwurfs durch die KI wurde effektiv durch die neue Aufgabe der sorgfältigen Vorbereitung ihrer Eingabedaten aufgewogen oder sogar übertroffen. Die Arbeitslast verschwand nicht; sie verlagerte sich lediglich vom direkten Schreiben zur Datenvorbereitung und Prompt-Verfeinerung.
Darüber hinaus war der detaillierte 1.500-Token-Prompt sehr spezifisch für eine Art von Artikel (z. B. ein Interview über eine Produkteinführung). Um die vielfältige Palette von Artikelformaten abzudecken, die ein Journalist täglich produziert – Startup-Profile, strategische Analysen, Veranstaltungsberichte, Multi-Source-Recherchen – wäre die Entwicklung, das Testen und die Wartung eines separaten, ebenso detaillierten Prompts für jeden Anwendungsfall erforderlich. Dies stellt eine erhebliche anfängliche und laufende Engineering-Investition dar.
Schlimmer noch, diese umfangreichen Experimente, die sich über sechs Monate erstreckten, kratzten nur an der Oberfläche. Sie konzentrierten sich auf das einfachste Szenario: die Generierung eines Artikels aus einem einzigen Interview, das oft in kontrollierten Umgebungen wie Pressekonferenzen geführt wurde, wo die Punkte des Interviewten bereits einigermaßen strukturiert sind. Die weitaus komplexeren, aber alltäglichen Aufgaben der Synthese von Informationen aus mehreren Interviews, der Einbeziehung von Hintergrundrecherchen oder der Handhabung weniger strukturierter Gespräche blieben aufgrund des selbst für den Basisfall erforderlichen Zeitaufwands unerforscht.
Obwohl der lokale Betrieb von LLMs technisch machbar ist und Vorteile in Bezug auf Kosten und Datenschutz bietet, ist die Vorstellung, dass er bei komplexer Wissensarbeit wie dem Journalismus ohne Weiteres Zeit oder Mühe spart, nach dieser Untersuchung derzeit illusorisch. Der erforderliche Aufwand transformiert sich lediglich und verlagert sich vorgelagert in die Datenvorbereitung und das hochspezifische Prompt Engineering. Bei diesen spezifischen Herausforderungen – der Unterscheidung von Relevanz, der Notwendigkeit umfangreicher Vorverarbeitung – schnitt die lokal betriebene KI vergleichbar mit kostenpflichtigen Online-Diensten ab, was darauf hindeutet, dass dies grundlegende Einschränkungen der aktuellen Generation von LLMs sind, unabhängig von der Bereitstellungsmethode. Der Weg zu einer wirklich nahtlosen KI-Unterstützung in solchen Bereichen bleibt komplex und erfordert eine weitere Entwicklung sowohl der KI-Fähigkeiten als auch unserer Methoden zur Interaktion mit ihnen.