Vorwürfe gegen DeepSeek: Training mit Gemini-Daten?

Der Wettbewerb im Bereich der Entwicklung künstlicher Intelligenz ist geprägt von Innovationen, Ambitionen und gelegentlich auch von Anschuldigungen unlauteren Verhaltens. Die jüngste Kontroverse dreht sich um DeepSeek, ein Unternehmen, das in der KI-Szene schnell aufgestiegen ist. DeepSeek steht nun im Fokus der Kritik, da dem Unternehmen vorgeworfen wird, sein neuestes KI-Modell, DeepSeek-R1-0528, mit Daten trainiert zu haben, die von den Gemini-Modellen von Google stammen. Diese Anschuldigung, die von KI-Analyst Sam Paech erhoben wurde, deutet auf einen möglichen Verstoß gegen ethische Grenzen hin und wirft Fragen über die Integrität der KI-Entwicklungspraktiken auf.

Die Erkenntnisse des Analysten: Ein detaillierter Blick auf DeepSeek-R1-0528

Sam Paech, eine angesehene Persönlichkeit in der KI-Analyse-Community, führte eine eingehende Untersuchung von DeepSeek-R1-0528 durch. Mithilfe bioinformatischer Werkzeuge analysierte Paech den KI-Dienst und suchte nach Hinweisen auf dessen Ursprung und Trainingsmethoden. Seine Untersuchung führte ihn zu einer provokanten Schlussfolgerung: DeepSeek-R1-0528 zeigte deutliche Ähnlichkeiten mit den Antworten, die von Googles Gemini generiert wurden.

Paech teilte seine Erkenntnisse auf X (ehemals Twitter) mit und erklärte: "Wenn Sie sich fragen, warum DeepSeek R1 etwas anders klingt, denke ich, dass sie wahrscheinlich von der Schulung mit synthetischen OpenAI-Daten auf synthetische Gemini-Ausgaben umgestiegen sind." Diese Aussage impliziert eine Verschiebung der Trainingsdatenquellen von DeepSeek, möglicherweise von synthetischen Daten, die von den Modellen von OpenAI generiert wurden, zu Daten, die von Gemini stammen. Die Implikation ist bedeutend und deutet auf eine direkte Abhängigkeit von der Technologie eines Wettbewerbers hin. Synthetische Daten sind Daten, die künstlich erzeugt werden und nicht durch direkte Messung gewonnen werden. Sie werden häufig verwendet, um reale Daten in Modellen des maschinellen Lernens während des Trainings, des Testens und der Validierung zu ergänzen. Mithilfe von Open-Source-KI-Modellen ist es beispielsweise möglich, schnell Trainingsdaten zu erstellen.

Um die Angelegenheit weiter zu untersuchen, tauchte Paech in die Hugging Face Developer Community Site ein, eine beliebte Open-Source-Plattform für KI-Entwickler. Mithilfe seines GitHub-Entwicklercode-Kontos analysierte Paech das DeepSeek-Modell innerhalb der Hugging Face-Umgebung, um weitere Beweise für seine Behauptungen zu finden.

DeepSeeks Antwort und Behauptungen der Innovation

Im Mai 2025 veröffentlichte DeepSeek über Hugging Face eine aktualisierte Version seines DeepSeek-R1-Modells mit der Bezeichnung 0528. Das Unternehmen behauptet, dass diese Iteration einen deutlichen Fortschritt in den KI-Fähigkeiten darstellt. DeepSeek behauptet, dass das Modell "tiefere" Inferenzfähigkeiten aufweist, was auf eine verbesserte Fähigkeit hindeutet, Schlussfolgerungen zu ziehen und Vorhersagen auf der Grundlage von Eingabedaten zu treffen.

Darüber hinaus betont DeepSeek die erhöhten Rechenressourcen, die beim Training des Modells 0528 eingesetzt werden. Dies deutet auf eine erhebliche Investition in die Infrastruktur hin, die für die Verarbeitung und Analyse großer Datenmengen erforderlich ist. Zusätzlich zu den erhöhten Ressourcen gibt DeepSeek an, "algorithmische Optimierungsmechanismen" während der Post-Training-Phase implementiert zu haben. Diese Mechanismen sollen die Leistung des Modells verfeinern und seine Genauigkeit und Effizienz verbessern.

DeepSeek betont die herausragende Leistung des Modells 0528 in einer Reihe von Bewertungs-Benchmarks. Diese Benchmarks decken kritische Bereiche wie Mathematik, Programmierung und allgemeine Logik ab und zeigen die Vielseitigkeit und Problemlösungsfähigkeiten des Modells. DeepSeek gibt auf Hugging Face an, dass die Leistung des Modells "sich nun der von führenden Modellen wie O3 und Gemini 2.5 Pro annähert". Diese Aussage positioniert DeepSeek-R1-0528 als einen starken Anwärter in der wettbewerbsorientierten KI-Landschaft.

Sam Paech präsentierte auch einen Screenshot von EQ-Bench bezüglich der Bewertungsergebnisse von KI-Modellen. Es zeigt eine Reihe von Googles Entwicklungsmodellversionen: Gemini 2.5 Pro, Gemini 2.5 Flash und Gemma 3, was auf den Wettbewerbscharakter der AImodel-Entwicklung und die Benchmarks hinweist, die zum Vergleich der Leistung verwendet werden.

Die Beweislast und kontextuelle Überlegungen

Obwohl Paechs Analyse eine Debatte innerhalb der KI-Community ausgelöst hat, bleiben die vorgelegten Beweise etwas indirekt. Unter Berufung auf TechCrunch stellt der Bericht fest, dass der Beweis für das Training durch Gemini nicht stichhaltig ist, obwohl einige andere Entwickler auch behaupten, Spuren von Gemini gefunden zu haben. Dies unterstreicht die Schwierigkeit, die Anschuldigungen endgültig zu beweisen oder zu widerlegen. Die Komplexität von KI-Modellen und die Feinheiten der Trainingsdaten machen es schwierig, den genauen Ursprung bestimmter Ausgaben oder Verhaltensweisen zurückzuverfolgen.

Es ist auch entscheidend, den breiteren Kontext der KI-Entwicklung zu berücksichtigen. Viele KI-Modelle werden auf riesigen Datensätzen trainiert, die häufig öffentlich zugängliche Informationen und Open-Source-Ressourcen enthalten. Die Grenze zwischen der legitimen Nutzung öffentlich zugänglicher Daten und der unbefugten Nutzung proprietärer Informationen kann verschwommen sein, insbesondere in dem sich schnell entwickelnden Bereich der KI.

Frühere Anschuldigungen: Ein Muster angeblichen Fehlverhaltens?

Dies ist nicht das erste Mal, dass DeepSeek Vorwürfen ausgesetzt ist, Daten eines KI-Modells eines Wettbewerbers zu verwenden. Im Dezember 2024 wurden ähnliche Bedenken hinsichtlich des V3-Modells von DeepSeek geäußert. Zahlreiche Anwendungsentwickler beobachteten, dass sich das V3-Modell häufig als ChatGPT identifizierte, dem sehr beliebten Chatbot von OpenAI. Dieses Verhalten führte zu Spekulationen, dass das Modell von DeepSeek zumindest teilweise mit Daten trainiert wurde, die von ChatGPT generiert wurden.

Diese früheren Anschuldigungen schaffen einen Hintergrund des Misstrauens und beeinflussen möglicherweise die Interpretation der aktuellen Anschuldigungen. Obwohl die Vorfälle getrennt sind, werfen sie gemeinsam Fragen über die Datenbeschaffungspraktiken und das Engagement von DeepSeek für eine ethische KI-Entwicklung auf.

Die Auswirkungen auf die KI-Industrie

Die Anschuldigungen gegen DeepSeek, ob bewiesen oder nicht, haben erhebliche Auswirkungen auf die KI-Industrie als Ganzes. Die Kontroverse unterstreicht die Bedeutung von Datenherkunft, Transparenz und ethischen Überlegungen bei der KI-Entwicklung. Da KI-Modelle immer ausgefeilter und einflussreicher werden, ist es entscheidend, klare Richtlinien und Standards für die Datennutzung und das Modelltraining festzulegen.

Die Anschuldigungen unterstreichen auch die Herausforderungen bei der Überwachung der Nutzung von KI-Modelldaten. Die komplexe Natur von KI-Modellen und die riesigen Datenmengen, die beteiligt sind, erschweren es, eine unbefugte Nutzung zu erkennen und zu beweisen. Die KI-Community muss wirksame Mechanismen entwickeln, um die Datenherkunft zu überwachen und die Einhaltung ethischer Standards sicherzustellen.

Weitere Überprüfung und zukünftige Auswirkungen

Die DeepSeek-Kontroverse sollte als Katalysator für eine weitere Untersuchung der Datenbeschaffungspraktiken innerhalb der KI-Industrie dienen. Es ist eine breitere Diskussion erforderlich, um die Grenzen der akzeptablen Datennutzung zu klären und Mechanismen zur Erkennung und Verhinderung unethischer Praktiken zu etablieren.

Die Zukunft der KI-Entwicklung hängt vom Vertrauen der Öffentlichkeit ab. Wenn KI-Modelle als unethisch oder unfair entwickelt wahrgenommen werden, könnte dies die Unterstützung der Öffentlichkeit untergraben und die Einführung von KI-Technologien behindern. Die KI-Community muss ethische Überlegungen und Transparenz in den Vordergrund stellen, um den langfristigen Erfolg und den gesellschaftlichen Nutzen der künstlichen Intelligenz sicherzustellen.

DeepSeek und die Open-Source-Community

DeepSeeks Engagement in der Hugging Face-Community ist ein bemerkenswerter Aspekt dieser Situation. Hugging Face ist ein kollaboratives Zentrum, in dem Entwickler Modelle, Datensätze und Code austauschen, um Innovation und Zugänglichkeit in der KI zu fördern. Durch die Veröffentlichung seiner Modelle auf Hugging Face profitiert DeepSeek vom Feedback der Community, der Überprüfung und potenziellen Verbesserungen. Diese Offenheit bedeutet jedoch auch, dass seine Modelle einer intensiven Prüfung unterzogen werden, wie die Analyse von Sam Paech zeigt.

Der Vorfall unterstreicht die Doppelnatur der Open-Source-Zusammenarbeit. Sie fördert zwar Innovation und Transparenz, setzt Modelle aber auch potenziellen Schwachstellen und Anschuldigungen aus. Unternehmen, die in Open-Source-Umgebungen tätig sind, müssen besonders auf die Datenherkunft und ethischen Überlegungen achten, da ihre Handlungen der öffentlichen Kontrolle unterliegen.

Die Rolle synthetischer Daten im KI-Training

Synthetische Daten spielen im KI-Training eine immer wichtigere Rolle. Sie können verwendet werden, um reale Daten zu ergänzen, Lücken in Datensätzen zu füllen und Verzerrungen zu beseitigen. Die Verwendung synthetischer Daten wirft jedoch auch ethische Bedenken auf. Wenn ein Modell mit synthetischen Daten trainiert wird, die von einem Modell eines Wettbewerbers abgeleitet wurden, könnte dies als Verletzung des geistigen Eigentums oder der ethischen Richtlinien angesehen werden.

Die DeepSeek-Kontroverse unterstreicht die Notwendigkeit größerer Klarheit und Regulierung hinsichtlich der Verwendung synthetischer Daten im KI-Training. Die KI-Community muss Standards entwickeln, um sicherzustellen, dass synthetische Daten ethisch erzeugt werden und die Rechte anderer nicht verletzen.

Benchmarking von KI-Modellen: Eine Wettbewerbsarena

Das Benchmarking von KI-Modellen ist ein entscheidender Aspekt, um Fortschritte zu verfolgen und die Leistung zu vergleichen. Das Streben nach hohen Benchmark-Ergebnissen kann jedoch auch zu unethischem Verhalten anreizen. Wenn sich Unternehmen zu sehr darauf konzentrieren, Top-Ergebnisse zu erzielen, könnten sie versucht sein, Abstriche zu machen oder unbefugte Daten zu verwenden, um die Leistung ihrer Modelle zu verbessern.

Der Screenshot von EQ-Bench von Sam Paech bezüglich der Bewertungsergebnisse von KI-Modellen zeigt die Entwicklungsmodellversionen von Google: Gemini 2.5 Pro, Gemini 2.5 Flash und Gemma 3. Dies unterstreicht den Wettbewerbscharakter der KI-Modellentwicklung und die Benchmarks, die zum Vergleich der Leistung verwendet werden.

Die Bedeutung unabhängiger Audits

Um eine ethische und transparente KI-Entwicklung zu gewährleisten, können unabhängige Audits erforderlich sein. Unabhängige Auditoren können die Datenbeschaffungspraktiken, Trainingsmethoden und die Modellleistung eines Unternehmens überprüfen, um potenzielle ethische Verstöße oder Verzerrungen zu identifizieren. Diese Audits können dazu beitragen, das Vertrauen der Öffentlichkeit in KI-Technologien aufzubauen.

Die DeepSeek-Kontroverse unterstreicht die Notwendigkeit größerer Rechenschaftspflicht in der KI-Industrie. Unternehmen sollten für die ethischen Auswirkungen ihrer KI-Modelle zur Rechenschaft gezogen werden, und unabhängige Audits können dazu beitragen, sicherzustellen, dass sie ihren ethischen Verpflichtungen nachkommen.

Der Weg nach vorn: Transparenz und Zusammenarbeit

Der Weg nach vorn für die KI-Industrie liegt in Transparenz und Zusammenarbeit. Unternehmen sollten transparent über ihre Datenbeschaffungspraktiken und Trainingsmethoden sein. Sie sollten auch miteinander und mit der breiteren KI-Community zusammenarbeiten, um ethische Standards und bewährte Verfahren zu entwickeln.

Die DeepSeek-Kontroverse ist eine Erinnerung daran, dass sich die KI-Industrie noch in einem frühen Entwicklungsstadium befindet. Es ist noch viel zu tun, um sicherzustellen, dass KI-Technologien ethisch und verantwortungsvoll zum Wohle der gesamten Menschheit entwickelt und eingesetzt werden. Durch die Förderung von Transparenz und Zusammenarbeit kann die KI-Community eine Zukunft aufbauen, in der die KI allen Menschen zugute kommt.

Rechtliche Auswirkungen und Rechte an geistigem Eigentum

Die Anschuldigungen gegen DeepSeek werfen erhebliche rechtliche Fragen im Zusammenhang mit Rechten an geistigem Eigentum auf. Wenn nachgewiesen wird, dass DeepSeek sein KI-Modell mit Daten trainiert hat, die ohne entsprechende Genehmigung von Googles Gemini stammen, könnte das Unternehmen wegen Urheberrechtsverletzung oder Unterschlagung von Geschäftsgeheimnissen rechtlich belangt werden

Der rechtliche Rahmen für KI und geistiges Eigentum entwickelt sich noch, und der Fall DeepSeek könnte wichtige Präzedenzfälle schaffen. Er unterstreicht die Notwendigkeit klarer rechtlicher Richtlinien für die Verwendung von KI-Modelldaten und den Schutz von Rechten an geistigem Eigentum im KI-Zeitalter.

Das Urteil der öffentlichen Meinung

Neben potenziellen rechtlichen Konsequenzen sieht sich DeepSeek auch dem Urteil der Öffentlichkeit gegenüber. Anschuldigungen unethischen Verhaltens können den Ruf eines Unternehmens schädigen und das Vertrauen der Öffentlichkeit untergraben. DeepSeek muss die Anschuldigungen transparent angehen und konkrete Schritte unternehmen, um sein Engagement für eine ethische KI-Entwicklung zu demonstrieren.

Die öffentliche Wahrnehmung von KI ist entscheidend für ihre breite Akzeptanz. Wenn KI als unethisch entwickelt und eingesetzt wahrgenommen wird, könnte dies zu öffentlichen Gegenreaktionen führen und den Fortschritt von KI-Technologien behindern.

Ausgewogene Innovation und Ethik

Die DeepSeek-Kontroverse verdeutlicht die Spannung zwischen Innovation und Ethik in der KI-Industrie. Unternehmen stehen unter dem Druck, zu innovieren und hochmoderne KI-Modelle zu entwickeln, müssen aber auch sicherstellen, dass sie dies ethisch und verantwortungsvoll tun.

Die KI-Community muss einen Weg finden, das Streben nach Innovation mit der Notwendigkeit ethischer Überlegungen in Einklang zu bringen. Dies erfordert ein Engagement für Transparenz, Rechenschaftspflicht und Zusammenarbeit.

Die Zukunft der KI-Governance

Der Fall DeepSeek unterstreicht die Notwendigkeit einer stärkeren KI-Governance. Regierungen und Aufsichtsbehörden müssen möglicherweise eingreifen, um klare Richtlinien und Standards für die KI-Entwicklung und -Bereitstellung festzulegen.

Die KI-Governance sollte sich auf die Förderung ethischer KI, den Schutz von Rechten an geistigem Eigentum und die Gewährleistung der öffentlichen Sicherheit konzentrieren. Sie sollte auch Innovationen fördern und die