KI-Intelligenz entschlüsseln: Ein tiefer Einblick

Die “zugrunde liegende Logik” der Künstlichen Intelligenz (KI) ist kein singuläres, feststehendes Konzept. Vielmehr entspringt sie einer jahrzehntelangen intellektuellen Debatte darüber, wie man Intelligenz erzeugt. Um KI zu verstehen, muss man zunächst in ihre intellektuellen Ursprünge eintauchen - in den Konflikt und die Verschmelzung zweier zentraler philosophischer Schulen: Symbolismus und Konnektionismus. Diese Schulen repräsentieren unterschiedliche gegensätzliche Ansichten über Intelligenz, und ihr wechselhaftes Schicksal hat die historische Entwicklung und die zukünftige Ausrichtung des gesamten KI-Bereichs geprägt.

1. Zwei Denkschulen

Die Konstruktionslogik der künstlichen Intelligenz entfaltet sich auf zwei Hauptwegen: Top-Down-Symbolmanipulation und Bottom-Up-bioinspirierte Lernen.

1.1 Symbolismus (Die “Top-Down”-Logik)

Der Symbolismus, auch Logizismus oder die Computerschule genannt, basiert auf der festen Überzeugung, dass das Wesen der Intelligenz in der Manipulation von Symbolen nach einem Satz klarer, formalisierter Regeln liegt. Dies ist ein “Top-Down”-Ansatz mit der Prämisse, dass menschliche Kognition und Denkprozesse in symbolische Operationen abstrahiert werden können. In dieser Sichtweise wird Intelligenz als ein Prozess logischen Denkens angesehen, und der Geist kann mit einem Computerprogramm verglichen werden, das mit strukturierten Daten abläuft.

Die typischste Manifestation dieser Schule sind Expertensysteme. Diese Systeme erlebten in den 1970er und 1980er Jahren ihre Blütezeit und markierten den ersten grossflächigen kommerziellen Erfolg der KI. Sie zielten darauf ab, die Entscheidungsprozesse menschlicher Experten in bestimmten engen Bereichen (wie medizinische Diagnose oder chemische Analyse) durch eine Wissensbasis zu simulieren, die eine grosse Anzahl von “Wenn-Dann”-Regeln enthielt. Der Erfolg von Expertensystemen trieb den Symbolismus zu seinem Höhepunkt und machte ihn zu dieser Zeit fast synonym mit KI.

1.2 Konnektionismus (Die “Bottom-Up”-Logik)

Im Gegensatz zum Symbolismus argumentiert der Konnektionismus, auch bekannt als die Bionikschule, dass Intelligenz ein emergentes Phänomen ist. Sie wird nicht von einem zentralen Controller oder voreingestellten Regeln dominiert, sondern entsteht durch die komplexen Interaktionen zwischen einer grossen Anzahl einfacher, miteinander verbundener Verarbeitungseinheiten (d.h. künstliche Neuronen). Diese “Bottom-Up”-Logik ist von der Struktur des menschlichen Gehirns inspiriert und glaubt, dass Intelligenz nicht programmiert, sondern durch das Erlernen von Mustern aus Daten erhalten wird.

Der Kernglaube des Konnektionismus ist, dass komplexes Verhalten aus einfachen lokalen Interaktionen entstehen kann, ohne dass globale explizite Regeln erforderlich sind. Seine zentrale technologische Verkörperung sind Künstliche Neuronale Netze (KNNs). Diese Modelle lernen komplexe Beziehungen zwischen Eingängen und Ausgängen, indem sie mit grossen Mengen an Beispieldaten trainieren und die “Gewichte” (d.h. Verbindungsstärken) zwischen Neuronen kontinuierlich anpassen.

2. Das Pendel der Geschichte: Aufstieg, Winter und Wiederbelebung

Die Geschichte der KI-Entwicklung ist keine lineare, sondern ähnelt eher einem Pendel, das zwischen Symbolismus und Konnektionismus hin und her schwingt. Dieser Prozess offenbart in scharfer Weise, dass der Erfolg oder Misserfolg eines theoretischen Paradigmas nicht nur von der Tiefe seiner Ideen abhängt, sondern auch von den Einschränkungen der Technologie und den wirtschaftlichen Bedingungen der Zeit. Die zugrunde liegende Logik der KI entwickelt sich nicht im luftleeren Raum, und ihr Entwicklungspfad ist ein direktes Ergebnis des komplexen Zusammenspiels zwischen (1) vorherrschendem philosophischem Denken, (2) verfügbarer Rechenleistung und (3) wirtschaftlicher Machbarkeit.

2.1 Frühe Vorteile und der erste KI-Winter

In den frühen Tagen der KI zeigte der Konnektionismus grosses Potenzial. Im Jahr 1969 veröffentlichte jedoch Marvin Minsky, eine führende Figur des Symbolismus, das Buch Perceptrons, das zu einem wichtigen Wendepunkt in der Geschichte wurde. Minsky bewies mathematisch rigoros, dass die einfachen einschichtigen neuronalen Netze der damaligen Zeit (d. h. Perzeptrons) einige der grundlegendsten Probleme nicht lösen konnten, wie z. B. das logische “exklusive Oder”-Problem (XOR). Diese präzise akademische Kritik, kombiniert mit der allgemeinen Knappheit an Computerrechenleistung zu dieser Zeit, versetzte der konnektionistischen Forschung einen verheerenden Schlag. Die Forschungsgelder wurden drastisch gekürzt, und die Forschung an neuronalen Netzen trat in eine mehr als ein Jahrzehnt dauernde Stagnationsperiode ein, die als der erste “KI-Winter” bekannt ist. Während dieser Zeit nahm die Logik des Symbolismus eine absolut dominante Position ein.

2.2 Das Goldene Zeitalter des Symbolismus und der zweite KI-Winter

Expertensysteme florierten in den 1980er Jahren und brachten den Symbolismus auf den Höhepunkt kommerzieller Anwendungen. Ihre Grenzen wurden jedoch allmählich aufgedeckt: Expertensysteme waren teuer zu bauen, Wissensbasen waren schwer zu pflegen, sie konnten mit mehrdeutigen Informationen nicht umgehen und sie hatten nicht die Fähigkeit, automatisch neues Wissen zu erwerben. Letztendlich markierte das kommerzielle Scheitern von “Lisp-Maschinen”, die speziell für die Ausführung symbolischer KI-Programme (wie der Lisp-Sprache) verwendet wurden, das Ende dieser Ära. Der Aufstieg von Allzweckcomputern (wie dem IBM PC) mit stärkerer Leistung und niedrigeren Preisen machte diese dedizierten Hardwaregeräte nicht wettbewerbsfähig, und das KI-Feld trat dann in den zweiten Winter ein. Dies beweist erneut, dass eine theoretische Logik, um sich weiterzuentwickeln, eine starke und wirtschaftliche Hardware-Grundlage als Unterstützung haben muss.

2.3 Die Wiederbelebung des Konnektionismus

Die Wiederbelebung des Konnektionismus war kein Zufall, sondern wurde durch drei Schlüsselfaktoren vorangetrieben:

  1. Algorithmische Durchbrüche: Während des “Winters” legten die Einführung von Backpropagation-Algorithmen und die Erfindung komplexerer Netzwerkstrukturen wie Long Short-Term Memory Networks (LSTMs) die algorithmische Grundlage für das effektive Training neuronaler Netze.

  2. Datenschwemme: Die Popularität des Internets brachte eine beispiellose Datenmenge mit sich. Diese Daten lieferten ausreichend “Nahrung” für neuronale Netze, die eine grosse Anzahl von Stichproben für das Training benötigen.

  3. Revolution der Rechenleistung: Grafikprozessoren (GPUs), die ursprünglich für Videospiele entwickelt wurden, verfügen über eine massiv parallele Rechenarchitektur, die sich als perfekt für die Kernmatrixoperationen in neuronalen Netzen erwiesen hat. Das Aufkommen von GPUs durchbrach den Engpass bei der Rechenleistung, der den Konnektionismus jahrzehntelang geplagt hatte, und ermöglichte es, sein theoretisches Potenzial wirklich freizusetzen.

Schliesslich entzündete die Konvergenz von Algorithmen, Daten und Rechenleistung die Deep-Learning-Revolution und machte die Logik des Konnektionismus zum unbestrittenen Mainstream im KI-Bereich.

3. Das philosophische Dilemma: Verstehen vs. Simulation

Der historische Streit zwischen den beiden grossen Schulen führt letztendlich zu einer tiefgreifenden philosophischen Frage, die bis heute ungelöst ist: Besitzt eine Maschine, die in der Lage ist, intelligentes Verhalten perfekt zu simulieren, wirklich die Fähigkeit zu verstehen?

3.1 Der Turing-Test

Alan Turings “Turing-Test” liefert eine operative, behavioristische Definition von Intelligenz. Der Test beinhaltet, ob eine Maschine ein Gespräch mit einem Menschen führen kann und der Mensch nicht erkennen kann, ob es sich um eine Maschine oder eine Person handelt; dann kann die Maschine als intelligent angesehen werden. Der Turing-Test umgeht die wesentliche Frage “Was ist Intelligenz?” und wendet sich “Welches Verhalten sollte Intelligenz zeigen?”.

3.2 Das Gedankenexperiment “Chinesisches Zimmer”

Der Philosoph John Searle schlug 1980 das berühmte Gedankenexperiment “Chinesisches Zimmer” vor, das einen heftigen Angriff auf den Symbolismus und den Turing-Test startete. Das Experiment ist wie folgt konzipiert: Eine Person, die kein Chinesisch versteht, ist in einem Raum eingeschlossen, und der Raum enthält ein detailliertes Handbuch mit chinesischen Verarbeitungsregeln (entspricht einem Programm). Er erhält Notizen mit chinesischen Schriftzeichen (Eingabe) durch ein Fenster und befolgt dann strikt die Anweisungen im Regelhandbuch, um die entsprechenden Zeichen zu finden und zu kombinieren, und gibt dann die Ergebnisse aus dem Fenster (Ausgabe). Für Personen ausserhalb des Raumes unterscheidet sich die Reaktion des Raumes nicht von der eines chinesischen Muttersprachlers, sodass er den Turing-Test besteht.

Searle wies jedoch darauf hin, dass die Person im Raum von Anfang bis Ende nie die Bedeutung (Semantik) von chinesischen Schriftzeichen verstanden hat und alles, was sie tat, reine symbolische Manipulation (Syntax) war. Searle kam zu dem Schluss, dass die blosse Manipulation von Symbolen, egal wie komplex sie ist, niemals echtes “Verständnis” hervorbringen kann. Dieses Argument stellt die Sichtweise der “starken KI” (d.h. die Überzeugung, dass ein korrekt programmierter Computer einen Verstand besitzen kann) auf kraftvolle Weise in Frage.

Heute können moderne KIs, die durch grosse Sprachmodelle (LLMs) repräsentiert werden, in gewissem Sinne als eine super-upgegradete Version des “Chinesischen Zimmers” angesehen werden. Sie generieren scheinbar intelligente Antworten, indem sie statistisch Muster in riesigen Mengen an Textdaten abgleichen. Die Debatte darüber, ob sie Sprache wirklich “verstehen” oder nur komplexe “stochastische Papageien” sind, ist eine Fortsetzung der Debatte zwischen Turing und Searle in der heutigen Zeit.

Lange Zeit wurden Symbolismus und Konnektionismus als zwei sich gegenseitig ausschliessende Paradigmen angesehen. Der “Krieg” der Geschichte geht jedoch in Form einer Synthese zu Ende. Die zugrunde liegende Logik der Zukunft ist keine Entweder-Oder-Entscheidung, sondern eine Verschmelzung der beiden. Dieser Trend spiegelt sich im Aufstieg der Neuro-Symbolischen KI wider. Dieser Bereich zielt darauf ab, die leistungsstarken Fähigkeiten zur Mustererkennung neuronaler Netze mit den rigorosen logischen Denkfähigkeiten symbolischer Systeme zu kombinieren, mit dem Ziel, leistungsstärkere Systeme zu bauen, die sowohl lernen als auch denken können. Zum Beispiel können moderne KI-Agenten externe symbolische Werkzeuge (wie Taschenrechner, Datenbankabfragen) aufrufen, um ihre eigenen Fähigkeiten zu verbessern, was eine praktische Kombination aus neuronalen Modellen und symbolischen Werkzeugen darstellt.

Darüber hinaus spiegelt die “Mixture of Experts (MoE)“-Architektur in modernen grossen Sprachmodellen auch die Expertensysteme des Symbolismus im Konzept wider. Das MoE-Modell besteht aus mehreren spezialisierten “Experten”-Subnetzwerken und einem “Gating”-Netzwerk, das für die Auswahl des am besten geeigneten Experten für die Bearbeitung jeder Eingabe verantwortlich ist. Dies ähnelt funktionell einem symbolischen System, das bestimmte Funktionsmodule nach Regeln aufruft, aber seine Implementierung ist vollständig konnektionistisch - durch End-to-End-Lernen und differenzielle Optimierung. Dies zeigt, dass sich die zugrunde liegende Logik der KI von Opposition zu Komplementarität bewegt und durch Fusion beispiellose leistungsstarke Fähigkeiten schafft.

Tabelle 1: Vergleich der grundlegenden KI-Paradigmen: Symbolismus vs. Konnektionismus

Merkmal Symbolismus (Top-Down) Konnektionismus (Bottom-Up)
Kernprinzip Intelligenz wird durch die Manipulation von Symbolen und das Befolgen formaler Regeln erreicht. Intelligenz entsteht aus der Interaktion einer grossen Anzahl einfacher, miteinander verbundener Einheiten.
Wissensdarstellung Explizite, strukturierte Wissensbasis (z. B. “Wenn-Dann”-Regeln). Implizites, verteiltes Wissen, das in den Gewichten der Netzwerkverbindungen codiert ist.
Denkmethode Denken basierend auf logischer Deduktion, Suche und heuristischen Regeln. Denken basierend auf datengesteuerter Mustererkennung und statistischer Inferenz.
Schlüsseltechnologien Expertensysteme, logische Programmierung, Wissensgraphen. Künstliche neuronale Netze, Deep Learning, grosse Sprachmodelle.
Vorteile Starke Interpretierbarkeit, logisch rigoros, zeichnet sich in klar definierten Bereichen aus. Starke Lernfähigkeit, kann mit mehrdeutigen und unstrukturierten Daten umgehen, gute Generalisierungsfähigkeit.
Nachteile Engpass bei der Wissensakquisition, schwache Fähigkeit, mit Unsicherheit umzugehen, fragiles System. “Black Box”-Problem (schlechte Interpretierbarkeit), erfordert eine grosse Menge an Daten und Rechenleistung, anfällig für gegnerische Angriffe.
Historischer Höhepunkt Die Ära der Expertensysteme in den 1970er und 1980er Jahren. Die Ära des Deep Learning von 2010 bis heute.
Repräsentative Figuren Marvin Minsky, Herbert A. Simon, Allen Newell. Geoffrey Hinton, Yann LeCun, John Hopfield, Fei-Fei Li.

Die Enthüllung des Geheimnisses der modernen KI erfordert die Erkenntnis, dass ihre “zugrunde liegende Logik” nicht der menschliche gesunde Menschenverstand oder das Denken ist, sondern eine präzise und universelle mathematische Sprache. Insbesondere die konnektionistisch dominierte KI ist im Wesentlichen angewandte Mathematik, die von “Daten, Algorithmen und Rechenleistung” angetrieben wird. Die Prozesse der Intelligenzerzeugung, des Lernens und der Optimierung lassen sich in die Synergie von drei mathematischen Säulen aufschlüsseln: Wahrscheinlichkeitsstatistik, lineare Algebra und Analysis.

4. Die mathematische Natur der KI

Die Kernaufgabe der aktuellen künstlichen Intelligenz kann in der Regel wie folgt beschrieben werden: Finden einer ungefähr optimalen Lösung in einem hochdimensionalen, komplexen Problemraum. Anstatt Probleme zu lösen, indem man erschöpfend alle Möglichkeiten ausprobiert, wendet sie mathematische Methoden an, um eine hinreichend gute Lösung zu finden. Die Mathematik stellt der KI formale Modellierungswerkzeuge und wissenschaftliche Beschreibungssprachen zur Verfügung und ist der Eckpfeiler für den Aufbau, das Verständnis und die Verbesserung von KI-Systemen.

5. Säule 1: Wahrscheinlichkeit und Statistik - Die Logik der Unsicherheit

Die Wahrscheinlichkeitstheorie und Statistik bieten der KI einen theoretischen Rahmen für das Denken in unsicheren Umgebungen und das Extrahieren von Mustern aus Daten. KI-Modelle sind im Wesentlichen probabilistische Systeme, die die zugrunde liegende Verteilung von Daten lernen, um Vorhersagen zu treffen und Entscheidungen zu treffen.

Das Aufkommen von Big Data stellt jedoch eine grosse Herausforderung für die Grundlagen der traditionellen Statistik dar. Traditionelle statistische Theorien, wie z. B. das Gesetz der grossen Zahlen und der zentrale Grenzwertsatz, basieren meist auf der Annahme, dass Stichproben “unabhängig und identisch verteilt” (i.i.d.) sind und dass die Stichprobengrösse n viel grösser ist als die Anzahl der Merkmale p (d. h. pn). Aber im Zeitalter von Big Data werden diese Annahmen oft gebrochen. In Bilderkennungsaufgaben kann beispielsweise ein hochauflösendes Bild Millionen von Pixeln (Merkmale p) enthalten, während der Trainingsdatensatz nur Zehntausende von Bildern (Stichproben n) enthalten kann, was zu dem Problem des “Fluchs der Dimensionalität” führt, bei dem pn. In diesem Fall ist es einfach, “Pseudo-Korrelationen” zu erzeugen, die traditionelle statistische Methoden ungültig machen.

Der Aufstieg des Deep Learning ist in gewissem Masse eine Reaktion auf diese Herausforderung. Es bietet eine Methode zum automatischen Erlernen effektiver Merkmalsdarstellungen aus hochdimensionalen Daten, ohne sich auf traditionelle statistische Annahmen zu verlassen. Dennoch ist die Etablierung einer soliden statistischen Grundlage für dieses neue Datenparadigma immer noch ein grosses mathematisches Problem, das in der aktuellen KI-Forschung dringend gelöst werden muss.

6. Säule 2: Lineare Algebra - Die Logik der Darstellung

Die lineare Algebra ist die “universelle Sprache” der KI-Welt und bietet grundlegende Werkzeuge für die Darstellung von Daten und Modellen. In neuronalen Netzen werden, unabhängig davon, ob es sich um die Eingabe (wie die Pixel eines Bildes, die Wortvektoren von Text), die Parameter des Modells (Gewichte) oder die endgültige Ausgabe handelt, alle als numerische Struktur ausgedrückt: Vektoren, Matrizen oder höherdimensionale Tensoren.

Die Kernoperation in neuronalen Netzen, wie z. B. ein Neuron, das alle seine Eingaben gewichtet und summiert, ist im Wesentlichen die Multiplikation von Matrizen und Vektoren. Der Grund, warum GPUs das KI-Training stark beschleunigen können, ist genau, dass ihre Hardwarearchitektur hochoptimiert ist, um diese gross angelegten parallelen linearen Algebraoperationen effizient auszuführen.

7. Säule 3: Analysis und Optimierung - Die Logik des Lernens

Der Lernprozess der KI ist im Wesentlichen ein mathematisches Optimierungsproblem. Das Ziel ist es, eine Reihe von Modellparametern (z. B. Gewichte und Verzerrungen in einem neuronalen Netz) zu finden, die die Differenz zwischen den Vorhersagen des Modells und den wahren Antworten minimieren. Diese Differenz wird durch eine Verlustfunktion quantifiziert.

7.1 Gradientenabstieg: Die Engine des Lernens

Gradientenabstieg ist der Kernalgorithmus, um dieses Ziel zu erreichen, und ist die Engine, die das Lernen fast aller modernen KI-Modelle antreibt.

  • Kernidee: Gradientenabstieg ist ein iterativer Optimierungsalgorithmus, der darauf abzielt, den minimalen Punkt einer Verlustfunktion zu finden. Dieser Prozess lässt sich sinnbildlich mit einer Person vergleichen, die im dichten Nebel einen Berg hinabsteigt. Er kann nicht sehen, wo der tiefste Punkt des Tals ist, aber er kann die Neigung des Bodens unter seinen Füssen spüren. Die vernünftigste Strategie ist es, einen kleinen Schritt entlang der steilsten Abwärtsrichtung an der aktuellen Position zu machen und diesen Prozess dann zu wiederholen.

  • Spezifischer Prozess:

    1. Initialisierung: Zuerst zufällig einen anfänglichen Satz von Modellparametern (Gewichten und Verzerrungen) festlegen.

    2. Verlust berechnen: Verwenden Sie die aktuellen Parameter, um das Modell Vorhersagen für die Trainingsdaten treffen zu lassen, und berechnen Sie den Gesamtfehler (Verlust) zwischen den Vorhersagen und den wahren Labels.

    3. Gradienten berechnen: Verwenden Sie Partielle Ableitungen in der Analysis, um den Gradienten der Verlustfunktion in Bezug auf jeden Parameter zu berechnen. Der Gradient ist ein Vektor, der in die Richtung des schnellsten Anstiegs des Verlustfunktionswerts zeigt.

    4. Parameter aktualisieren: Bewegen Sie jeden Parameter einen kleinen Schritt in die entgegengesetzte Richtung seines Gradienten. Die Grösse dieses Schritts wird durch einen Hyperparameter gesteuert, der als Lernrate bezeichnet wird (normalerweise als η bezeichnet). Die Aktualisierungsformel lautet: Parameterneu = Parameteraltη × Gradient.

    5. Wiederholen: Wiederholen Sie die Schritte 2 bis 4 kontinuierlich Tausende Male. Jede Iteration optimiert die Modellparameter und bewirkt, dass der Verlustwert allmählich sinkt. Wenn der Verlustwert nicht mehr wesentlich sinkt, “konvergiert” der Algorithmus zu einem lokalen oder globalen Minimum, und der Lernprozess endet.

  • Algorithmische Varianten: Abhängig von der Datenmenge, die in jeder Iteration verwendet wird, gibt es viele Varianten des Gradientenabstiegs, wie z. B. Batch GD, Stochastic GD (SGD) und Mini-Batch GD, die unterschiedliche Kompromisse zwischen Recheneffizienz und Konvergenzstabilität bieten.

Die Mathematik ist die vereinheitlichende Sprache, die alle modernen KI-Paradigmen verbindet. Ob es sich um einfache lineare Regression, komplexe Support-Vektor-Maschinen oder riesige tiefe neuronale Netze handelt, die zugrunde liegende Logik ihres Lernens ist gemeinsam: Definieren Sie ein Modell, definieren Sie eine Verlustfunktion und verwenden Sie dann einen Optimierungsalgorithmus (wie z. B. Gradientenabstieg), um die Parameter zu finden, die die Verlustfunktion minimieren. Dieser mathematische Rahmen, der auf “Verlustminimierung” basiert, ist die wahre Kernlogik, wie Maschinen aus Daten lernen.

Die mathematische Logik der KI markiert auch eine grundlegende Abkehr von der traditionellen Logik der Programmierung. Die traditionelle Programmierung ist deterministisch und präzise. KI hingegen ist probabilistisch und annähernd. Wie die Forschung gezeigt hat, ist das Ziel der KI in der Regel nicht, eine nachweislich perfekte Lösung zu finden (was für komplexe reale Probleme oft unmöglich ist), sondern eine annähernd gute Lösung zu finden. Die “Black Box”-Charakteristik der KI ist eine direkte Folge dieser Verschiebung. Wir können messen, ob sie wirksam ist, indem wir ihren Verlust oder ihre Genauigkeit bewerten, aber es ist schwierig zu erklären, wie sie mit einer schrittweisen klaren Logik funktioniert, wie wir es bei traditionellen Algorithmen können. Dies liegt daran, dass die “Lösung” der KI keine Menge von für den Menschen lesbaren Regeln ist, sondern eine hochdimensionale komplexe Funktion, die durch Millionen von optimierten numerischen Parametern codiert ist. Ihre inhärente “Logik” ist in der geometrischen Morphologie des mehrdimensionalen Raums verkörpert, der durch die Verlustfunktion gebildet wird, und nicht in den semantischen Regeln selbst.

Aufbauend auf den mathematischen Kernprinzipien hat die KI drei primäre Lernstrategien oder “Lernparadigmen” entwickelt. Diese Paradigmen werden basierend auf den Arten von Daten und Rückkopplungssignalen kategorisiert, die dem KI-System während des Trainings zur Verfügung stehen, nämlich: überwachtes Lernen, unüberwachtes Lernen und verstärkendes Lernen.

8. Überwachtes Lernen: Lernen mit einem Mentor

Überwachtes Lernen ist das am weitesten verbreitete maschinelle Lernparadigma.

  • Kernlogik: Das Modell lernt aus einem gelabelten Datensatz. In diesem Datensatz ist jede Eingabebeispiel explizit mit der richtigen Ausgabantwort gepaart. Dieser Prozess ähnelt einem Schüler, der sich mit einer Reihe von Übungen mit Standardantworten auf eine Prüfung vorbereitet.

  • Lernprozess: Das Modell trifft eine Vorhersage für ein Eingabebeispiel und vergleicht dann die Vorhersage mit dem wahren Label, wodurch der Fehler (Verlust) berechnet wird. Dann werden Optimierungsalgorithmen wie z. B. Gradientenabstieg verwendet, um die internen Parameter des Modells anzupassen, um diesen Fehler zu reduzieren.

  • Hauptaufgaben und Algorithmen:

    • Klassifizierung: Vorhersage eines diskreten Kategorielabels. Zum Beispiel die Beurteilung, ob eine E-Mail “Spam” oder “kein Spam” ist, oder die Identifizierung, ob ein Tier auf einem Bild eine “Katze” oder ein “Hund” ist. Zu den gängigen Algorithmen gehören logistische Regression, Entscheidungsbäume und Support Vector Machines (SVM).

    • Regression: Vorhersage eines kontinuierlichen numerischen Wertes. Zum Beispiel die Vorhersage