Überwachtes vs. unüberwachtes Lernen beschreibt zwei Haupttypen von Aufgaben im Bereich des maschinellen Lernens. Beim überwachten Lernen bringt der Forscher dem Algorithmus die Schlussfolgerungen oder Vorhersagen bei, die er treffen soll. Beim unüberwachten Lernen ist die Modell verfügt über Algorithmen, die in der Lage sind, Daten zu entdecken und daraus Schlüsse zu ziehen. Es gibt keinen Lehrer oder eine einzige richtige Antwort. Die Maschine lernt also selbst dazu.
Überwachtes vs. unüberwachtes Lernen
Was ist überwachtes Lernen?
Beim überwachten Lernen wird eine Maschine mit gut gekennzeichneten Daten trainiert. Mit anderen Worten, einige Eingabedaten sind bereits mit der richtigen Antwort gekennzeichnet.
Was ist unüberwachtes Lernen?
Beim unüberwachten Lernen hingegen wird eine Maschine mit Daten trainiert, die weder gekennzeichnet noch klassifiziert sind. In diesem Fall handelt der Algorithmus auf Informationen und zieht Schlussfolgerungen ohne menschliche Führung.
Wahl zwischen überwachtem und unüberwachtem Ansatz
Maschinelle Lernalgorithmen werden entsprechend den verfügbaren Daten und der vorliegenden Forschungsfrage trainiert. Aber in jedem Fall werden Forscher, die das Ziel des maschinellen Lernalgorithmus nicht identifizieren können, nicht in der Lage sein, ein genaues zu erstellen Modell.
Im Wesentlichen die Fähigkeit, eine genaue zu bauen Modell kommt auf die Wahl an. Algorithmen können mit einem von zwei Modellen trainiert werden, die ihnen helfen, Vorhersagen über Daten zu treffen:
- Überwachtes Lernen – bei dem der Forscher dem Algorithmus die Schlussfolgerungen oder Vorhersagen beibringt, die er machen sollte.
- Unüberwachtes Lernen – bei dem der Algorithmus sich selbst überlassen ist, um Daten zu entdecken und dann Rückschlüsse auf sie zu ziehen. Es gibt keinen Lehrer oder auch nur eine einzige richtige Antwort.
Die nächsten Abschnitte werden sich mit jedem befassen Modell im Detail.
Überwachtes Lernen
Beim überwachten Lernen bringt der Forscher dem Algorithmus bei, gut gekennzeichnete Daten zu verwenden. Das heißt, einige der Daten sind bereits mit der richtigen Antwort gekennzeichnet. Dann wird dem Algorithmus ein neuer Satz von Beispielen bereitgestellt, die als Trainingsdaten bezeichnet werden und die er verwendet, um auf der Grundlage der gekennzeichneten Daten ein korrektes Ergebnis zu erzielen.
Probleme beim überwachten Lernen können wie folgt kategorisiert werden:
- Klassifizierungsprobleme – wobei die Ausgabevariable eine Kategorie wie „grün“ und „gelb“ oder „ja“ und „nein“ ist. Beispiele sind Spam-Erkennung, Gesichtserkennung Analyse, und die automatische Benotung von Prüfungen.
- Regressionsprobleme – wo die Ausgabevariable reell ist Wert, wie „Dollar“ oder „Kilogramm“. Regressionsalgorithmen (lineare Regressionsmodelle) werden in jedem Szenario verwendet, das eine Vorhersage numerischer Werte auf der Grundlage früherer Beobachtungen erfordert. Beispiele sind Haus und Lager Packete Vorhersagen und Wettervorhersagen.
Überwachte Lernalgorithmen
Beachten Sie, dass mehrere Algorithmen und Berechnungstechniken in einem überwachten Lernprozess verwendet werden. Nachfolgend finden Sie eine kurze Beschreibung einiger der gebräuchlicheren Techniken.
Neuronale Netze
Um Trainingsdaten zu verarbeiten, ahmen neuronale Netze die Interkonnektivität eines menschlichen Gehirns mit verschiedenen Ebenen von Knoten nach. Jeder dieser Knoten besteht aus Eingaben, Gewichtungen, einem Schwellenwert und einer Ausgabe. Bei der Ausgabe Wert den Schwellenwert überschreitet, aktiviert es den Knoten und übergibt Daten an die nächste Schicht in der Netzwerk.
Neuronale Netze werden hauptsächlich in Deep-Learning-Algorithmen verwendet, die einige der oben erwähnten Regressionsprobleme lösen.
K-nächster Nachbar
Der K-nearest-neighbour (KNN)-Algorithmus klassifiziert Datenpunkte gemäß ihrer Zuordnung und Nähe zu den anderen verfügbaren Daten. Der KNN-Algorithmus geht also davon aus, dass die ähnlichsten Datenpunkte diejenigen sind, die sich in unmittelbarer Nähe befinden. Es berechnet zuerst den Abstand zwischen Datenpunkten und ordnet dann eine Kategorie basierend auf ihrer Häufigkeit oder ihrem Durchschnitt zu.
KNN ist der bevorzugte überwachte Lernalgorithmus für Datenwissenschaftler, da er einfach zu bedienen ist und eine geringe Rechenzeit bietet. Mit zunehmender Größe des Datensatzes steigt jedoch auch die Verarbeitungszeit. Dadurch eignet es sich weniger für Klassifizierungsaufgaben und besser für die Verwendung in Bilderkennungs- und Empfehlungsmaschinen.
Lineare und logistische Regression
Die lineare Regression macht Vorhersagen über zukünftige Ergebnisse, indem sie die bestimmt Beziehung zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen.
Die logistische Regression wird gewählt, wenn die abhängigen Variablen kategorial sind. Daher eignen sie sich tendenziell am besten für Klassifizierungsprobleme mit binären Ausgaben wie etwa der Spam-Erkennung.
Zufälliger Wald
Ein Random Forest wird aus Entscheidungsbaumalgorithmen konstruiert und kann sowohl für Regressions- als auch für Klassifizierungsprobleme verwendet werden. Entscheidungsbäume bilden die Grundlage des Random Forest und bestehen aus drei Komponenten: Blattknoten, Entscheidungsknoten und einem Wurzelknoten. Knoten stellen die Attribute dar, die verwendet werden, um Ergebnisse vorherzusagen.
Der Baum unterteilt den Datensatz in Zweige, die sich weiter in andere Zweige aufteilen und so weiter. Der Prozess wird fortgesetzt, bis ein Blattknoten erreicht wird, der nicht weiter unterteilt werden kann. Einige der wichtigsten Anwendungen sind:
- Bankwesen – um die Kreditwürdigkeit eines Kreditantragstellers zu ermitteln.
- Gesundheitsversorgung – um Patienten anhand ihrer Krankengeschichte zu diagnostizieren und
- E-Commerce – zur Vorhersage von Verbraucherpräferenzen auf der Grundlage des vergangenen Konsumverhaltens.
Unbeaufsichtigtes Lernen
Beim unüberwachten Lernen wird ein Algorithmus mit Informationen trainiert, die weder gekennzeichnet noch klassifiziert sind. Stattdessen muss der Algorithmus unsortierte Informationen nach Mustern oder Ähnlichkeiten in den Daten gruppieren ohne vorherige Ausbildung.
Unüberwachte Lernalgorithmen werden häufig verwendet in:
- Clustering-Aufgaben – wo die Tor ist es, inhärente Gruppierungen in den Daten zu entdecken. Zum Beispiel ein Marketing Agentur kann einen Algorithmus verwenden, um eine Zielgruppe nach Kaufverhalten zu segmentieren.
- Dimensionalitätsaufgaben – bei denen der Algorithmus versucht, die Anzahl der Variablen, Merkmale oder Merkmale in einem Datensatz zu reduzieren. Da einige dieser Dimensionen korreliert sind, können redundante oder wiederholte Informationen das Datensatzrauschen erhöhen und das Training beeinträchtigen Leistung dauert ebenfalls 3 Jahre. Das erste Jahr ist das sog. Modell. Diese Technik wird häufig in der Datenvorverarbeitungsphase verwendet, beispielsweise wenn Rauschen aus visuellen Daten entfernt wird, um die Bildqualität zu verbessern.
- Assoziationsaufgaben – bei denen der Algorithmus Assoziationsregeln in den Daten finden muss. Das gleiche Marketing Die Agentur kann sich ansehen, was Verbraucher nach dem Kauf eines bestimmten Produkts kaufen oder tun PRODUKTE. Diese Aufgaben bilden auch die Grundlage für Empfehlungsmaschinen, die „Kunden, die dies gekauft haben PRODUKTE auch gekauft" Mitteilungen.
- Anomalieaufgaben – bei denen der Algorithmus die Daten nach seltenen Gegenständen oder Ereignissen durchsucht. Viele Revolution Institutionen verwenden Anomaliealgorithmen, um Fälle von Betrug in Bankkonten aufzudecken. Virenschutz Software. verwendet auch eine ähnliche Technologie, um Malware zu identifizieren.
Andere unüberwachte Lernaufgaben
Während Clustering-, Dimensionalitäts-, Assoziations- und Anomalieaufgaben einige der häufigsten Aufgaben sind, denen ein nicht überwachter Lernalgorithmus begegnet, gibt es andere Arten.
Dichteschätzung
Dichteschätzung, die ihre Wurzeln in der Statistik hat Analyse, schätzt die Dichte der Verteilung von Datenpunkten. Beim maschinellen Lernen wird die Dichteschätzung in Verbindung mit Anomalieaufgaben verwendet, da Datenpunkte in Regionen mit geringer Dichte dazu neigen, Ausreißer zu sein.
Das Verteilung von Datenpunkten wird formal als Wahrscheinlichkeitsdichtefunktion (PDF) bezeichnet. Damit kann bestimmt werden, ob das Auftreten eines bestimmten Ausreißers unwahrscheinlich ist oder ob sein Auftreten so unwahrscheinlich ist, dass er aus dem Datensatz entfernt werden sollte.
Lernen von Assoziationsregeln
Das Lernen von Assoziationsregeln ist eine weitere nicht überwachte Lernaufgabe, die hauptsächlich von Unternehmen zur Gewinnmaximierung verwendet wird. Es analysiert Datensätze, um Beziehungen zwischen Variablen zu entdecken, die nicht offensichtlich sind, und erfordert einen komplexen Algorithmus wie Apriori, FP-Growth oder Eclat.
Eine Anwendung des Assoziationsregellernens ist PRODUKTE Platzierung. Stellen Sie sich einen Supermarkt vor, der einen Transaktionsdatensatz analysiert, um festzustellen, dass Verbraucher oft Brot mit Milch und Zwiebeln mit Kartoffeln kaufen.
Basierend auf den Beziehungen, die der Algorithmus erkennt, kann der Supermarkt die Artikel dann zur Maximierung nahe beieinander platzieren Einnahmen und Gewinne. Erkenntnisse aus diesen Beziehungen können auch für Werbezwecke verwendet werden gebühr funktioniert Marketing Kampagnen
Wahl zwischen überwachtem und unüberwachtem Lernen
Maschinelles Lernen ist ein weites Feld und daher kann die Auswahl des richtigen maschinellen Lernverfahrens schwierig und ressourcenintensiv sein.
Ganz allgemein gilt es aber, diese Hinweise zu bewerten:
- Daten auswerten. Vielleicht ein offensichtlicher Punkt, aber einer, der erwähnenswert ist. Ist es beschriftet oder unbeschriftet? Könnte eine Expertenberatung eine zusätzliche Kennzeichnung erleichtern?
- Definiere das Tor. Ist das Problem definiert und wird es wahrscheinlich wieder auftreten? Oder hat ein Algorithmus eine bessere Chance, unbekannte Probleme frühzeitig zu erkennen?
- Überprüfen Sie die verfügbaren Algorithmen. Welche sind in Bezug auf die Anzahl der Merkmale, Attribute oder Merkmale am besten für das Problem geeignet? Die Wahl des Algorithmus sollte auch gesamtsensibel sein Struktur und Menge der zu analysierenden Daten.
- Studieren Sie historische Anwendungen. Wo wurde der Algorithmus bereits erfolgreich eingesetzt? Erwägen Sie, sich an Organisationen oder Einzelpersonen zu wenden, die nachweislich über Fähigkeiten in einem vergleichbaren Bereich verfügen.
Zusammenfassung der Kernunterschiede
Lassen Sie uns zum Abschluss dieses Vergleichs von überwachtem und unüberwachtem Lernen die wichtigsten Unterschiede anhand einer Reihe von Parametern erörtern.
- Eingabedaten – Überwachte Lernalgorithmen werden mit gekennzeichneten Daten trainiert, während unüberwachte Algorithmen dies nicht tun.
- Rechnerische Komplexität – Überwachtes Lernen ist eine einfachere Methode, die nur ein Programm wie Python oder R erfordert. Der unüberwachte Ansatz ist komplexer und erfordert daher leistungsfähigere Werkzeuge.
- Genauigkeit und Klassen – überwachtes Lernen ist genauer, vertrauenswürdiger und die Anzahl der Klassen ist bekannt. Die Anzahl der Klassen ist beim unbeaufsichtigten Lernen nicht bekannt und tendenziell weniger genau und vertrauenswürdig.
- Daten Analyse – Während überwachtes Lernen Offline-Daten analysiert, analysiert der unüberwachte Ansatz Daten in Echtzeit.
- Ziel – Ziel des überwachten Lernens ist es, Ergebnisse für neue Daten vorherzusagen. Das Ziel des unüberwachten Lernens ist das Sammeln von Daten neue Einblicke basierend auf was die Modell bestimmt ist interessant oder anders.
- Mögliche Nachteile – überwachtes Lernen ist ein Trainingsansatz, der Zeit und menschliches Fachwissen erfordert. Andererseits kann unüberwachtes Lernen zu ungenauen oder wertlosen Ergebnissen führen, es sei denn, es gibt einen Menschen, der die Ausgabevariablen validiert.
Die zentralen Thesen
- Beim überwachten Lernen wird eine Maschine mit gut gekennzeichneten Daten trainiert. Mit anderen Worten, einige Eingabedaten sind bereits mit der richtigen Antwort gekennzeichnet. Beim unüberwachten Lernen wird eine Maschine mit Daten trainiert, die weder gekennzeichnet noch klassifiziert sind.
- Beim überwachten Lernen bringt der Forscher dem Algorithmus bei, zu einer gewünschten Antwort zu gelangen, wenn beschriftete Datenpunkte gegeben sind. Es hat Anwendungen in der Prüfungsbewertung, Gesichtserkennung und Wettervorhersage.
- Beim unüberwachten Lernen muss der Algorithmus unsortierte Informationen gruppieren, die ohne Anweisung weder gekennzeichnet noch klassifiziert werden. Unüberwachtes Lernen hat wichtige Verwendungszwecke bei der Erkennung von Bankbetrug und Malware. Es wird auch verwendet, um Muster im Kaufverhalten der Verbraucher zu identifizieren.
Vernetzte KI-Konzepte
KI-Paradigma






Deep Learning vs. maschinelles Lernen



Operationen für maschinelles Lernen




Stabilitäts-KI-Geschäftsmodell

Stabilität des KI-Ökosystems

Wichtigste kostenlose Anleitungen: