- Selbstaufmerksamkeit beschreibt einen Transformator Modelldie Fähigkeit von , sich beim Treffen von Vorhersagen um verschiedene Teile einer Eingabesequenz zu kümmern.
- Die Selbstaufmerksamkeit betrachtet den gesamten Kontext einer Sequenz, während die Eingabeelemente dekodiert werden. Während Encoder-Decoder-Modelle und ihre neuronalen Netze Fakten manchmal „vergessen“, wenn das Informationsfenster zu groß ist, sorgt die Selbstaufmerksamkeit dafür, dass das Fenster der Informationsspeicherung nur so groß ist wie es Bedürfnisse sein.
- Die Fähigkeit der Selbstaufmerksamkeit, sich um verschiedene Teile derselben Eingabe in einem Transformator zu kümmern Modell Dadurch eignen sie sich für eine Reihe von NLP-Aufgaben wie die Erstellung von Bildbeschreibungen und die abstrakte Zusammenfassung.
Selbstaufmerksamkeit – manchmal auch als Intra-Aufmerksamkeit bezeichnet – ist ein maschineller Lernmechanismus, der verschiedene Positionen einer Sequenz in Beziehung setzt, um eine Darstellung dieser Sequenz zu berechnen. In der Verarbeitung natürlicher Sprache (NLP) berücksichtigt dieser Prozess normalerweise die Beziehung zwischen Wörtern im selben Satz.
Selbstaufmerksamkeit verstehen
Selbstaufmerksamkeit beschreibt einen Transformator Modelldie Fähigkeit von , sich beim Treffen von Vorhersagen um verschiedene Teile einer Eingabesequenz zu kümmern.
Die Idee der Selbstaufmerksamkeit wurde zuerst von vorgeschlagen Google Forschung und Google Brain Personal als Reaktion auf Probleme der Encoder-Decoder Modell bei langen Sequenzen auftreten. Es wurden Aufmerksamkeitsmechanismen vorgeschlagen, um Modelle zu vermeiden, die die Eingangssequenz in einen Vektor fester Länge codieren, aus dem jeder Ausgangszeitschritt decodiert wird.
Selbstaufmerksamkeitsmechanismen funktionieren anders. In einfachen Worten, sie verarbeiten n Eingänge und Rückkehr n Ausgänge. Der Mechanismus ermöglicht es den Eingaben, miteinander zu interagieren („Selbst“), um zu bestimmen, worauf sie sich konzentrieren sollen („Aufmerksamkeit“). Die Ausgaben umfassen die Aggregate dieser Interaktionen und auch Aufmerksamkeitswerte, die auf der Grundlage einer einzelnen Eingabe berechnet werden.
Anders ausgedrückt betrachtet die Selbstaufmerksamkeit den gesamten Kontext einer Sequenz, während die Eingabeelemente dekodiert werden. Während Encoder-Decoder-Modelle Fakten manchmal „vergessen“, wenn das Informationsfenster zu groß ist, sorgt die Selbstaufmerksamkeit dafür, dass das Fenster der Informationsspeicherung nur so groß ist wie es Bedürfnisse sein.
Die drei Komponenten der Selbstaufmerksamkeit
Um besser zu verstehen, wie Selbstaufmerksamkeit funktioniert, lohnt es sich, drei grundlegende Komponenten zu beschreiben.
Abfragen, Schlüssel und Werte
Abfragen, Schlüssel und Werte umfassen verschiedene Modell Eingänge. Sucht ein Benutzer einen Begriff in Google, beispielsweise ist der Text, den sie in das Suchfeld eingeben, die Suchanfrage. Die Suchergebnisse (in Form von Artikel- und Videotiteln) sind die Schlüssel, während der Inhalt in jedem Ergebnis der Schlüssel ist Wert.
Um die besten Übereinstimmungen zu finden, muss die Abfrage bestimmen, wie ähnlich sie dem Schlüssel ist. Dies wird mit der Cosinus-Ähnlichkeitsmethode durchgeführt, einer mathematischen Methode, um Ähnlichkeiten zwischen zwei Vektoren auf a zu finden Treppe von -1 bis 1, wobei -1 am unterschiedlichsten und 1 am ähnlichsten ist.
Positionscodierung
Bevor Textdaten in maschinelle Lernmodelle eingespeist werden, müssen sie zunächst in Zahlen umgewandelt werden. Eine Einbettungsschicht wandelt jedes Wort in einen Vektor fester Länge um und jedes wird in einer Nachschlagetabelle mit seinem zugehörigen Vektor aufgelistet Wert.
Die Positionscodierung ist notwendig, da Transformer-Modelle im Gegensatz zu anderen Modellen, die Eingaben einzeln (sequenziell) einbetten, alle Eingaben gleichzeitig einbetten. Obwohl die Positionscodierung den Rahmen dieses Artikels sprengen würde, hilft sie Transformer-Modellen, schnell zu arbeiten, ohne Informationen über die Wortreihenfolge zu verlieren.
Übergeben von Abfragen, Schlüsseln und Werten
Positionsbewusste Eingabesequenzen werden in die Abfrageschicht eingespeist, aber zwei Kopien werden auch in den Schlüssel und eingespeist Wert Lagen. Warum sollte das so sein?
Die Antwort hat mit Selbstaufmerksamkeit zu tun. Die Eingabesequenz wird an die Eingabeeinbettungsschicht weitergeleitet, wo die Positionscodierung durchgeführt wird. Die positionsbewussten Einbettungen werden dann an die Abfrage- und Schlüsselschicht weitergegeben, wo sich die Ausgabe von jeder zum sogenannten Matrixmultiplikationsschritt bewegt. Das Ergebnis dieser Multiplikation wird Aufmerksamkeitsfilter genannt.
Aufmerksamkeitsfilter belegen eine Matrix aus Zufallszahlen, die mit der Zeit immer aussagekräftiger werden Modell ist trainiert. Diese Zahlen werden zu Aufmerksamkeitswerten, die dann in Werte zwischen 0 und 1 umgewandelt werden, um den endgültigen Aufmerksamkeitsfilter abzuleiten.
Im letzten Schritt wird der Aufmerksamkeitsfilter mit der Initiale multipliziert Wert Matrix. Der Filter priorisiert, wie der Name schon sagt, einige Elemente und entfernt irrelevante Elemente, um endliche Rechenressourcen zu verwalten.
Das Ergebnis der Multiplikation wird dann an eine lineare Schicht weitergegeben, um die gewünschte Ausgabe zu erhalten.
Wo ist Selbstaufmerksamkeit sinnvoll?
Selbstaufmerksamkeit ermöglicht es Transformatormodellen, sich um verschiedene Teile derselben Eingabesequenz zu kümmern, und ist daher ein wichtiger Aspekt ihrer Leistung. Diese Fähigkeit ist besonders relevant für NLP-Aufgaben, bei denen die Modell Bedürfnisse um das zu verstehen Beziehung zwischen den verschiedenen Elementen von Eingabe- und Ausgabesequenzen.
Zu diesem Zweck wurde Selbstaufmerksamkeit erfolgreich bei Aufgaben wie abstrakter Zusammenfassung, Generierung von Bildbeschreibungen, Textfolgerungen, Leseverständnis und aufgabenunabhängiger Satzdarstellung eingesetzt.
Schlüssel-Höhepunkte
- Selbstaufmerksamkeit beim maschinellen Lernen:
- Selbstaufmerksamkeit oder Intraaufmerksamkeit ist ein Mechanismus beim maschinellen Lernen, der eine Darstellung einer Sequenz berechnet, indem er verschiedene Positionen innerhalb dieser Sequenz in Beziehung setzt.
- Bei der Verarbeitung natürlicher Sprache (NLP) berücksichtigt die Selbstaufmerksamkeit das Beziehung zwischen Wörtern im selben Satz.
- Selbstaufmerksamkeit verstehen:
- Selbstaufmerksamkeit bezieht sich auf einen Transformator Modellist die Fähigkeit, verschiedene Teile einer Eingabesequenz zu berücksichtigen und gleichzeitig Vorhersagen zu treffen.
- Es wurde als Reaktion auf Probleme entwickelt, mit denen der Encoder-Decoder konfrontiert ist Modell mit langen Sequenzen und Aufmerksamkeitsmechanismen, um die Vektorkodierung fester Länge zu vermeiden.
- Arbeiten der Selbstaufmerksamkeit:
- Die Selbstaufmerksamkeit verarbeitet n Eingaben und gibt n Ausgaben zurück, sodass Eingaben interagieren und den Fokus („Aufmerksamkeit“) bestimmen können.
- Ausgaben sind Aggregate von Interaktionen und Aufmerksamkeitswerten, die auf der Grundlage einer einzelnen Eingabe berechnet werden.
- Durch Selbstaufmerksamkeit wird sichergestellt, dass das Informationsfenster für den Kontext genau so groß wie nötig ist.
- Komponenten der Selbstaufmerksamkeit:
- Abfragen, Schlüssel und Werte sind grundlegende Komponenten, die zum Finden von Übereinstimmungen innerhalb des Selbstaufmerksamkeitsmechanismus verwendet werden.
- Die Positionskodierung ist für die Einbettung von Eingaben in Transformatormodelle unerlässlich und trägt dazu bei, die Wortreihenfolge beizubehalten.
- Positionsbewusste Sequenzen werden über Abfrage, Schlüssel und weitergegeben Wert Ebenen zur Berechnung von Aufmerksamkeitsfiltern.
- Nützlichkeit der Selbstaufmerksamkeit:
- Für Transformer-Modelle ist die Selbstaufmerksamkeit von entscheidender Bedeutung, um sich um verschiedene Teile von Eingabesequenzen zu kümmern, insbesondere bei NLP-Aufgaben.
- Es wird erfolgreich bei Aufgaben wie der Zusammenfassung von Zusammenfassungen, der Erstellung von Bildbeschreibungen, dem Leseverständnis und der Satzdarstellung eingesetzt.
Lesen Sie weiter: Geschichte von OpenAI, KI-Geschäftsmodelle, AI Wirtschaft.
Vernetzte Geschäftsmodellanalysen
KI-Paradigma
Stabilitäts-KI-Geschäftsmodell
Stabilität des KI-Ökosystems