Selbstaufmerksamkeits-Transformator

Selbstaufmerksamkeit in der KI und warum sie wichtig ist

  • Selbstaufmerksamkeit beschreibt einen Transformator Modelldie Fähigkeit von , sich beim Treffen von Vorhersagen um verschiedene Teile einer Eingabesequenz zu kümmern.
  • Die Selbstaufmerksamkeit betrachtet den gesamten Kontext einer Sequenz, während die Eingabeelemente dekodiert werden. Während Encoder-Decoder-Modelle und ihre neuronalen Netze Fakten manchmal „vergessen“, wenn das Informationsfenster zu groß ist, sorgt die Selbstaufmerksamkeit dafür, dass das Fenster der Informationsspeicherung nur so groß ist wie es Bedürfnisse sein.
  • Die Fähigkeit der Selbstaufmerksamkeit, sich um verschiedene Teile derselben Eingabe in einem Transformator zu kümmern Modell Dadurch eignen sie sich für eine Reihe von NLP-Aufgaben wie die Erstellung von Bildbeschreibungen und die abstrakte Zusammenfassung.

Selbstaufmerksamkeit – manchmal auch als Intra-Aufmerksamkeit bezeichnet – ist ein maschineller Lernmechanismus, der verschiedene Positionen einer Sequenz in Beziehung setzt, um eine Darstellung dieser Sequenz zu berechnen. In der Verarbeitung natürlicher Sprache (NLP) berücksichtigt dieser Prozess normalerweise die Beziehung zwischen Wörtern im selben Satz.

Selbstaufmerksamkeit verstehen

Selbstaufmerksamkeit beschreibt einen Transformator Modelldie Fähigkeit von , sich beim Treffen von Vorhersagen um verschiedene Teile einer Eingabesequenz zu kümmern.

Die Idee der Selbstaufmerksamkeit wurde zuerst von vorgeschlagen Google Forschung und Google Brain Personal als Reaktion auf Probleme der Encoder-Decoder Modell bei langen Sequenzen auftreten. Es wurden Aufmerksamkeitsmechanismen vorgeschlagen, um Modelle zu vermeiden, die die Eingangssequenz in einen Vektor fester Länge codieren, aus dem jeder Ausgangszeitschritt decodiert wird. 

Selbstaufmerksamkeitsmechanismen funktionieren anders. In einfachen Worten, sie verarbeiten n Eingänge und Rückkehr n Ausgänge. Der Mechanismus ermöglicht es den Eingaben, miteinander zu interagieren („Selbst“), um zu bestimmen, worauf sie sich konzentrieren sollen („Aufmerksamkeit“). Die Ausgaben umfassen die Aggregate dieser Interaktionen und auch Aufmerksamkeitswerte, die auf der Grundlage einer einzelnen Eingabe berechnet werden.

Anders ausgedrückt betrachtet die Selbstaufmerksamkeit den gesamten Kontext einer Sequenz, während die Eingabeelemente dekodiert werden. Während Encoder-Decoder-Modelle Fakten manchmal „vergessen“, wenn das Informationsfenster zu groß ist, sorgt die Selbstaufmerksamkeit dafür, dass das Fenster der Informationsspeicherung nur so groß ist wie es Bedürfnisse sein.

Die drei Komponenten der Selbstaufmerksamkeit

Um besser zu verstehen, wie Selbstaufmerksamkeit funktioniert, lohnt es sich, drei grundlegende Komponenten zu beschreiben.

Abfragen, Schlüssel und Werte

Abfragen, Schlüssel und Werte umfassen verschiedene Modell Eingänge. Sucht ein Benutzer einen Begriff in Google, beispielsweise ist der Text, den sie in das Suchfeld eingeben, die Suchanfrage. Die Suchergebnisse (in Form von Artikel- und Videotiteln) sind die Schlüssel, während der Inhalt in jedem Ergebnis der Schlüssel ist Wert.

Um die besten Übereinstimmungen zu finden, muss die Abfrage bestimmen, wie ähnlich sie dem Schlüssel ist. Dies wird mit der Cosinus-Ähnlichkeitsmethode durchgeführt, einer mathematischen Methode, um Ähnlichkeiten zwischen zwei Vektoren auf a zu finden Treppe von -1 bis 1, wobei -1 am unterschiedlichsten und 1 am ähnlichsten ist.

Positionscodierung

Bevor Textdaten in maschinelle Lernmodelle eingespeist werden, müssen sie zunächst in Zahlen umgewandelt werden. Eine Einbettungsschicht wandelt jedes Wort in einen Vektor fester Länge um und jedes wird in einer Nachschlagetabelle mit seinem zugehörigen Vektor aufgelistet Wert.

Die Positionscodierung ist notwendig, da Transformer-Modelle im Gegensatz zu anderen Modellen, die Eingaben einzeln (sequenziell) einbetten, alle Eingaben gleichzeitig einbetten. Obwohl die Positionscodierung den Rahmen dieses Artikels sprengen würde, hilft sie Transformer-Modellen, schnell zu arbeiten, ohne Informationen über die Wortreihenfolge zu verlieren.

Übergeben von Abfragen, Schlüsseln und Werten

Positionsbewusste Eingabesequenzen werden in die Abfrageschicht eingespeist, aber zwei Kopien werden auch in den Schlüssel und eingespeist Wert Lagen. Warum sollte das so sein?

Die Antwort hat mit Selbstaufmerksamkeit zu tun. Die Eingabesequenz wird an die Eingabeeinbettungsschicht weitergeleitet, wo die Positionscodierung durchgeführt wird. Die positionsbewussten Einbettungen werden dann an die Abfrage- und Schlüsselschicht weitergegeben, wo sich die Ausgabe von jeder zum sogenannten Matrixmultiplikationsschritt bewegt. Das Ergebnis dieser Multiplikation wird Aufmerksamkeitsfilter genannt.

Aufmerksamkeitsfilter belegen eine Matrix aus Zufallszahlen, die mit der Zeit immer aussagekräftiger werden Modell ist trainiert. Diese Zahlen werden zu Aufmerksamkeitswerten, die dann in Werte zwischen 0 und 1 umgewandelt werden, um den endgültigen Aufmerksamkeitsfilter abzuleiten.

Im letzten Schritt wird der Aufmerksamkeitsfilter mit der Initiale multipliziert Wert Matrix. Der Filter priorisiert, wie der Name schon sagt, einige Elemente und entfernt irrelevante Elemente, um endliche Rechenressourcen zu verwalten.

Das Ergebnis der Multiplikation wird dann an eine lineare Schicht weitergegeben, um die gewünschte Ausgabe zu erhalten.

Wo ist Selbstaufmerksamkeit sinnvoll?

Selbstaufmerksamkeit ermöglicht es Transformatormodellen, sich um verschiedene Teile derselben Eingabesequenz zu kümmern, und ist daher ein wichtiger Aspekt ihrer Leistung. Diese Fähigkeit ist besonders relevant für NLP-Aufgaben, bei denen die Modell Bedürfnisse um das zu verstehen Beziehung zwischen den verschiedenen Elementen von Eingabe- und Ausgabesequenzen. 

Zu diesem Zweck wurde Selbstaufmerksamkeit erfolgreich bei Aufgaben wie abstrakter Zusammenfassung, Generierung von Bildbeschreibungen, Textfolgerungen, Leseverständnis und aufgabenunabhängiger Satzdarstellung eingesetzt.

Schlüssel-Höhepunkte

  • Selbstaufmerksamkeit beim maschinellen Lernen:
    • Selbstaufmerksamkeit oder Intraaufmerksamkeit ist ein Mechanismus beim maschinellen Lernen, der eine Darstellung einer Sequenz berechnet, indem er verschiedene Positionen innerhalb dieser Sequenz in Beziehung setzt.
    • Bei der Verarbeitung natürlicher Sprache (NLP) berücksichtigt die Selbstaufmerksamkeit das Beziehung zwischen Wörtern im selben Satz.
  • Selbstaufmerksamkeit verstehen:
    • Selbstaufmerksamkeit bezieht sich auf einen Transformator Modellist die Fähigkeit, verschiedene Teile einer Eingabesequenz zu berücksichtigen und gleichzeitig Vorhersagen zu treffen.
    • Es wurde als Reaktion auf Probleme entwickelt, mit denen der Encoder-Decoder konfrontiert ist Modell mit langen Sequenzen und Aufmerksamkeitsmechanismen, um die Vektorkodierung fester Länge zu vermeiden.
  • Arbeiten der Selbstaufmerksamkeit:
    • Die Selbstaufmerksamkeit verarbeitet n Eingaben und gibt n Ausgaben zurück, sodass Eingaben interagieren und den Fokus („Aufmerksamkeit“) bestimmen können.
    • Ausgaben sind Aggregate von Interaktionen und Aufmerksamkeitswerten, die auf der Grundlage einer einzelnen Eingabe berechnet werden.
    • Durch Selbstaufmerksamkeit wird sichergestellt, dass das Informationsfenster für den Kontext genau so groß wie nötig ist.
  • Komponenten der Selbstaufmerksamkeit:
    • Abfragen, Schlüssel und Werte sind grundlegende Komponenten, die zum Finden von Übereinstimmungen innerhalb des Selbstaufmerksamkeitsmechanismus verwendet werden.
    • Die Positionskodierung ist für die Einbettung von Eingaben in Transformatormodelle unerlässlich und trägt dazu bei, die Wortreihenfolge beizubehalten.
    • Positionsbewusste Sequenzen werden über Abfrage, Schlüssel und weitergegeben Wert Ebenen zur Berechnung von Aufmerksamkeitsfiltern.
  • Nützlichkeit der Selbstaufmerksamkeit:
    • Für Transformer-Modelle ist die Selbstaufmerksamkeit von entscheidender Bedeutung, um sich um verschiedene Teile von Eingabesequenzen zu kümmern, insbesondere bei NLP-Aufgaben.
    • Es wird erfolgreich bei Aufgaben wie der Zusammenfassung von Zusammenfassungen, der Erstellung von Bildbeschreibungen, dem Leseverständnis und der Satzdarstellung eingesetzt.

Lesen Sie weiter: Geschichte von OpenAI, KI-Geschäftsmodelle, AI Wirtschaft.

Vernetzte Geschäftsmodellanalysen

KI-Paradigma

aktuelles KI-Paradigma

Vortraining

Vortraining

Große Sprachmodelle

große-sprachmodelle-llms
Large Language Models (LLMs) sind KI-Tools, die Text lesen, zusammenfassen und übersetzen können. Auf diese Weise können sie Wörter vorhersagen und Sätze bilden, die widerspiegeln, wie Menschen schreiben und sprechen.

Generative Modelle

Generative-Modelle

Schnelles Engineering

Prompt-Engineering
Prompt Engineering ist ein Konzept zur Verarbeitung natürlicher Sprache (NLP), bei dem Eingaben entdeckt werden, die wünschenswerte oder nützliche Ergebnisse liefern. Wie bei den meisten Prozessen bestimmt die Qualität der Eingaben die Qualität der Ausgaben im Prompt Engineering. Das Entwerfen effektiver Eingabeaufforderungen erhöht die Wahrscheinlichkeit, dass die Modell wird eine Antwort zurückgeben, die sowohl günstig als auch kontextbezogen ist. Entwickelt von OpenAI, das CLIP (Contrastive Language-Image Pre-training) Modell ist ein Beispiel für eine Modell die Eingabeaufforderungen verwendet, um Bilder und Bildunterschriften aus über 400 Millionen Bild-Bildunterschrift-Paaren zu klassifizieren.

OpenAI-Organisationsstruktur

openai-organisationsstruktur
OpenAI ist ein Forschungslabor für künstliche Intelligenz, das in ein gewinnorientiertes Unternehmen umgewandelt wurde Organisation im Jahr 2019. Das Unternehmen Struktur ist um zwei Einheiten herum organisiert: OpenAI, Inc., eine Delaware LLC mit einem einzigen Mitglied, die von kontrolliert wird OpenAI gemeinnützig und OpenAI LP, die eine begrenzte, gewinnorientierte ist Organisation. Die OpenAI LP wird vom Vorstand von OpenAI, Inc (der Stiftung) geleitet, die als General Partner fungiert. Gleichzeitig bestehen Limited Partners aus Mitarbeitern der LP, einigen Vorstandsmitgliedern und anderen Investoren wie Reid Hoffmans gemeinnütziger Stiftung Khosla Ventures und Microsoft, der führende Investor in der LP.

OpenAI-Geschäftsmodell

wie-verdient-openai-geld
OpenAI hat die grundlegende Ebene der KI aufgebaut Energiegewinnung. Mit großen generativen Modellen wie GPT-3 und DALL-E bietet OpenAI API-Zugriff für Unternehmen, die Anwendungen auf der Grundlage seiner Basismodelle entwickeln möchten und gleichzeitig in der Lage sind, diese Modelle in ihre Produkte einzubinden und diese Modelle mit proprietären Daten und zusätzlicher KI anzupassen Merkmale. Andererseits wurde auch OpenAI veröffentlicht ChatGPT, Entwicklung um a Freemium Modell. Microsoft vertreibt auch Opener-Produkte durch seine Handelspartnerschaft.

OpenAI/Microsoft

openai-microsoft
OpenAI und Microsoft aus kaufmännischer Sicht zusammengeschlossen. Die Geschichte der Partnerschaft begann 2016 und konsolidierte sich 2019 mit Microsoft investiert eine Milliarde Dollar in die Partnerschaft. Es macht jetzt einen Sprung nach vorne, mit Microsoft in Gesprächen, um 10 Milliarden Dollar in diese Partnerschaft zu stecken. Microsoftentwickelt über OpenAI seinen Azure-KI-Supercomputer, verbessert gleichzeitig seine Azure-Unternehmensplattform und integriert die Modelle von OpenAI in seine Geschäft und Verbraucherprodukte (GitHub, Office, Bing).

Stabilitäts-KI-Geschäftsmodell

wie-macht-stabilität-ai-geld
Stability AI ist die Entität hinter Stable Diffusion. Stability verdient Geld mit unseren KI-Produkten und mit der Bereitstellung von KI-Beratungsdiensten für Unternehmen. Stability AI monetarisiert Stable Diffusion über die APIs von DreamStudio. Während es auch Open Source für jedermann zum Herunterladen und Verwenden freigibt. Stability AI verdient auch Geld über enterprise Dienstleistungen, wo sein Kernentwicklungsteam die Möglichkeit dazu bietet enterprise Kunden zu bedienen, Treppe, und passen Sie Stable Diffusion oder andere große generative Modelle an ihre an Bedürfnisse.

Stabilität des KI-Ökosystems

Stabilität-AI-Ökosystem

Über den Autor

Nach oben scrollen
FourWeekMBA