Die Transformer-Architektur – manchmal auch als Transformer Neural bezeichnet Netzwerk oder Transformator Modell – ist eine Architektur, die bestrebt ist, Sequenz-zu-Sequenz-Aufgaben zu lösen und gleichzeitig weitreichende Abhängigkeiten problemlos zu handhaben.
Verständnis der Transformatorarchitektur
Die Transformatorarchitektur wurde zuerst von einem Team von vorgeschlagen Google Forscher in einem Papier aus dem Jahr 2017 mit dem Titel Aufmerksamkeit ist alles was Sie brauchen. Diese Modelle gehören zu den leistungsstärksten, die bisher erfunden wurden, und sind für eine Welle von verantwortlich Innovation im maschinellen Lernen.
Tatsächlich glaubten die Wissenschaftler der Stanford University im Jahr 2021, dass Transformer (die sie Foundation Models nannten) einen Paradigmenwechsel in der KI vorangetrieben hätten, so dass die „schier Treppe und Umfang der Stiftungsmodelle haben in den letzten Jahren unsere Vorstellungskraft an die Grenzen des Machbaren gebracht."
Die Transformer-Architektur besteht aus einem Neural Netzwerk das Kontext und Bedeutung versteht, indem es Beziehungen in sequentiellen Daten analysiert. Bei der Verarbeitung natürlicher Sprache (NLP) sind diese Daten die Wörter in einem Satz.
Die Architektur nimmt einen Kodierer-Dekodierer an Struktur. Der Codierer auf der linken Seite der Architektur extrahiert Merkmale aus einer Eingangssequenz, während der Decodierer auf der rechten Seite diese Merkmale verwendet, um die Ausgangssequenz zu erzeugen.
Beachten Sie, dass jeder Schritt in einem Transformator ist Modell ist autoregressiv. Das bedeutet, dass die zuvor generierten Labels als zusätzliche Eingabe verwendet werden, um nachfolgende Labels zu generieren.
Die Evolution von NLP-Modellen
Maschinelle Lernmodelle, die Text verarbeiten, müssen nicht nur jedes Wort berechnen, sondern auch bestimmen, wie sich die Wörter zu einem zusammenhängenden Text zusammenfügen. Vor Transformern waren komplexe rekurrente neuronale Netze (RNNs) die Standard-NLP-Prozessoren.
RNNs verarbeiten das erste Wort und speisen es dann zurück in die Schicht, die das nächste Wort verarbeitet. Diese Methode ermöglicht zwar die Modell Um den Satz zu verfolgen, ist es ineffizient und zu langsam, die Vorteile von leistungsstarken GPUs zu nutzen, die für Training und Inferenz verwendet werden.
RNNs sind auch für lange Textfolgen ungeeignet. Als die Modell tiefer in einen Ausschnitt hineinwächst, verblasst die Wirkung der ersten Wörter im Satz. Dies ist als verschwindender Gradienteneffekt bekannt und ist besonders ausgeprägt, wenn zwei verbundene (zusammengehörige) Wörter in einem Satz weit voneinander entfernt sind.
Die Entwicklung von RNNs
Um die subtilen Wege zu erkennen, auf denen entfernte Wörter Sätze beeinflussen und voneinander abhängen, verwendet die Transformer-Architektur eine Reihe mathematischer Techniken, die als Selbstaufmerksamkeit bezeichnet werden. Diese sogenannten „Aufmerksamkeitsmechanismen“ ermöglichen es Transformern, Wortbeziehungen über sehr lange Textsequenzen sowohl vorwärts als auch rückwärts zu verfolgen.
Wichtig ist, dass Transformer auch Datensequenzen parallel verarbeiten können. Dadurch können die Geschwindigkeit und Kapazität sequentieller Deep-Learning-Modelle in Raten skaliert werden, die noch vor wenigen Jahren für unmöglich gehalten wurden. Heute, rund 70 % der AI-Papiere die im arXiv-Repository der Cornell University veröffentlicht wurden, erwähnen Transformatormodelle.
Wo werden Transformatorarchitekturen eingesetzt?
Transformer-Architekturen können Sprache und Text nahezu in Echtzeit verarbeiten und sind die Grundlage von OpenAI's beliebte GPT-2- und GPT-3-Modelle. Google und ähnliche Plattformen verwenden sie auch für Suchanfragen von Benutzern.
Seit ihrer Einführung im Jahr 2017 sind mehrere Transformatorvarianten entstanden und haben sich in andere Branchen ausgebreitet. Transformers sind eine entscheidende Komponente von DeepMinds AlphaFold, einem Protein Struktur Prognose Modell verwendet, um das therapeutische Medikament zu beschleunigen Design verarbeiten.
Quellcodegenerierung von OpenAI Modell Codex wird auch durch eine Transformer-Architektur untermauert und sie haben auch Convolutional Neural Networks (CNNs) im KI-Bereich des Computers ersetzt Seh-.
Die zentralen Thesen:
- Die Transformer-Architektur ist eine Architektur, die danach strebt, Sequenz-zu-Sequenz-Aufgaben zu lösen, während weitreichende Abhängigkeiten einfach gehandhabt werden.
- Maschinelle Lernmodelle, die Text verarbeiten, müssen nicht nur jedes Wort berechnen, sondern auch bestimmen, wie sich die Wörter zu einem zusammenhängenden Text zusammenfügen. Vor Transformern waren komplexe rekurrente neuronale Netze (RNNs) die Standard-NLP-Prozessoren. Aber RNNs sind ineffizient und zu langsam, um von leistungsstarken GPUs zu profitieren.
- Transformer können GPUs nutzen und Datensequenzen parallel verarbeiten. Dadurch können Deep-Learning-Modelle mit Raten skaliert werden, die sie für andere Anwendungen wie medizinische Forschung, Quellcodegenerierung und Computer nützlich gemacht haben Seh-.
Vernetzte KI-Konzepte

Deep Learning vs. maschinelles Lernen



Operationen für maschinelles Lernen




Stabilitäts-KI-Geschäftsmodell

Stabilität des KI-Ökosystems

Wichtigste kostenlose Anleitungen: