Im Kontext von KI beschreibt Pre-Training den Prozess des Trainings a Modell mit einer Task, damit sie Parameter zur Verwendung in anderen Tasks bilden kann.
Inhaltsverzeichnis
Vortraining, eine Schlüsselkomponente des aktuellen KI-Paradigmas
Vortrainiert hat sich als einer der wichtigsten Aspekte des aktuellen KI-Paradigmas herausgestellt, bei dem große Sprachmodelle, um sie in Allzweck-Engines umzuwandeln, vortrainiert werden müssen.
Das Vortraining wird daher durch eine Transformer-Architektur zum Sprungbrett für die Entwicklung der KI Modell extrem vielseitig und in der Lage, über Aufgaben hinweg zu verallgemeinern, was der Kern ist Innovation darüber, was KI gerade jetzt wirtschaftlich rentabel gemacht hat.
Vorschulung verstehen
Die Vorschulung in künstlicher Intelligenz ist zumindest teilweise davon inspiriert, wie Menschen lernen. Anstatt ein Thema von Grund auf neu lernen zu müssen, übertragen und verwenden wir vorhandenes Wissen neu, um neue Ideen zu verstehen und verschiedene Aufgaben zu bewältigen.
Bei einer KI Modell, entfaltet sich ein ähnlicher Prozess. Die Modell wird zuerst an einer Aufgabe oder einem Datensatz trainiert, wobei die resultierenden Parameter zum Trainieren einer anderen verwendet werden Modell auf einer anderen Aufgabe oder einem anderen Datensatz. In der Tat, die Modell kann eine neue Aufgabe basierend auf früheren Erfahrungen ausführen.
Einer der kritischsten Aspekte des Vortrainings ist die Aufgabenbezogenheit oder die Idee, dass die Aufgabe die Modell Das Lernen muss zunächst der Aufgabe ähneln, die es in Zukunft erfüllen wird. Zum Beispiel ein Modell für die Objekterkennung trainierte könnten später nicht zur Vorhersage des Wetters verwendet werden.
Methoden vor dem Training
Hier sind einige der Möglichkeiten, wie das Vortraining im Bereich der Verarbeitung natürlicher Sprache durchgeführt wird.
Word2vec
Entwickelt von Google, Word2vec ist ein Tool, das statische Worteinbettung erzeugt und durch Messung der Wort-zu-Wort-Ähnlichkeit auf Millionen von Wörtern trainiert werden kann. Word2Vec ist Teil einer Familie verwandter Modelle, die darauf trainiert sind, sprachliche Wortkontexte zu konstruieren.
Das Modell, veröffentlicht im Jahr 2013, kann einmal trainierte synonyme Wörter erkennen und zusätzliche Wörter für einen Teilsatz vorschlagen.
GPT
GPT ist eine Transformer-Decoder-basierte Sprache Modell basierend auf der Kernprämisse der Selbstaufmerksamkeit. Um eine Darstellung einer gegebenen Eingabesequenz zu berechnen, muss die Modell kann sich um verschiedene Positionen dieser Sequenz kümmern.
GPT wird über zwei Stufen trainiert. In der ersten Stufe Schöpfer OpenAI verwendet ein Sprachmodellierungsziel für unbeschriftete Daten, um die Anfangsparameter zu lernen. Dann werden diese Parameter unter Verwendung des entsprechenden überwachten Ziels an eine Zielaufgabe (auch als Trainingsbeispiel bezeichnet) angepasst.
BERT
BERT ist eine weitere Transformer-Decoder-basierte Sprache Modell das wird zunächst an einer großen Textmenge wie Wikipedia trainiert.
BERT ist eine Feinabstimmung und Encoder-basiert Modell das über eine bidirektionale Sprache verfügt Modell. Anstelle des Wortschutzes von links nach rechts, den Decoder-basierte Modelle wie GPT verwenden, arbeitet BERT auf der Grundlage von zwei neuen Aufgaben.
Die erste Pretraining-Aufgabe der Modell ist als Masked Language Model (MLM) bekannt, bei dem 15 % der Wörter zufällig maskiert werden und BERT gebeten wird, sie vorherzusagen. Wie bereits erwähnt, kann BERT Wörter in beide Richtungen vorhersagen.
Die zweite Aufgabe bezieht sich auf Modell Eingang. BERT verwendet Wörter nicht als Token, sondern als Wortstücke. Zum Beispiel ist das Wort „arbeiten“ „arbeiten“ und „ing“ statt „arbeiten“. Die Modell fügt dann Positionseinbettung hinzu, um a zu vermeiden Schwäche der Selbstaufmerksamkeit, wo Wortpositionsinformationen ignoriert werden.
Die zentralen Thesen
Im Kontext von KI beschreibt Pre-Training den Prozess des Trainings a Modell mit einer Task, damit sie Parameter zur Verwendung in anderen Tasks bilden kann.
Das Modell wird zuerst an einer Aufgabe oder einem Datensatz trainiert, wobei die resultierenden Parameter zum Trainieren einer anderen verwendet werden Modell auf einer anderen Aufgabe oder einem anderen Datensatz. Im Wesentlichen die Modell kann eine neue Aufgabe basierend auf früheren Erfahrungen ausführen.
Drei Vortrainingsmethoden umfassen Word2vec, GPT und BERT. Jeder Modell hat seine eigene Art, die Daten zu lernen, um Vorhersagen zu treffen.
Verallgemeinerte KI besteht aus Geräten oder Systemen, die alle möglichen Aufgaben selbstständig erledigen können. Die Erweiterung der generalisierten KI führte schließlich zur Entwicklung des maschinellen Lernens. Als Erweiterung der KI analysiert maschinelles Lernen (ML) eine Reihe von Computeralgorithmen, um ein Programm zu erstellen, das Aktionen automatisiert. Ohne explizite Programmierung von Aktionen können Systeme lernen und das Gesamterlebnis verbessern. Es untersucht große Datensätze, um gemeinsame Muster zu finden und analytische Modelle durch Lernen zu formulieren.
Maschinelles Lernen ist eine Teilmenge der künstlichen Intelligenz, bei der Algorithmen Daten analysieren, aus Erfahrungen lernen und in Zukunft bessere Entscheidungen treffen. Deep Learning ist eine Teilmenge des maschinellen Lernens, bei der zahlreiche Algorithmen in Schichten strukturiert werden, um künstliche neuronale Netze (KNNs) zu erstellen. Diese Netzwerke können komplexe Probleme lösen und es der Maschine ermöglichen, sich selbst zu trainieren, um eine Aufgabe auszuführen.
DevOps bezieht sich auf eine Reihe von Praktiken, die zur Automatisierung durchgeführt werden Software. Entwicklungsprozesse. Es ist eine Konjugation der Begriffe „Entwicklung“ und „Betrieb“, um zu betonen, wie sich Funktionen über IT-Teams hinweg integrieren. DevOps-Strategien fördern das nahtlose Erstellen, Testen und Bereitstellen von Produkten. Es zielt darauf ab, eine Lücke zwischen Entwicklungs- und Betriebsteams zu schließen, um die Entwicklung insgesamt zu rationalisieren.
AIOps ist die Anwendung künstlicher Intelligenz auf den IT-Betrieb. Es ist für die moderne IT besonders nützlich geworden Management in hybridisierten, verteilten und dynamischen Umgebungen. AIOps ist zu einer zentralen operativen Komponente von Modern geworden digital-basierte Organisationen, gebaut um Software. und Algorithmen.
Machine Learning Ops (MLOps) beschreibt eine Reihe von Best Practices, die erfolgreich helfen a Geschäft künstliche Intelligenz betreiben. Es besteht aus den Fähigkeiten, Arbeitsabläufen und Prozessen zum Erstellen, Ausführen und Warten von Modellen für maschinelles Lernen, um verschiedene betriebliche Prozesse in Organisationen zu unterstützen.
OpenAI ist ein Forschungslabor für künstliche Intelligenz, das in ein gewinnorientiertes Unternehmen umgewandelt wurde Organisation im Jahr 2019. Das Unternehmen Struktur ist um zwei Einheiten herum organisiert: OpenAI, Inc., eine Delaware LLC mit einem einzigen Mitglied, die von der gemeinnützigen OpenAI kontrolliert wird, und OpenAI LP, die eine begrenzte, gewinnorientierte Organisation ist Organisation. Die OpenAI LP wird vom Vorstand von OpenAI, Inc (der Stiftung) geleitet, die als General Partner fungiert. Gleichzeitig bestehen Limited Partners aus Mitarbeitern der LP, einigen Vorstandsmitgliedern und anderen Investoren wie Reid Hoffmans gemeinnütziger Stiftung Khosla Ventures und Microsoft, der führende Investor in der LP.
OpenAI hat die grundlegende Ebene der KI aufgebaut Energiegewinnung. Mit großen generativen Modellen wie GPT-3 und DALL-E bietet OpenAI API-Zugriff für Unternehmen, die Anwendungen auf der Grundlage seiner Basismodelle entwickeln möchten und gleichzeitig in der Lage sind, diese Modelle in ihre Produkte einzubinden und diese Modelle mit proprietären Daten und zusätzlicher KI anzupassen Merkmale. Andererseits wurde auch OpenAI veröffentlicht ChatGPT, Entwicklung um a FreemiumModell. Microsoft vertreibt auch Opener-Produkte durch seine Handelspartnerschaft.
OpenAI und Microsoft aus kaufmännischer Sicht zusammengeschlossen. Die Geschichte der Partnerschaft begann 2016 und konsolidierte sich 2019 mit Microsoft investiert eine Milliarde Dollar in die Partnerschaft. Es macht jetzt einen Sprung nach vorne, mit Microsoft in Gesprächen, um 10 Milliarden Dollar in diese Partnerschaft zu stecken. Microsoftentwickelt über OpenAI seinen Azure-KI-Supercomputer, verbessert gleichzeitig seine Azure-Unternehmensplattform und integriert die Modelle von OpenAI in seine Geschäft und Verbraucherprodukte (GitHub, Office, Bing).
Stability AI ist die Entität hinter Stable Diffusion. Stability verdient Geld mit unseren KI-Produkten und mit der Bereitstellung von KI-Beratungsdiensten für Unternehmen. Stability AI monetarisiert Stable Diffusion über die APIs von DreamStudio. Während es auch Open Source für jedermann zum Herunterladen und Verwenden freigibt. Stability AI verdient auch Geld über enterprise Dienstleistungen, wo sein Kernentwicklungsteam die Möglichkeit dazu bietet enterprise Kunden zu bedienen, Treppe, und passen Sie Stable Diffusion oder andere große generative Modelle an ihre an Bedürfnisse.
Gennaro ist der Schöpfer von FourWeekMBA, das allein im Jahr 2022 rund vier Millionen Geschäftsleute erreichte, darunter C-Level-Führungskräfte, Investoren, Analysten, Produktmanager und aufstrebende digitale Unternehmer | Er ist auch Director of Sales für ein Hightech-Scaleup in der KI-Industrie | Im Jahr 2012 erwarb Gennaro einen internationalen MBA mit Schwerpunkt auf Unternehmensfinanzierung und Geschäftsstrategie.