Prompt Engineering ist ein Konzept zur Verarbeitung natürlicher Sprache (NLP), bei dem Eingaben entdeckt werden, die wünschenswerte oder nützliche Ergebnisse liefern. Prompt ist das Äquivalent dazu, dem Genie in der Wunderlampe zu sagen, was er tun soll. In diesem Fall ist die Wunderlampe DALL-E, bereit, jedes gewünschte Bild zu erzeugen.
Kontextbezogenes Lernen durch Aufforderung
In der Biologie ist Emergenz eine unglaubliche Eigenschaft, bei der Teile, die als Ergebnis ihrer Interaktionen zusammenkommen, ein neues Verhalten zeigen (genannt Emergenz), das Sie in einem kleineren Maßstab nicht sehen können.
Das noch Unglaublichere ist, dass, obwohl die Version im kleineren Maßstab dem größeren Maßstab ähnlich zu sein scheint, die Tatsache, dass der größere Maßstab aus mehr Teilen und Interaktionen besteht, schließlich ein völlig anderes Verhalten zeigt.
Und es gibt keine Möglichkeit vorherzusagen, was dieses Verhalten sein könnte.
Das ist die Schönheit (im Guten wie im Schlechten) der Größenordnung!
In der aktuellen KI-Revolution ist der aufregendste Aspekt der Aufstieg der neuen Eigenschaften von maschinellen Lernmodellen, die im großen Maßstab arbeiten.
Und alles begann mit der Möglichkeit, diese KI-Modelle unbeaufsichtigt trainieren zu lassen. Unüberwachtes Lernen war in der Tat einer der wichtigsten Grundsätze dieser KI-Revolution, und das hat sie auch gelöst die KI-Fortschritte der letzten Jahre.
Vor 2017 funktionierte die meiste KI, indem sie überwachtes Lernen über kleine, strukturierte Daten-Datensätze nutzte, die maschinelle Lernmodelle für sehr enge Aufgaben trainieren konnten.
Nach 2017, mit einer neuen Architektur namens Transformer, begannen sich die Dinge zu ändern.
Diese neue Architektur könnte mit einem unüberwachten Lernansatz verwendet werden. Das maschinelle Lernen Modell könnte auf einem sehr großen, unstrukturierten Datensatz mit einer sehr einfachen Zielfunktion vortrainiert werden: Text-zu-Text-Vorhersage.
Das Spannende dabei ist das maschinelle Lernen Modell, um zu lernen, wie man eine Text-zu-Text-Vorhersage richtig durchführt (was wie eine sehr einfache Aufgabe erscheinen mag), fing an, eine Reihe von Mustern und Heuristiken rund um die Daten zu lernen, auf denen es trainiert wurde.
Dies ermöglichte das maschinelle Lernen Modell vielfältige Aufgaben zu lernen.
Anstatt zu versuchen, eine einzelne Aufgabe auszuführen, die große Sprache Modell begannen, Muster aus den Daten abzuleiten und diese bei der Durchführung neuer Aufgaben wiederzuverwenden.
Dies war eine Kernrevolution. Darüber hinaus war der andere Wendepunkt, der mit dem GPT-3-Papier herauskam, die Fähigkeit, diese Modelle zu veranlassen.
Kurz gesagt, es ermöglicht diesen Modellen, den Kontext eines Benutzers durch Unterricht in natürlicher Sprache weiter zu lernen, was die Ausgabe von dramatisch verändern könnte Modell.
Dieser andere Aspekt war auch emergent, da keiner ausdrücklich danach gefragt hatte. Auf diese Weise haben wir kontextbezogenes Lernen über Aufforderungen als eine Kerneigenschaft aktueller maschineller Lernmodelle erhalten.
Prompt Engineering verstehen
Prompt Engineering ist eine Schlüsseleigenschaft des aktuellen KI-Paradigmas.

Einer der interessantesten Aspekte von Prompt Engineering ist die Tatsache, dass es sich als eine aufkommende Eigenschaft herausstellte, die Transformer-Architektur zu skalieren, um große Sprachmodelle zu trainieren.
Genauso wie sich die Wünsche, die Sie äußern, gegen Sie wenden können, kann die Art und Weise, wie Sie ausdrücken, was sie tun muss, die Ausgabe dramatisch verändern, wenn Sie die Maschine auffordern.
Und der interessanteste Teil?
Prompting war keine von KI-Experten entwickelte Funktion. Es war ein aufstrebendes Merkmal. Kurz gesagt, durch die Entwicklung dieser riesigen Modelle für maschinelles Lernen wurde die Eingabeaufforderung zum Weg, um die Maschine die Eingaben ausführen zu lassen.
Niemand hat danach gefragt; es ist einfach passiert!
In einem Papier aus dem Jahr 2021 hoben Forscher aus Stanford hervor, wie transformatorbasierte Modelle zu grundlegenden Modellen geworden waren.

Wie im selben Artikel erklärt:
Die Geschichte der KI war eine Geschichte des zunehmenden Auftauchens und der Homogenisierung. Mit der Einführung des maschinellen Lernens ergibt sich (automatisch abgeleitet) aus Beispielen, wie eine Aufgabe ausgeführt wird; Mit Deep Learning entstehen die High-Level-Features, die für die Vorhersage verwendet werden; und mit Basismodellen entstehen sogar erweiterte Funktionalitäten wie z. B. kontextbezogenes Lernen. Gleichzeitig homogenisiert maschinelles Lernen Lernalgorithmen (z. B. logistische Regression), Deep Learning homogenisiert Modell Architekturen (z. B. Convolutional Neural Networks) und Basismodelle homogenisieren die Modell selbst (z. B. GPT-3).
Prompt Engineering ist ein in der KI verwendeter Prozess, bei dem eine oder mehrere Aufgaben in einen Prompt-basierten Datensatz umgewandelt werden, der eine Sprache ist Modell wird dann trainiert, um zu lernen.
Die Motivation hinter Prompt Engineering kann auf den ersten Blick schwer zu verstehen sein Wert, also lassen Sie uns die Idee anhand eines Beispiels beschreiben.
Stellen Sie sich vor, Sie richten eine Online-Lieferung von Lebensmitteln ein Plattform und Sie besitzen Tausende von Bildern verschiedener Gemüsesorten, die Sie auf der Website einfügen können.
Das einzige Problem ist, dass keine der Bildmetadaten beschreibt, welches Gemüse auf welchen Fotos zu sehen ist.
An dieser Stelle könnten Sie die Bilder mühsam sortieren und Kartoffelfotos in den Kartoffelordner, Brokkolifotos in den Brokkoliordner und so weiter legen.
Sie könnten auch alle Bilder durch einen Klassifikator laufen lassen, um sie einfacher zu sortieren, aber, wie Sie feststellen, den Klassifikator trainieren Modell erfordert weiterhin beschriftete Daten.
Mithilfe der Eingabeaufforderungstechnik können Sie eine textbasierte Eingabeaufforderung schreiben, die Ihrer Meinung nach die besten Ergebnisse bei der Bildklassifizierung liefert.
Das könnte man zum Beispiel sagen Modell zeigen "ein Bild mit Kartoffeln“. Die Struktur dieser Eingabeaufforderung – oder die Anweisung, die definiert, wie die Modell erkennt Bilder – ist grundlegend für schnelles Engineering.
Das Schreiben der besten Eingabeaufforderung ist oft eine Frage von Versuch und Irrtum. In der Tat, die Aufforderung „ein Bild mit Kartoffeln“ ganz anders als „ein Foto von Kartoffeln“ oder "eine Sammlung von Kartoffeln"
Best Practices für schnelles Engineering
Wie bei den meisten Prozessen bestimmt die Qualität der Eingaben die Qualität der Ausgaben. Das Entwerfen effektiver Eingabeaufforderungen erhöht die Wahrscheinlichkeit, dass die Modell wird eine Antwort zurückgeben, die sowohl günstig als auch kontextbezogen ist.
Gute Ansagen zu schreiben ist eine Frage des Verstehens, was die Modell über die Welt „kennt“ und diese Informationen dann entsprechend anwendet.
Einige glauben, dass es einem Scharadenspiel ähnelt, bei dem der Schauspieler gerade genug Informationen für seinen Partner bereitstellt, um das Wort oder den Satz mit seinem Intellekt herauszufinden.
Denken Sie an die Modell als Repräsentation des Partners in Scharaden. Über die Trainingsaufforderung werden gerade genug Informationen für die bereitgestellt Modell um die Muster auszuarbeiten und die anstehende Aufgabe zu erfüllen.
Es hat keinen Sinn, die zu überladen Modell mit allen Informationen auf einmal und unterbricht seinen natürlichen Intelligenzfluss.
Prompt Engineering und das CLIP-Modell
Das CLIP (Contrastive Language-Image Pre-training) Modell wurde 2021 vom KI-Forschungslabor OpenAI entwickelt.
Laut Forschern ist CLIP „ein Neural Netzwerk auf eine Vielzahl von (Bild-, Text-)Paaren trainiert. Es kann in natürlicher Sprache angewiesen werden, den relevantesten Textausschnitt bei einem gegebenen Bild vorherzusagen, ohne direkt für die Aufgabe zu optimieren, ähnlich wie bei den Zero-Shot-Fähigkeiten von GPT-2 und 3."
Basierend auf einem neuralen Netzwerk Modell, CLIP wurde mit über 400 Millionen Bild-Text-Paaren trainiert, die aus einem Bild mit passender Bildunterschrift bestehen.
Unter Verwendung dieser Informationen kann man ein Bild in die eingeben Modell, und es wird eine Bildunterschrift oder Zusammenfassung generiert, die seiner Meinung nach am genauesten ist.
Das obige Zitat berührt auch die Zero-Shot-Fähigkeiten von CLIP, was es zu etwas Besonderem unter den Modellen für maschinelles Lernen macht.
Von den meisten Klassifikatoren, die beispielsweise darauf trainiert sind, Äpfel und Orangen zu erkennen, wird erwartet, dass sie beim Klassifizieren von Äpfeln und Orangen gute Leistungen erbringen, Bananen jedoch im Allgemeinen nicht erkennen.
Einige Modelle, einschließlich CLIP, GPT-2 und GPT-3, kann Bananen erkennen. Mit anderen Worten, sie können Aufgaben ausführen, für die sie nicht explizit ausgebildet wurden. Diese Fähigkeit wird als Zero-Shot-Lernen bezeichnet.
Beispiele für Prompt Engineering
Ab 2022 beschleunigt sich die Entwicklung von KI-Modellen. Und damit wird zeitnahes Engineering immer wichtiger.
Wir haben zuerst Text-zu-Text mit Sprachmodellen wie GPT-3, BERT und anderen bekommen.
Dann haben wir Text-zu-Bild mit Dall-E, Imagen, MidJourney und StableDiffusion bekommen.
In diesem Stadium bewegen wir uns mit Metas Make-A-Video auf Text-to-Video um, und jetzt entwickelt Google sein eigenes Imagen Video.
Effektive KI-Modelle konzentrieren sich heute darauf, mit viel, viel weniger mehr zu erreichen!
Ein Beispiel ist DreamFusion: Text-to-3D using 2D Diffusion, entwickelt vom Google Research Lab.
Kurz gesagt, KI-Diffusionsmodelle sind generative Modelle, was bedeutet, dass sie ein Ergebnis erzeugen, das dem ähnelt, auf dem sie trainiert wurden.
Und definitionsgemäß funktionieren Diffusionsmodelle, indem sie den Trainingsdaten Rauschen hinzufügen und eine Ausgabe erzeugen, indem sie diese Daten durch eine Umkehrung des Rauschprozesses wiederherstellen.
DreamFusion von Google Research ist in der Lage, Text in 3D-Bilder zu übersetzen, ohne über einen großen Datensatz mit beschrifteten 3D-Daten zu verfügen (heute nicht verfügbar).
Und das ist das Ding!
Wie von der Forschungsgruppe erklärt:
„Die Anpassung dieses Ansatzes an die 3D-Synthese würde umfangreiche Datensätze mit beschrifteten 3D-Daten und effiziente Architekturen zur Rauschunterdrückung von 3D-Daten erfordern, von denen beide derzeit nicht existieren. In dieser Arbeit umgehen wir diese Einschränkungen, indem wir eine vortrainierte 2D-Text-zu-Bild-Diffusion verwenden Modell um eine Text-zu-3D-Synthese durchzuführen.“
Warum ist das relevant?
In einem Web, das seit über zwei Jahrzehnten hauptsächlich textbasiert oder 2D-bildbasiert ist, ist es jetzt an der Zeit, erweiterte Formate wie 3D zu ermöglichen, die in AR-Umgebungen gut funktionieren.
Kurz gesagt, stellen Sie sich vor, Sie tragen Ihre AR-Brille von Google, und diese KI-Modelle darunter können die reale Welt im Handumdrehen mit 3D-Objekten verbessern, sodass Sie AR-Erlebnisse viel überzeugender gestalten können.

Gleichzeitig kündigte OpenAI Speech-to-Text mit Whisper an.
Kombiniert würden diese KI-Modelle eine multimodale Umgebung schaffen, in der eine einzelne Person oder ein kleines Team all diese Tools für die Generierung von Inhalten, das Filmemachen, die Medizin und mehr nutzen kann!
Dies bedeutet, dass einige wenige Branchen, die zuvor nicht betreten werden konnten, einfacher skalierbar werden, da Eintrittsbarrieren abgebaut werden.
Es ist möglich, viel schneller zu testen/einzuführen/zu iterieren, wodurch sich die Märkte schneller entwickeln können.
Auch nach fast 30 Jahren des Internets sind viele Branchen (vom Gesundheitswesen bis zur Bildung) immer noch in alten Paradigmen gefangen.
Ein Jahrzehnt der KI könnte sie komplett neu mischen.
Jede KI Modell werden auf die gleiche Weise aufgefordert, aber die Art, eine Maschine zu veranlassen, kann so subtil sein, dass die Maschine dank der Variationen der Aufforderung viele verschiedene Ausgaben erzeugen kann.
Gerade im Oktober 2022:
- Stability AI kündigt Finanzierung in Höhe von 101 Millionen US-Dollar für künstliche Open-Source-Intelligenz an
- Jasper AI, ein Startup, das eine Plattform für „KI-Inhalte“ entwickelt, hat 125 Millionen US-Dollar bei einer Bewertung von 1.5 Milliarden US-Dollar gesammelt. Jasper ist dabei, das KI-Startup Outwrite zu übernehmen, ein Grammatik- und Stilprüfer mit mehr als einer Million Benutzern.
- OpenAI im Wert von fast 20 Milliarden US-Dollar befindet sich in fortgeschrittenen Gesprächen mit Microsoft für mehr Finanzierung.
Heute können Sie mit der Eingabeaufforderung eine wachsende Anzahl von Ausgaben generieren.

Noch eine coole Anwendung? Du kannst Design Ihre eigenen Schuhe mit Aufforderung:

Eingabeaufforderung wie Codierung?
Am 30. November veröffentlichte OpenAI ChatGPT.
Eine Konversations-KI-Schnittstelle mit unglaublichen Fähigkeiten.
Als ich ChatGPT getestet habe, war es überwältigend!
Ich habe es verwendet, um Stellenbeschreibungen zu erstellen.
Mit einer einfachen Eingabeaufforderung gab es mir innerhalb weniger Sekunden eine ziemlich genaue Ausgabe!
Dadurch wurde mir klar, dass dies ein weiterer Wendepunkt für die KI war …
Und das ist nichts, tatsächlich ist das aktuelle Paradigma der KI, dass sie unglaublich gut codieren kann!
Was ist ChatGPT?
ChatGPT ist ein Tool, das die GPT-3 kombiniert Modell plus einer zusätzlichen Modell namens InstructGPT, das durch Verstärkungslernen aus menschlichem Feedback feinabgestimmt wird, um es im Vergleich zu GPT fundierter zu machen.
Mit ChatGPT können Sie jede Antwort zu jedem Thema erhalten (obwohl es für diese Beta-Version auf verschiedene Bereiche beschränkt war).
Es steckt noch viel mehr dahinter.
Mit ChatGPT können Sie sich in einen Programmierer verwandeln.
Alles, was Sie brauchen, ist eine Aufforderung!
Hier habe ich ChatGPT aufgefordert, den Code für eine Web-App für den Aktienhandel zu generieren!

Wie viel verdient ein Prompt-Ingenieur?
Inmitten von KI (Buzz) und Revolution kann ein schneller Ingenieur zwischen 150 und 300 US-Dollar pro Jahr verdienen.
Als interessantes Beispiel ein prompter Ingenieur und Bibliothekar Stellenangebot würde so aussehen.


Wie funktioniert OpenAI?
Schnelle Engineering-Beispiele und Fallstudie

Hier ist ein schnelles Engineering-Beispiel mit einigen Best Practices, die in den Prozess integriert sind.
Kundenerstattung für einen Fernseher
Stellen Sie sich vor, ein Kunde kontaktiert ein Elektronikunternehmen und bittet um eine Rückerstattung für einen Fernseher, den er kürzlich gekauft hat. Das Unternehmen möchte a Modell das würde die Kundendienstabteilung unterstützen, indem es eine plausible Antwort generiert.
In einem Testlauf kontaktiert ein hypothetischer oder „Test“-Kunde das Unternehmen mit der folgenden Anfrage: Hallo, ich möchte eine Rückerstattung für den von mir gekauften Fernseher erhalten. Ist das möglich?
Um die Eingabeaufforderung und damit nützliche Wege zu entwerfen, auf denen der Agent mit dem Kunden interagieren kann, informiert das Unternehmen zunächst das Modell über die allgemeine Einstellung und den Rest der Eingabeaufforderung.
Die Eingabeaufforderung kann etwa so lauten: Dies ist ein Gespräch zwischen einem Kunden und einem Kundenbetreuer, der hilfsbereit und höflich ist. Die Frage des Kunden: Ich möchte den gekauften Fernseher zurückerstattet bekommen. Ist das möglich?
Nun, dass die Modell weiß, was zu erwarten ist, wird der Anfang der Antwort angezeigt, die er dem Kunden geben sollte: Antwort des Kundendienstmitarbeiters: Hallo, wir freuen uns, dass Sie sich an uns wenden. Ja,
Durch Kombinieren des ersten und zweiten Teils verdeutlicht die Eingabeaufforderung, dass die Antwort auf die Kundenanfrage von einem Kundenbetreuer kommt und dass die Antwort positiv sein sollte.
Zusammensetzung des Sprachmodells für die Kundenbetreuung
Das obige Szenario kann zusammengefasst werden, indem die Komponenten von definiert werden Modell selbst:
- Aufgabenbeschreibung - Dies ist ein Gespräch zwischen einem Kunden und einem Kundenbetreuer, der hilfsbereit und höflich ist.
- Inputindikator – die Frage des Kunden.
- Stromeingang und
- Ausgangsanzeige – Antwort des Kundendienstmitarbeiters: Hallo, wir freuen uns, dass Sie sich an uns wenden. Ja,
Beachten Sie, dass Input- und Output-Indikatoren eine effektive Methode sind, um gewünschte Aufgaben zu beschreiben Modell – insbesondere wenn mehrere Beispiele in der Eingabeaufforderung enthalten sind. Darauf aufbauend ist die Modell kann drei Textausgaben (sogenannte Vervollständigungen) erzeugen, um den Satz nach dem Komma zu vervollständigen:
- Ja, wir können Rücksendungen akzeptieren, wenn der Fernseher unbenutzt, ungeöffnet und nicht beschädigt ist.
- Ja, wir bearbeiten gerne eine Rückerstattung für Ihren Fernsehkauf. Bitte beachten Sie jedoch, dass wir verlangen, dass der Fernseher zum nächstgelegenen Geschäft zurückgebracht wird.
- Ja, das ist möglich. Bitte antworten Sie so schnell wie möglich mit Ihrem Namen, Ihrer Adresse, Telefonnummer und Belegnummer. Einer unserer Kundenbetreuer wird sich so schnell wie möglich mit Ihnen in Verbindung setzen.
Obwohl dies ein etwas vereinfachter Ansatz ist, ist es klar, dass in diesem Beispiel die Modell verdeutlicht mehrere plausible Abschlüsse mit nur wenigen Kundendienstinteraktionen.
Theoretisch könnte der Elektronikkonzern das verfeinern Modell mit Beispielen, wie es auf spezifische Fragen, Bitten und Kommentare reagieren sollte.
Beispiele für ChatGPT-Eingabeaufforderungen
Codegenerierung

Content Creation

Datenanalyse

Bildung und Ausbildung

Entscheidungsfindung und Problemlösung

Die zentralen Thesen:
- Prompt Engineering ist ein Konzept zur Verarbeitung natürlicher Sprache (NLP), bei dem Eingaben entdeckt werden, die wünschenswerte oder nützliche Ergebnisse liefern.
- Wie bei den meisten Prozessen bestimmt die Qualität der Eingaben die Qualität der Ausgaben im Prompt Engineering. Das Entwerfen effektiver Eingabeaufforderungen erhöht die Wahrscheinlichkeit, dass die Modell wird eine Antwort zurückgeben, die sowohl günstig als auch kontextbezogen ist.
- Das von OpenAI entwickelte CLIP (Contrastive Language-Image Pre-training) Modell ist ein Beispiel für eine Modell die Eingabeaufforderungen verwendet, um Bilder und Bildunterschriften aus über 400 Millionen Bild-Bildunterschrift-Paaren zu klassifizieren.
Lesen Sie weiter: KI-Chips, KI-Geschäftsmodelle, Unternehmens-KI, Wie viel ist die KI-Industrie wert?, KI-Ökonomie.
Verbundene Business-Frameworks
Künstliche Intelligenz vs. maschinelles Lernen








Zusätzliche Ressourcen: