InstructGPT est le successeur du grand langage GPT-3 modèle (LLM) développé par OpenAI. InstructGPT est un modèle qui utilise l'apprentissage par renforcement à partir de la rétroaction humaine qui est incorporée dans le GPT modèle pour le rendre plus fiable.
De GPT-3 à IntructGPT
GPT-3 a été un tournant incroyable pour le paradigme actuel de l'IA, où les modèles d'apprentissage automatique pourraient être transformés en moteurs à usage général via une architecture appelée transformateur.
En cours de route, OpenAI a découvert quelques autres composants qui pourraient être connectés pour rendre ces grands modèles de langage efficaces.
En effet, l'apprentissage en contexte via l'incitation et l'apprentissage à partir de la rétroaction humaine s'est avéré des ajouts efficaces, qu'OpenaAI utilisait pour passer de son GPT modèle à ce qui deviendra plus tard InstructGPT.
InstructGPT est donc la pile sous-jacente qui se trouve sous ChatGPT. Sa principale différence avec GPT est que InstructGPT utilise une approche de rétroaction humaine dans le processus de réglage fin, où les humains montrent un ensemble de sorties au GPT. modèle une fois qu'il a été pré-formé via le framework InstructGPT.
Dans le cadre InstructGPT, les humains itèrent sur un ensemble de données beaucoup plus petit, agissant de plusieurs manières.
D'abord en produisant la sortie souhaitée et ensuite en la comparant à celle générée par GPT.
Deuxièmement, en étiquetant la sortie provenant de GPT à partir de la rétroaction humaine.
Troisièmement, en montrant que la sortie vers le GPT modèle pour l'instruire vers le résultat souhaité sur des tâches plus étroites et des types de questions.
C'est ainsi que nous obtenons (principalement) du GPT modèle à l'InstructGPT modèle, qui est maintenant devenu un standard au sein de la technologie d'OpenAI.
Comprendre InstructGPT
InstructGPT est le résultat d'une refonte du langage GPT-3 modèle. En réponse aux plaintes des utilisateurs concernant GPT-3, le créateur OpenAI a créé le nouveau et amélioré modèle:
- Mieux suivre les instructions en anglais.
- Moins enclin à répandre de fausses informations (plus véridique), et
- Moins susceptibles de produire des résultats toxiques ou ceux qui reflètent des sentiments nuisibles.
Le problème avec GPT-3 est survenu parce qu'il a été formé pour prédire le mot suivant à partir d'un grand ensemble de données et non pour effectuer en toute sécurité la tâche souhaitée par l'utilisateur. Pour résoudre le problème, OpenAI a utilisé une technique connue sous le nom d'apprentissage par renforcement à partir de la rétroaction humaine (RLHF).
Avec l'apprentissage par renforcement, un agent d'IA apprend à prendre des décisions en effectuant des actions dans un environnement et en recevant des commentaires sous forme de récompenses ou de pénalités.
OpenAI a déjà partagé en 2017 comment ce processus a joué un rôle déterminant dans le développement de systèmes d'IA sûrs. Et pourtant, cette même méthodologie s'est avérée assez efficace pour rendre ces systèmes d'IA beaucoup plus efficaces pour des tâches spécifiques.
Certes, l'apprentissage par renforcement à partir de la rétroaction humaine n'était pas une découverte d'OpenAI mais une réalisation du milieu universitaire.
Pourtant, ce à quoi l'équipe OpenAI était bonne, c'était dans mise à l'échelle cette approche.
À l'époque, l'équipe d'OpenAI qualifié un algorithme avec 900 bits de retour d'un évaluateur humain pour lui faire apprendre à faire un backflip.
Bien sûr, cela ne semble pas une grande réussite pour une tâche simple et étroite, et pourtant, c'était le stade embryonnaire de ce qui deviendrait plus tard quelque chose comme ChatGPT.
Les trois étapes de la formation InstructGPT
Le processus RLHF peut être décrit comme un cycle de rétroaction en 3 étapes entre la personne, l'apprentissage par renforcement et le modèlesa compréhension de la objectif.
Source : OpenAI
Pour mieux comprendre ce processus, expliquons chaque étape.
Étape 1 - Recueillir des données de démonstration écrites par l'homme et former une politique supervisée
Une fois qu'une invite a été échantillonnée à partir d'un ensemble de données, un étiqueteur démontre un comportement de sortie souhaitable. Ceux-ci peuvent être soumis par les utilisateurs de GPT-3, mais les chercheurs d'OpenAI guident également les étiqueteurs sur la base d'instructions écrites, d'une conservation informelle et de commentaires sur des exemples spécifiques si nécessaire.
Ensuite, les données sont utilisées pour affiner GPT-3 en formant des lignes de base d'apprentissage supervisé.
Étape 2 - Recueillir des données de comparaison et former le modèle de récompense
Ensuite, un ensemble de données de comparaisons étiquetées par l'homme entre deux sorties sur un ensemble plus large d'invites est collecté. Nombreuses modèle les sorties sont échantillonnées à partir d'une invite et l'étiqueteuse classe chaque sortie du meilleur au pire.
La récompense modèle (RM) est ensuite formé sur cet ensemble de données pour clarifier quelle sortie les étiqueteurs d'OpenAI préfèrent.
Étape 3 – Utilisez le modèle de récompense comme fonction de récompense pour affiner la politique GPT-3
À la troisième étape, une nouvelle invite est échantillonnée à partir de l'ensemble de données et, sur la base de ce qui précède, la stratégie génère une sortie et calcule une récompense. La récompense est maximisée par l'algorithme Proximal Policy Optimization (PPO) de l'entreprise.
Le résultat est que InstructGPT est bien meilleur pour suivre les instructions.
Voici à quoi ressemble l'ensemble du processus :
InstructGPT contre GPT-3
Instruire GPT-3 est le modèle de choix pour les étiqueteurs OpenAI malgré qu'il ait 100 fois moins de paramètres que le modèle sur lequel il se fonde.
La société a également noté que «en même temps, nous montrons que nous n'avons pas à faire de compromis sur les capacités de GPT-3, telles que mesurées par notre modèle's performant sur les évaluations académiques en PNL. »
Les modèles InstructGPT étaient en mode bêta sur l'API depuis plus de douze mois et sont désormais ses modèles de langage par défaut. À l'avenir, OpenAI estime que modèle le raffinement avec des humains dans la boucle est le moyen le plus efficace d'améliorer la fiabilité et la sécurité.
Points clés
- InstructGPT est le successeur du grand langage GPT-3 modèle (LLM) développé par OpenAI. Il a été développé en réponse aux plaintes des utilisateurs concernant les résultats toxiques ou nocifs générés par le GPT-3.
- Pour résoudre le problème, OpenAI a utilisé une technique connue sous le nom d'apprentissage par renforcement à partir de la rétroaction humaine (RLHF). Le processus est mieux décrit comme un cycle de rétroaction en 3 étapes entre un humain, l'apprentissage par renforcement et le modèlesa compréhension de la objectif.
- Malgré l'augmentation de performant, il convient de noter que Instruct GPT3 est le modèle de choix pour les étiqueteurs OpenAI malgré qu'il ait 100 fois moins de paramètres.
Points forts d'InstructGPT :
- Introduction à InstructGPT :
- InstructGPT est le successeur du GPT-3 d'OpenAI modèle.
- Développé pour répondre aux plaintes des utilisateurs concernant GPT-3, en particulier concernant les résultats toxiques ou trompeurs.
- Utilise l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF) pour une fiabilité et une sécurité améliorées.
- De GPT-3 à InstructGPT :
- GPT-3 était basé sur l'architecture du transformateur, une étape majeure dans l'IA.
- InstructGPT intègre l'apprentissage en contexte via des invites et apprend des commentaires humains.
- La principale distinction entre GPT et InstructGPT réside dans l'utilisation par ce dernier du feedback humain lors du réglage fin.
- Comprendre InstructGPT :
- Conçu pour mieux suivre les instructions en anglais, réduire la désinformation et minimiser les émissions toxiques.
- Il utilise un processus RLHF en trois étapes, améliorant modèleL'alignement de avec les résultats souhaités par l'homme.
- Trois étapes dans la formation InstructGPT :
- Étape 1: Collectez des données de démonstration écrites par des humains et affinez les modèle en utilisant l’apprentissage supervisé.
- Étape 2: Utiliser des données étiquetées par l'homme pour former une récompense modèle qui évalue la modèleles sorties.
- Étape 3: Affiner le modèle utiliser la récompense modèle pour maximiser le rendement souhaité.
- InstructGPT contre GPT-3 :
- InstructGPT est préféré par les étiqueteurs OpenAI malgré 100 fois moins de paramètres que GPT-3.
- OpenAI estime que l'amélioration des modèles avec la participation humaine est le meilleur moyen d'améliorer la fiabilité et la sécurité.
- Importance globale :
- Les modèles InstructGPT, après avoir été en mode bêta pendant plus d'un an, sont désormais les modèles de langage par défaut pour OpenAI.
- L’accent est mis sur la garantie que l’IA comprend et exécute les instructions de l’utilisateur sans compromettre la sécurité et la fiabilité.
Concepts d'IA connectée
Apprentissage en profondeur contre apprentissage automatique
Opérations d'apprentissage automatique
Structure organisationnelle d'OpenAI
Modèle commercial d'IA de stabilité
Écosystème d'IA de stabilité
Principaux guides gratuits :