instructiongpt

InstructGPT et pourquoi c'est important pour le succès de ChatGPT

InstructGPT est le successeur du grand langage GPT-3 modèle (LLM) développé par OpenAI. InstructGPT est un modèle qui utilise l'apprentissage par renforcement à partir de la rétroaction humaine qui est incorporée dans le GPT modèle pour le rendre plus fiable.

 

 

De GPT-3 à IntructGPT

GPT-3 a été un tournant incroyable pour le paradigme actuel de l'IA, où les modèles d'apprentissage automatique pourraient être transformés en moteurs à usage général via une architecture appelée transformateur.

architecture-transformateur
L'architecture du transformateur - parfois appelée transformateur neuronal réseau et ou transformateur modèle – est une architecture qui s'efforce de résoudre des tâches séquence à séquence tout en gérant facilement les dépendances à longue portée.

En cours de route, OpenAI a découvert quelques autres composants qui pourraient être connectés pour rendre ces grands modèles de langage efficaces.

En effet, l'apprentissage en contexte via l'incitation et l'apprentissage à partir de la rétroaction humaine s'est avéré des ajouts efficaces, qu'OpenaAI utilisait pour passer de son GPT modèle à ce qui deviendra plus tard InstructGPT.

InstructGPT est donc la pile sous-jacente qui se trouve sous ChatGPT. Sa principale différence avec GPT est que InstructGPT utilise une approche de rétroaction humaine dans le processus de réglage fin, où les humains montrent un ensemble de sorties au GPT. modèle une fois qu'il a été pré-formé via le framework InstructGPT.

Dans le cadre InstructGPT, les humains itèrent sur un ensemble de données beaucoup plus petit, agissant de plusieurs manières.

D'abord en produisant la sortie souhaitée et ensuite en la comparant à celle générée par GPT.

Deuxièmement, en étiquetant la sortie provenant de GPT à partir de la rétroaction humaine.

Troisièmement, en montrant que la sortie vers le GPT modèle pour l'instruire vers le résultat souhaité sur des tâches plus étroites et des types de questions.

C'est ainsi que nous obtenons (principalement) du GPT modèle à l'InstructGPT modèle, qui est maintenant devenu un standard au sein de la technologie d'OpenAI.

Comprendre InstructGPT

InstructGPT est le résultat d'une refonte du langage GPT-3 modèle. En réponse aux plaintes des utilisateurs concernant GPT-3, le créateur OpenAI a créé le nouveau et amélioré modèle:

  • Mieux suivre les instructions en anglais.
  • Moins enclin à répandre de fausses informations (plus véridique), et
  • Moins susceptibles de produire des résultats toxiques ou ceux qui reflètent des sentiments nuisibles.
instructgpt-renforcement-apprentissage-processus

Le problème avec GPT-3 est survenu parce qu'il a été formé pour prédire le mot suivant à partir d'un grand ensemble de données et non pour effectuer en toute sécurité la tâche souhaitée par l'utilisateur. Pour résoudre le problème, OpenAI a utilisé une technique connue sous le nom d'apprentissage par renforcement à partir de la rétroaction humaine (RLHF).

Avec l'apprentissage par renforcement, un agent d'IA apprend à prendre des décisions en effectuant des actions dans un environnement et en recevant des commentaires sous forme de récompenses ou de pénalités.

OpenAI a déjà partagé en 2017 comment ce processus a joué un rôle déterminant dans le développement de systèmes d'IA sûrs. Et pourtant, cette même méthodologie s'est avérée assez efficace pour rendre ces systèmes d'IA beaucoup plus efficaces pour des tâches spécifiques.

Certes, l'apprentissage par renforcement à partir de la rétroaction humaine n'était pas une découverte d'OpenAI mais une réalisation du milieu universitaire.

Pourtant, ce à quoi l'équipe OpenAI était bonne, c'était dans mise à l'échelle cette approche.

À l'époque, l'équipe d'OpenAI qualifié un algorithme avec 900 bits de retour d'un évaluateur humain pour lui faire apprendre à faire un backflip.

Bien sûr, cela ne semble pas une grande réussite pour une tâche simple et étroite, et pourtant, c'était le stade embryonnaire de ce qui deviendrait plus tard quelque chose comme ChatGPT.

 

Les trois étapes de la formation InstructGPT

Le processus RLHF peut être décrit comme un cycle de rétroaction en 3 étapes entre la personne, l'apprentissage par renforcement et le modèlesa compréhension de la objectif

Source : OpenAI

Pour mieux comprendre ce processus, expliquons chaque étape. 

Étape 1 - Recueillir des données de démonstration écrites par l'homme et former une politique supervisée

Une fois qu'une invite a été échantillonnée à partir d'un ensemble de données, un étiqueteur démontre un comportement de sortie souhaitable. Ceux-ci peuvent être soumis par les utilisateurs de GPT-3, mais les chercheurs d'OpenAI guident également les étiqueteurs sur la base d'instructions écrites, d'une conservation informelle et de commentaires sur des exemples spécifiques si nécessaire.

Ensuite, les données sont utilisées pour affiner GPT-3 en formant des lignes de base d'apprentissage supervisé.

Étape 2 - Recueillir des données de comparaison et former le modèle de récompense

Ensuite, un ensemble de données de comparaisons étiquetées par l'homme entre deux sorties sur un ensemble plus large d'invites est collecté. Nombreuses modèle les sorties sont échantillonnées à partir d'une invite et l'étiqueteuse classe chaque sortie du meilleur au pire. 

La récompense modèle (RM) est ensuite formé sur cet ensemble de données pour clarifier quelle sortie les étiqueteurs d'OpenAI préfèrent. 

Étape 3 – Utilisez le modèle de récompense comme fonction de récompense pour affiner la politique GPT-3

À la troisième étape, une nouvelle invite est échantillonnée à partir de l'ensemble de données et, sur la base de ce qui précède, la stratégie génère une sortie et calcule une récompense. La récompense est maximisée par l'algorithme Proximal Policy Optimization (PPO) de l'entreprise.

Le résultat est que InstructGPT est bien meilleur pour suivre les instructions.

Voici à quoi ressemble l'ensemble du processus :

InstructGPT contre GPT-3

Instruire GPT-3 est le modèle de choix pour les étiqueteurs OpenAI malgré qu'il ait 100 fois moins de paramètres que le modèle sur lequel il se fonde.

La société a également noté que «en même temps, nous montrons que nous n'avons pas à faire de compromis sur les capacités de GPT-3, telles que mesurées par notre modèle's performant sur les évaluations académiques en PNL. »

Les modèles InstructGPT étaient en mode bêta sur l'API depuis plus de douze mois et sont désormais ses modèles de langage par défaut. À l'avenir, OpenAI estime que modèle le raffinement avec des humains dans la boucle est le moyen le plus efficace d'améliorer la fiabilité et la sécurité.

Points clés

  • InstructGPT est le successeur du grand langage GPT-3 modèle (LLM) développé par OpenAI. Il a été développé en réponse aux plaintes des utilisateurs concernant les résultats toxiques ou nocifs générés par le GPT-3. 
  • Pour résoudre le problème, OpenAI a utilisé une technique connue sous le nom d'apprentissage par renforcement à partir de la rétroaction humaine (RLHF). Le processus est mieux décrit comme un cycle de rétroaction en 3 étapes entre un humain, l'apprentissage par renforcement et le modèlesa compréhension de la objectif.
  • Malgré l'augmentation de performant, il convient de noter que Instruct GPT3 est le modèle de choix pour les étiqueteurs OpenAI malgré qu'il ait 100 fois moins de paramètres.

Points forts d'InstructGPT :

  • Introduction à InstructGPT :
    • InstructGPT est le successeur du GPT-3 d'OpenAI modèle.
    • Développé pour répondre aux plaintes des utilisateurs concernant GPT-3, en particulier concernant les résultats toxiques ou trompeurs.
    • Utilise l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF) pour une fiabilité et une sécurité améliorées.
  • De GPT-3 à InstructGPT :
    • GPT-3 était basé sur l'architecture du transformateur, une étape majeure dans l'IA.
    • InstructGPT intègre l'apprentissage en contexte via des invites et apprend des commentaires humains.
    • La principale distinction entre GPT et InstructGPT réside dans l'utilisation par ce dernier du feedback humain lors du réglage fin.
  • Comprendre InstructGPT :
    • Conçu pour mieux suivre les instructions en anglais, réduire la désinformation et minimiser les émissions toxiques.
    • Il utilise un processus RLHF en trois étapes, améliorant modèleL'alignement de avec les résultats souhaités par l'homme.
  • Trois étapes dans la formation InstructGPT :
    • Étape 1: Collectez des données de démonstration écrites par des humains et affinez les modèle en utilisant l’apprentissage supervisé.
    • Étape 2: Utiliser des données étiquetées par l'homme pour former une récompense modèle qui évalue la modèleles sorties.
    • Étape 3: Affiner le modèle utiliser la récompense modèle pour maximiser le rendement souhaité.
  • InstructGPT contre GPT-3 :
    • InstructGPT est préféré par les étiqueteurs OpenAI malgré 100 fois moins de paramètres que GPT-3.
    • OpenAI estime que l'amélioration des modèles avec la participation humaine est le meilleur moyen d'améliorer la fiabilité et la sécurité.
  • Importance globale :
    • Les modèles InstructGPT, après avoir été en mode bêta pendant plus d'un an, sont désormais les modèles de langage par défaut pour OpenAI.
    • L’accent est mis sur la garantie que l’IA comprend et exécute les instructions de l’utilisateur sans compromettre la sécurité et la fiabilité.

Concepts d'IA connectée

AGI

intelligence-artificielle-vs-apprentissage-machine
L'IA généralisée se compose d'appareils ou de systèmes capables de gérer eux-mêmes toutes sortes de tâches. L'extension de l'IA généralisée a finalement conduit au développement de l'apprentissage automatique. En tant qu'extension de l'IA, Machine Learning (ML) analyse une série d'algorithmes informatiques pour créer un programme qui automatise les actions. Sans programmation explicite des actions, les systèmes peuvent apprendre et améliorer l'expérience globale. Il explore de grands ensembles de données pour trouver des modèles communs et formuler des modèles analytiques par l'apprentissage.

Apprentissage en profondeur contre apprentissage automatique

apprentissage profond vs apprentissage automatique
L'apprentissage automatique est un sous-ensemble de l'intelligence artificielle où les algorithmes analysent les données, apprennent de l'expérience et prennent de meilleures décisions à l'avenir. L'apprentissage en profondeur est un sous-ensemble de l'apprentissage automatique où de nombreux algorithmes sont structurés en couches pour créer des réseaux de neurones artificiels (ANN). Ces réseaux peuvent résoudre des problèmes complexes et permettre à la machine de s'entraîner à effectuer une tâche.

DevOps

ingénierie devops
DevOps fait référence à une série de pratiques exécutées pour effectuer des opérations automatisées ,software processus de développement. Il s'agit d'une conjugaison des termes « développement » et « opérations » pour souligner la manière dont les fonctions s'intègrent dans les équipes informatiques. Les stratégies DevOps favorisent la création, le test et le déploiement transparents des produits. Il vise à combler un fossé entre les équipes de développement et d'exploitation afin de rationaliser le développement dans son ensemble.

AIOps

AIOPS
AIOps est l'application de l'intelligence artificielle aux opérations informatiques. Il est devenu particulièrement utile pour l'informatique moderne gestion dans des environnements hybrides, distribués et dynamiques. L'AIOps est devenu un élément opérationnel clé de numériquedes organisations basées sur ,software et algorithmes.

Opérations d'apprentissage automatique

mlops
Machine Learning Ops (MLOps) décrit une suite de meilleures pratiques qui aident avec succès un la performance des entreprises exécuter l'intelligence artificielle. Il comprend les compétences, les flux de travail et les processus permettant de créer, d'exécuter et de maintenir des modèles d'apprentissage automatique pour aider divers processus opérationnels au sein des organisations.

Structure organisationnelle d'OpenAI

structure-organisationnelle-openai
OpenAI est un laboratoire de recherche en intelligence artificielle qui est devenu une entreprise à but lucratif organisation en 2019. L'entreprise structure est organisé autour de deux entités : OpenAI, Inc., qui est une Delaware LLC unipersonnelle contrôlée par OpenAI à but non lucratif, Et OpenAI LP, qui est une société plafonnée à but lucratif organisation. OpenAI LP est régie par le conseil d'administration d'OpenAI, Inc (la fondation), qui agit en tant que commandité. Dans le même temps, les commanditaires comprennent des employés du LP, certains membres du conseil d'administration et d'autres investisseurs comme la fondation caritative de Reid Hoffman, Khosla Ventures, et Microsoft, le principal investisseur du LP.

Modèle commercial OpenAI

comment-openai-gagne-t-il-de-l'argent
OpenAI a construit la couche fondamentale de l'IA industrie. Avec de grands modèles génératifs comme GPT-3 et DALL-E, OpenAI offre un accès API aux entreprises qui souhaitent développer des applications au-dessus de ses modèles fondamentaux tout en étant en mesure de connecter ces modèles à leurs produits et de personnaliser ces modèles avec des données propriétaires et une IA supplémentaire. fonctionnalités. D'autre part, OpenAI a également publié ChatGPT, se développant autour d'un freemium modèle. Microsoft commercialise également des produits d'ouverture via son partenariat commercial.

OpenAI/Microsoft

openai-microsoft
OpenAI et Microsoft se sont associés d'un point de vue commercial. L'histoire du partenariat a commencé en 2016 et s'est consolidée en 2019, Microsoft investissant un milliard de dollars dans le partenariat. Il fait maintenant un bond en avant, avec Microsoft en pourparlers pour investir 10 milliards de dollars dans ce partenariat. Microsoft, par le biais d'OpenAI, développe son supercalculateur Azure AI tout en améliorant sa plate-forme d'entreprise Azure et en intégrant les modèles d'OpenAI dans son la performance des entreprises et produits grand public (GitHub, Office, Bing).

Modèle commercial d'IA de stabilité

comment-stabilité-ai-gagne-de-l'argent
Stability AI est l'entité derrière Stable Diffusion. Stability gagne de l'argent grâce à nos produits d'IA et à la fourniture de services de conseil en IA aux entreprises. Stability AI monétise Stable Diffusion via les API de DreamStudio. Bien qu'il le publie également en open source pour que quiconque puisse le télécharger et l'utiliser. Stability AI gagne également de l'argent via entreprise services, où son équipe de développement de base offre la possibilité de entreprise clients à servir, escaliers, et personnalisez Stable Diffusion ou d'autres grands modèles génératifs à leur Besoins.

Écosystème d'IA de stabilité

stabilité-ai-écosystème

Principaux guides gratuits :

Découvrez plus de FourWeekMBA

Abonnez-vous maintenant pour continuer à lire et accéder aux archives complètes.

Lire la suite

Remonter en haut
FourWeekMBA