La ingeniería rápida es un concepto de procesamiento del lenguaje natural (NLP) que implica descubrir entradas que producen resultados deseables o útiles. Indicar es el equivalente a decirle al Genio en la lámpara mágica qué hacer. En este caso, la lámpara mágica es DALL-E, lista para generar cualquier imagen que desees.
Aprendizaje en contexto a través de indicaciones
En biología, la emergencia es una propiedad increíble, donde las partes que se unen, como resultado de sus interacciones, muestran nuevos comportamientos (llamados emergentes), que no se pueden ver a menor escala.
Lo más increíble es que, incluso si la versión de menor escala parece similar a la de mayor escala, el hecho de que la mayor escala se compone de más partes e interacciones, eventualmente muestra un conjunto de comportamientos completamente diferente.
Y no hay forma de predecir cuál podría ser este comportamiento.
¡Esa es la belleza (para bien o para mal) de la escala!
En la revolución actual de la IA, el aspecto más emocionante es el aumento de las propiedades emergentes de los modelos de aprendizaje automático que funcionan a escala.
Y todo comenzó con la capacidad de entrenar esos modelos de IA sin supervisión. De hecho, el aprendizaje no supervisado ha sido uno de los principios clave de esta revolución de la IA y ha despegado el progreso de la IA de los últimos años.
Antes de 2017, la mayoría de la IA funcionaba aprovechando el aprendizaje supervisado a través de pequeños conjuntos de datos estructurados, que podían entrenar modelos de aprendizaje automático en tareas muy específicas.
Después de 2017, con una nueva arquitectura llamada transformador, las cosas comenzaron a cambiar.
Esta nueva arquitectura podría usarse con un enfoque de aprendizaje no supervisado. el aprendizaje automático modelo podría entrenarse previamente en un conjunto de datos muy grande y no estructurado con una función objetivo muy simple: predicción de texto a texto.
El aspecto interesante es que el aprendizaje automático modelo, para aprender cómo realizar correctamente una predicción de texto a texto (lo que podría parecer una tarea muy simple), comenzó a aprender un montón de patrones y heurísticas en torno a los datos sobre los cuales fue entrenado.
Esto permitió el aprendizaje automático modelo para aprender una amplia variedad de tareas.
En lugar de tratar de realizar una sola tarea, el gran lenguaje modelo comenzó a inferir patrones a partir de los datos y los reutilizó al realizar nuevas tareas.
Esta ha sido una revolución fundamental. Además, el otro punto de inflexión, que salió con el papel GPT-3, fue la capacidad de impulsar estos modelos.
En resumen, permite que estos modelos aprendan más el contexto de un usuario a través de la instrucción en lenguaje natural, lo que podría cambiar drásticamente la salida del modelo.
Este otro aspecto también era emergente, ya que nadie lo pedía expresamente. Por lo tanto, así es como obtuvimos el aprendizaje en contexto, a través de indicaciones, como una propiedad emergente central de los modelos actuales de aprendizaje automático.
Comprender la ingeniería rápida
La ingeniería rápida es una propiedad emergente clave del paradigma actual de IA.
Uno de los aspectos más interesantes de Prompt Engineering es el hecho de que surgió como una propiedad emergente de escalar la arquitectura del transformador para entrenar grandes modelos de lenguaje.
Al igual que los deseos que expresa pueden volverse en su contra, cuando le indica a la máquina, la forma en que expresa lo que necesita hacer puede cambiar drásticamente la salida.
¿Y la parte más interesante?
Las indicaciones no fueron una función desarrollada por expertos en IA. Era una característica emergente. En resumen, al desarrollar estos enormes modelos de aprendizaje automático, las indicaciones se convirtieron en la forma en que la máquina ejecuta las entradas.
Ninguno lo pidió; ¡acaba de suceder!
En un artículo de 2021, los investigadores de Stanford destacaron cómo los modelos basados en transformadores se habían convertido en modelos fundamentales.
Como se explica en el mismo documento:
La historia de la IA ha sido de creciente aparición y homogeneización. Con la introducción del aprendizaje automático, la forma en que se realiza una tarea surge (se infiere automáticamente) a partir de ejemplos; con el aprendizaje profundo, emergen las características de alto nivel utilizadas para la predicción; y con los modelos básicos, surgen incluso funcionalidades avanzadas como el aprendizaje en contexto. Al mismo tiempo, el aprendizaje automático homogeneiza los algoritmos de aprendizaje (por ejemplo, la regresión logística), el aprendizaje profundo homogeneiza modelo arquitecturas (por ejemplo, redes neuronales convolucionales) y modelos básicos homogeneiza la modelo sí mismo (por ejemplo, GPT-3).
La ingeniería rápida es un proceso utilizado en IA en el que una o varias tareas se convierten en un conjunto de datos basado en indicaciones que un lenguaje modelo entonces se entrena para aprender.
La motivación detrás de la ingeniería rápida puede ser difícil de entender a primera vista propuesta de, así que vamos a describir la idea con un ejemplo.
Imagine que está estableciendo una entrega de alimentos en línea plataforma y posees miles de imágenes de diferentes vegetales para incluir en el sitio.
El único problema es que ninguno de los metadatos de la imagen describe qué vegetales están en qué fotos.
En este punto, podría clasificar las imágenes de manera tediosa y colocar fotos de papas en la carpeta de papas, fotos de brócoli en la carpeta de brócoli, etc.
También puede ejecutar todas las imágenes a través de un clasificador para ordenarlas más fácilmente pero, como descubrirá, entrene el clasificador modelo aún requiere datos etiquetados.
Con la ingeniería de solicitudes, puede escribir una solicitud basada en texto que crea que producirá los mejores resultados de clasificación de imágenes.
Por ejemplo, podría decirle a la modelo mostrar "una imagen que contiene papas”. La estructura de este indicador, o la declaración que define cómo se modelo reconoce imágenes – es fundamental para la ingeniería rápida.
Escribir el mejor mensaje es a menudo una cuestión de prueba y error. De hecho, el aviso “una imagen que contiene papas” es bastante diferente de “una foto de papas” o "una colección de papas."
Mejores prácticas de ingeniería rápidas
Como la mayoría de los procesos, la calidad de las entradas determina la calidad de las salidas. El diseño de avisos efectivos aumenta la probabilidad de que el modelo devolverá una respuesta favorable y contextual.
Escribir buenos avisos es una cuestión de entender lo que el modelo “sabe” sobre el mundo y luego aplica esa información en consecuencia.
Algunos creen que es similar al juego de charadas en el que el actor brinda la información suficiente para que su pareja descubra la palabra o frase usando su intelecto.
Pensar en modelo como representante de la pareja en las charadas. Solo se proporciona suficiente información a través del indicador de capacitación para el modelo para resolver los patrones y llevar a cabo la tarea en cuestión.
No tiene sentido sobrecargar el modelo con toda la información a la vez e interrumpiendo su flujo de inteligencia natural.
Ingeniería rápida y el modelo CLIP
El CLIP (Pre-entrenamiento Lenguaje-Imagen Contrastiva) modelo fue desarrollado por el laboratorio de investigación de IA OpenAI en 2021.
Según los investigadores, CLIP es “una red neuronal entrenada en una variedad de pares (imagen, texto). Puede recibir instrucciones en lenguaje natural para predecir el fragmento de texto más relevante, dada una imagen, sin optimizar directamente para la tarea, de manera similar a las capacidades de disparo cero de GPT-2 y 3."
Basado en una red neuronal modelo, CLIP se entrenó en más de 400 millones de pares de imagen-texto, que consisten en una imagen combinada con un pie de foto.
Con esta información, se puede introducir una imagen en el modelo, y generará un título o resumen que crea que es el más preciso.
La cita anterior también se refiere a las capacidades de disparo cero de CLIP, lo que lo hace algo especial entre los modelos de aprendizaje automático.
Se espera que la mayoría de los clasificadores entrenados para reconocer manzanas y naranjas, por ejemplo, se desempeñen bien en la clasificación de manzanas y naranjas, pero generalmente no detectarán plátanos.
Algunos modelos, incluidos CLIP, GPT-2 y GPT-3, podemos reconocer plátanos. En otras palabras, pueden ejecutar tareas para las que no fueron capacitados explícitamente. Esta capacidad se conoce como aprendizaje de tiro cero.
Ejemplos de ingeniería rápida
A partir de 2022, la evolución de los modelos de IA se está acelerando. Y esto hace que la ingeniería rápida sea cada vez más importante.
Primero obtuvimos texto a texto con modelos de lenguaje como GPT-3, BERT y otros.
Luego obtuvimos texto a imagen con Dall-E, Imagen, MidJourney y StableDiffusion.
En esta etapa, nos estamos moviendo a texto a video con Make-A-Video de Meta, y ahora Google está desarrollando su propio Imagen Video.
¡Los modelos efectivos de IA de hoy se enfocan en obtener más con mucho, mucho menos!
Un ejemplo es DreamFusion: Text-to-3D usando 2D Diffusion, creado por el laboratorio de investigación de Google.
En resumen, los modelos de difusión de IA son modelos generativos, lo que significa que producen un resultado similar al que han sido entrenados.
Y, por definición, los modelos de difusión funcionan agregando ruido a los datos de entrenamiento y generando una salida recuperando esos datos a través de una inversión del proceso de generación de ruido.
DreamFusion, de Google Research, puede traducir texto a imágenes 3D, sin tener un conjunto de datos a gran escala de datos 3D etiquetados (no disponible en la actualidad).
¡Y esa es la cosa!
Tal y como explica el grupo de investigación:
“La adaptación de este enfoque a la síntesis 3D requeriría conjuntos de datos a gran escala de datos 3D etiquetados y arquitecturas eficientes para eliminar el ruido de los datos 3D, ninguno de los cuales existe actualmente. En este trabajo, eludimos estas limitaciones mediante el uso de una difusión de texto a imagen 2D preentrenada modelo para realizar la síntesis de texto a 3D”.
¿Por qué es esto relevante?
En una web que se ha basado principalmente en texto o en imágenes 2D durante más de dos décadas, ahora ha llegado el momento de habilitar formatos mejorados, como 3D, que pueden funcionar bien en entornos AR.
En resumen, imagine que está usando sus gafas AR de Google, y estos modelos de IA debajo pueden mejorar el mundo real, con objetos 3D, sobre la marcha, lo que le permite hacer que las experiencias AR sean mucho más atractivas.
Al mismo tiempo, OpenAI anunció la conversión de voz a texto con Whisper.
Combinados, estos modelos de IA crearían un entorno multimodal en el que una sola persona o un pequeño equipo pueden aprovechar todas estas herramientas para la generación de contenido, la realización de películas, la medicina y mucho más.
Esto significa que algunas industrias, a las que no se podía ingresar antes, se vuelven más fácilmente escalables, a medida que se eliminan las barreras de entrada.
Es posible probar/lanzar/iterar mucho más rápido, lo que permite que los mercados evolucionen más rápidamente.
Si después de casi 30 años de Internet, todavía muchas industrias (desde la atención médica hasta la educación) están atrapadas en viejos paradigmas.
Una década de IA podría reorganizarlos por completo.
Cada IA modelo se solicitará de la misma manera, sin embargo, la forma de solicitar una máquina puede tener tales sutilezas que la máquina puede producir muchas salidas diferentes gracias a las variaciones de la solicitud.
Recién en octubre de 2022:
- Stability AI anuncia $ 101 millones en fondos para inteligencia artificial de código abierto.
- Jasper AI, una startup que desarrolla lo que describe como una plataforma de "contenido de IA", ha recaudado 125 millones de dólares con una valoración de 1.5 millones de dólares. Jasper está en proceso de adquirir Outwrite, una startup de inteligencia artificial, un corrector de gramática y estilo con más de un millón de usuarios.
- OpenAI, valorado en casi $ 20 mil millones, está en conversaciones avanzadas con Microsoft para obtener más fondos.
Hoy, con indicaciones, puede generar un número creciente de resultados.
¿Otra aplicación interesante? Puedes premium tus propios zapatos con indicaciones:
¿Incitar como codificar?
El 30 de noviembre, OpenAI lanzó ChatGPT.
Una interfaz de IA conversacional con capacidades increíbles.
Cuando probé ChatGPT, ¡fue alucinante!
Lo usé para generar descripciones de trabajo.
¡Con un simple aviso, me dio una salida bastante precisa en cuestión de segundos!
Eso me hizo darme cuenta de que este era otro punto de inflexión para la IA...
Y eso no es nada, de hecho, el paradigma actual de la IA es que puede codificar increíblemente bien.
¿Qué es ChatGPT?
ChatGPT es una herramienta que combina el GPT-3 modelo más un adicional de modelo llamado InstructGPT, que se ajusta a través del aprendizaje de refuerzo a partir de la retroalimentación humana para hacerlo más sólido en comparación con GPT.
Con ChatGPT, puede obtener cualquier respuesta sobre cualquier tema (aunque para esta versión Beta, estaba restringida a varias áreas).
Hay mucho más sobre ello.
Con ChatGPT, puedes convertirte en un programador.
¡Todo lo que necesitas es incitar!
¡Aquí solicité a ChatGPT que generara el código para una aplicación web de comercio de acciones!
¿Cuánto gana un ingeniero puntual?
En medio de la IA (zumbido) y la revolución, un ingeniero rápido puede ganar entre $ 150 y $ 300 por año.
Como ejemplo interesante, un ingeniero rápido y bibliotecario oferta de trabajo se vería así.
¿Cómo funciona OpenAI?
Ejemplos rápidos de ingeniería y estudio de caso
Aquí hay un ejemplo de ingeniería rápido con algunas mejores prácticas incluidas en el proceso.
Reembolso al cliente por un televisor
Imagine que un cliente se pone en contacto con una empresa de productos electrónicos para solicitar un reembolso por un televisor que compró recientemente. La empresa quiere usar un modelo eso ayudaría al departamento de servicio al cliente al generar una respuesta plausible.
En una ejecución de prueba, un cliente hipotético o de "prueba" se pone en contacto con la empresa con la siguiente consulta: Hola, me gustaría obtener un reembolso por el televisor que compré. es posible?
Para diseñar el aviso y, por extensión, formas útiles en las que el agente puede interactuar con el cliente, la empresa comienza informando al modelo de la configuración general y lo que contendrá el resto del aviso.
El indicador puede leer algo como esto: Esta es una conversación entre un cliente y un agente de atención al cliente que es servicial y educado. La pregunta del cliente: Me gustaría obtener un reembolso por el televisor comprado. es posible?
Ahora que la modelo sabe qué esperar, se muestra el inicio de la respuesta que debe dar al cliente: Respuesta del agente de atención al cliente: Hola, le agradecemos que se haya comunicado con nosotros. Sí,
Combinando la primera y la segunda parte, el indicador aclara que la respuesta a la consulta del cliente proviene de un agente de atención al cliente y que la respuesta debe ser positiva.
Composición del modelo de lenguaje de atención al cliente
El escenario anterior se puede resumir definiendo los componentes de la modelo en sí:
- Descripción de la tarea - Esta es una conversación entre un cliente y un agente de atención al cliente que es servicial y educado..
- Indicador de entrada: la pregunta del cliente.
- Entrada actual, y
- Indicador de salida – Respuesta del agente de atención al cliente: Hola, le agradecemos que se haya comunicado con nosotros. Sí,
Tenga en cuenta que los indicadores de entrada y salida son una forma eficaz de describir las tareas deseadas al modelo – especialmente cuando se incluyen múltiples ejemplos en el aviso. Con base en esto, el modelo puede producir tres salidas de texto (conocidas como terminaciones) para completar la oración después de la coma:
- Sí, podemos aceptar devoluciones si el televisor no se usa, no se abre y no está dañado.
- Sí, nos complace procesar un reembolso por la compra de su televisor. Sin embargo, tenga en cuenta que requerimos que el televisor sea devuelto a su tienda más cercana.
- Sí, esto es posible. Responda con su nombre, dirección, número de teléfono y número de recibo lo antes posible. Uno de nuestro personal de atención al cliente se pondrá en contacto con usted lo antes posible.
Si bien este es un enfoque algo simplificado, está claro que en este ejemplo el modelo aclara varias finalizaciones plausibles con solo una pequeña cantidad de interacciones de servicio al cliente.
En teoría, la empresa de electrónica podría afinar la modelo con ejemplos de cómo debe responder a preguntas, solicitudes y comentarios específicos.
Ejemplos de avisos de ChatGPT
Codigo de GENERACION
Creación de contenidos
Análisis de Datos
Educación y entrenamiento
Toma de decisiones y resolución de problemas
Puntos clave:
- La ingeniería rápida es un concepto de procesamiento del lenguaje natural (NLP) que implica descubrir entradas que producen resultados deseables o útiles.
- Como la mayoría de los procesos, la calidad de las entradas determina la calidad de las salidas en la ingeniería rápida. El diseño de avisos efectivos aumenta la probabilidad de que el modelo devolverá una respuesta favorable y contextual.
- Desarrollado por OpenAI, el CLIP (preentrenamiento de imágenes de lenguaje contrastivo) modelo es un ejemplo de un modelo que utiliza indicaciones para clasificar imágenes y subtítulos de más de 400 millones de pares de subtítulos e imágenes.
Puntos clave
- La ingeniería rápida es un concepto en el procesamiento del lenguaje natural (NLP) donde las entradas están diseñadas para producir los resultados deseados de los modelos de IA.
- Incitar es el equivalente a instruir a un modelo como DALL-E para generar una imagen específica basada en instrucciones dadas.
- La emergencia es una propiedad en biología e IA, donde los comportamientos y patrones complejos surgen de las interacciones entre los componentes a mayor escala.
- El aprendizaje no supervisado y la arquitectura transformadora han dado lugar a la aparición de potentes modelos de lenguaje que pueden realizar una amplia variedad de tareas.
- La ingeniería rápida surgió como una forma de instruir a los modelos de lenguaje para que realicen tareas específicas a través de instrucciones en lenguaje natural.
- Los modelos de IA como CLIP y ChatGPT son ejemplos de ingeniería rápida donde los modelos pueden reconocer imágenes o generar código basado en indicaciones.
- La ingeniería rápida se puede utilizar en varias industrias para la generación de contenido, la generación de código, la toma de decisiones y más.
- Se puede solicitar a los modelos de IA que realicen una cantidad cada vez mayor de tareas, y la cantidad de casos de uso se está expandiendo rápidamente.
- Los ingenieros rápidos pueden ganar alrededor de $ 150-300 mil por año, y el campo está experimentando importantes crecimiento e inversión.
- ChatGPT, una interfaz conversacional de IA, se puede usar como una herramienta de codificación con indicaciones, lo que la convierte en un recurso valioso para desarrolladores y creadores.
Leer Siguiente: Fichas de IA, Modelos de negocio de IA, IA empresarial, ¿Cuánto vale la industria de la IA?, Economía de IA.
Marcos empresariales conectados
Inteligencia artificial vs.aprendizaje automático
Aprendizaje automático (Machine learning & LLM)
Plantilla de modelo de negocio tecnológico
Recursos adicionales: