OpenAI crea GPT-4, afirma superar a los humanos en ciertos puntos de referencia académicos

Hemos creado GPT-4, el último hito en el esfuerzo de OpenAI por ampliar el aprendizaje profundo. GPT-4 es un gran modelo multimodal (que acepta entradas de imágenes y texto, y emite salidas de texto) que, si bien es menos capaz que los humanos en muchos escenarios del mundo real, exhibe un rendimiento a nivel humano en varios puntos de referencia académicos y profesionales. Por ejemplo, aprueba un examen de barra simulado con una puntuación de alrededor del 10 % superior de los examinados; por el contrario, la puntuación de GPT-3.5 se situó en torno al 10 % inferior. Pasamos 6 meses alineando GPT-4 iterativamente utilizando lecciones de nuestro programa de pruebas contradictorias, así como también de ChatGPT, lo que resultó en nuestros mejores resultados (aunque lejos de ser perfectos) en factualidad, capacidad de dirección y rehusarse a salirse de las barandillas.
En los últimos dos años, reconstruimos toda nuestra pila de aprendizaje profundo y, junto con Azure, codiseñamos una supercomputadora desde cero para nuestra carga de trabajo. Hace un año, entrenamos GPT-3.5 como una primera «ejecución de prueba» del sistema. Encontramos y arreglamos algunos errores y mejoramos nuestros fundamentos teóricos. Como resultado, nuestra ejecución de entrenamiento GPT-4 fue (¡al menos para nosotros!) Estable sin precedentes, convirtiéndose en nuestro primer modelo grande cuyo rendimiento de entrenamiento pudimos predecir con precisión con anticipación. A medida que continuamos enfocándonos en un escalamiento confiable, nuestro objetivo es perfeccionar nuestra metodología para ayudarnos a predecir y prepararnos para capacidades futuras cada vez con mayor anticipación, algo que consideramos crítico para la seguridad.
Estamos lanzando la capacidad de ingreso de texto de GPT-4 a través de ChatGPT y la API (con una lista de espera). Para preparar la capacidad de entrada de imágenes para una mayor disponibilidad, estamos colaborando estrechamente con un solo socio para comenzar. También estamos abriendo OpenAI Evals, nuestro marco para la evaluación automatizada del rendimiento del modelo de IA, para permitir que cualquier persona informe las deficiencias en nuestros modelos para ayudar a guiar mejoras adicionales.
En una conversación informal, la distinción entre GPT-3.5 y GPT-4 puede ser sutil. La diferencia surge cuando la complejidad de la tarea alcanza un umbral suficiente: GPT-4 es más confiable, creativo y capaz de manejar instrucciones mucho más matizadas que GPT-3.5.

Para comprender la diferencia entre los dos modelos, probamos en una variedad de puntos de referencia, incluida la simulación de exámenes que fueron diseñados originalmente para humanos. Procedimos usando las pruebas disponibles públicamente más recientes (en el caso de las preguntas de respuesta libre de las Olimpiadas y AP) o comprando las ediciones 2022-2023 de los exámenes de práctica. No hicimos ningún entrenamiento específico para estos exámenes. El modelo detectó una minoría de los problemas en los exámenes durante el entrenamiento, pero creemos que los resultados son representativos; consulte nuestro informe técnico para obtener más detalles.

Esperamos que GPT-4 se convierta en una herramienta valiosa para mejorar la vida de las personas al potenciar muchas aplicaciones. Todavía queda mucho trabajo por hacer, y esperamos mejorar este modelo a través de los esfuerzos colectivos de la comunidad construyendo, explorando y contribuyendo al modelo. Fuentes: Comunicado de prensa de OpenAI, OpenAI YouTube Livestream