OpenAI presenta GPT-4o, su modelo más avanzado, diseñado para razonar en tiempo real a través de audio, visión y texto.
Este cambio marca un hito en la interacción humano-computador, permitiendo una comunicación más natural y eficiente.
Capacidades del modelo GPT-4o
GPT-4o («o» de «omni») acepta y genera combinaciones de texto, audio, imagen y video, ofreciendo respuestas en tan solo 232 milisegundos.
Al modelo de lenguaje lo convierte en una IA mucho más rápida y eficiente en comparación con sus predecesores.
Por lo tanto, mejora notablemente el rendimiento en idiomas distintos del inglés y en la comprensión de audio y visión.
Algunas de las demostraciones más destacadas de GPT-4o incluyen:
- Dos GPT-4os interactuando y cantando.
- Preparación de entrevistas.
- Juego de piedra, papel, tijera.
- Comprensión y generación de sarcasmo.
- Resolución de problemas matemáticos.
- Armonización musical entre dos GPT-4os.
- Traducción en tiempo real y aprendizaje de idiomas.
- Interacciones de servicio al cliente.

Seguridad y limitaciones del modelo
La LLM ha sido diseñado con seguridad integrada en todas sus modalidades.
Se han implementado técnicas de filtrado de datos y refinamiento post-entrenamiento para garantizar la seguridad de sus salidas.
Las evaluaciones de ciberseguridad, persuasión y autonomía del modelo indican que GPT-4o no supera el riesgo medio en ninguna categoría.
La inteligencia artificial fue sometida a pruebas rigurosas con más de 70 expertos externos en psicología social, equidad y desinformación para identificar y mitigar riesgos potenciales.
Las modalidades de audio, por ejemplo, se limitarán inicialmente a voces preestablecidas para cumplir con las políticas de seguridad.
Disponibilidad de GPT-4o
El modelo está disponible a partir de hoy en ChatGPT, con capacidades de texto e imagen desplegándose inicialmente para usuarios gratuitos y Plus.
Los desarrolladores también pueden acceder a la IA en la API y disfrutar de un modelo dos veces más rápido y la mitad de costoso que GPT-4 Turbo.
En las próximas semanas, se lanzarán nuevas capacidades de audio y video a un grupo selecto de socios de confianza.
La iteración es solo el comienzo, ya que en OpenAI continúan explorando y expandiendo las posibilidades de GPT-4o para mejorar la interacción humano-máquina.
GPT-4o es un paso enorme hacia el futuro de la inteligencia artificial, con una usabilidad práctica y eficiencia que promete transformar diversas industrias y aplicaciones.
Con información de OpenAI.
Más historias
Majorana 1: Chip cuántico de Microsoft que cambia la computación
Microsoft se prepara para el modelo GPT-5 de OpenAI
Earth Preta: Amenaza que mezcla componentes maliciosos