Zagazine ...
¿Qué ver y qué escuchar?
21/6/2024

La IA Multimodal: La Revolución Tecnológica del Momento

¿Sabías que la nueva IA multimodal puede entender audio, video y texto al mismo tiempo? Descubre cómo funciona aquí.

arrow_downward
¿Qué ver y qué escuchar?
21/6/2024

La IA Multimodal: La Revolución Tecnológica del Momento

¿Sabías que la nueva IA multimodal puede entender audio, video y texto al mismo tiempo? Descubre cómo funciona aquí.

Compartir

Las gigantes tecnológicas OpenAI y Google han presentado sus últimas y más avanzadas tecnologías de inteligencia artificial esta semana, marcando un nuevo capítulo en la carrera por crear modelos de IA más sofisticados y versátiles.

Durante los últimos dos años, el objetivo principal había sido hacer que estos modelos fueran más inteligentes.

Ahora, el enfoque ha cambiado a convertirlos en "multimodales", capaces de interactuar de manera fluida a través de diferentes canales sensoriales como la visión y la audición.

Multimodal

La palabra "multimodal" se ha convertido en el nuevo término de moda en el sector tecnológico, ya que las empresas buscan que sus modelos de IA sean una parte integral y natural de la vida cotidiana.

Desde el lanzamiento de ChatGPT en 2022, los chatbots han perdido algo de su atractivo, lo que ha impulsado a las empresas a explorar nuevas formas de interacción.

OpenAI presentó su innovador GPT-4 Omni, que recuerda a la película distópica "Ella" por su enfoque en la conexión humana. Omni, que significa "omnicanal", puede procesar video y audio simultáneamente.

En una demostración, ChatGPT resolvió un problema matemático usando la cámara de un teléfono mientras un empleado de OpenAI le daba instrucciones verbales. Esta funcionalidad ya está disponible para los usuarios premium.

Google

Además, Google reveló su Proyecto Astra, con características similares. Florence Ion, de Gizmodo, utilizó la IA multimodal para identificar flores falsas, tarea que Astra cumplió correctamente al identificar tulipanes.

Aunque Proyecto Astra mostró un desempeño más lento y una voz más robótica que GPT-4 Omni, Google afirmó que su proyecto está en fases tempranas y reconoció los desafíos actuales que OpenAI ya ha superado.

La IA multimodal está destinada a ser un tema recurrente en los próximos meses y años.

Su desarrollo e integración en productos cotidianos podría hacer que la inteligencia artificial sea significativamente más útil, permitiéndole "ver" y "escuchar" el mundo de una manera mucho más natural.

Compartir