La IA Multimodal: La Revolución Tecnológica del Momento

¿Sabías que la nueva IA multimodal puede entender audio, video y texto al mismo tiempo? Descubre cómo funciona aquí.

Por:

Abril Delgado

No items found.

arrow_downward

¿Qué ver y qué escuchar?

21/6/2024

La IA Multimodal: La Revolución Tecnológica del Momento

¿Sabías que la nueva IA multimodal puede entender audio, video y texto al mismo tiempo? Descubre cómo funciona aquí.

Por:

Abril Delgado

No items found.

Anúnciate aquí

Las gigantes tecnológicas OpenAI y Google han presentado sus últimas y más avanzadas tecnologías de inteligencia artificial esta semana, marcando un nuevo capítulo en la carrera por crear modelos de IA más sofisticados y versátiles.

Durante los últimos dos años, el objetivo principal había sido hacer que estos modelos fueran más inteligentes.

Ahora, el enfoque ha cambiado a convertirlos en "multimodales", capaces de interactuar de manera fluida a través de diferentes canales sensoriales como la visión y la audición.

Multimodal

La palabra "multimodal" se ha convertido en el nuevo término de moda en el sector tecnológico, ya que las empresas buscan que sus modelos de IA sean una parte integral y natural de la vida cotidiana.

Desde el lanzamiento de ChatGPT en 2022, los chatbots han perdido algo de su atractivo, lo que ha impulsado a las empresas a explorar nuevas formas de interacción.

OpenAI presentó su innovador GPT-4 Omni, que recuerda a la película distópica "Ella" por su enfoque en la conexión humana. Omni, que significa "omnicanal", puede procesar video y audio simultáneamente.

En una demostración, ChatGPT resolvió un problema matemático usando la cámara de un teléfono mientras un empleado de OpenAI le daba instrucciones verbales. Esta funcionalidad ya está disponible para los usuarios premium.

Google

Además, Google reveló su Proyecto Astra, con características similares. Florence Ion, de Gizmodo, utilizó la IA multimodal para identificar flores falsas, tarea que Astra cumplió correctamente al identificar tulipanes.

Aunque Proyecto Astra mostró un desempeño más lento y una voz más robótica que GPT-4 Omni, Google afirmó que su proyecto está en fases tempranas y reconoció los desafíos actuales que OpenAI ya ha superado.

Ver esta publicación en Instagram

Una publicación compartida de zagazine (@zagazine.mx)

La IA multimodal está destinada a ser un tema recurrente en los próximos meses y años.

Su desarrollo e integración en productos cotidianos podría hacer que la inteligencia artificial sea significativamente más útil, permitiéndole "ver" y "escuchar" el mundo de una manera mucho más natural.

‍

para seguir leyendo...

¿Qué ver y qué escuchar?

¡Flow llega gratis al Zócalo! Así será la función especial por el Día del Niño

¿Qué ver y qué escuchar?

Cartelera Cinépolis: Conoce los mejores estrenos de abril 2025

¿Qué ver y qué escuchar?

Tom Cruise presentará la última entrega de "Misión imposible" en el Festival de Cannes

Anúnciate aquí