Technology

Google estrena nuevos agentes, herramientas de creación de contenidos y funciones de búsqueda basadas en IA generativa

La visión de Google de un mundo asistido por la IA quedó ayer más clara después de que el gigante tecnológico anunciara una amplia gama de actualizaciones de sus capacidades de IA generativa en diversas plataformas de software y dispositivos de hardware.

En su conferencia anual de desarrolladores Google I/O, la empresa presentó formas de utilizar la IA generativa para todo, desde la búsqueda en mundos online y offline hasta la creación de contenidos y la realización de tareas. También anunció nuevos modelos de IA para su familia Gemini con demostraciones para hacer la IA más rápida y eficiente con Gemini 1.5 Flash y potencialmente más privada con Gemini Nano. Otras mejoras fueron la posibilidad de que la IA digiera mayores cantidades de información y nuevas formas de que las plataformas procesen vídeo, audio, imágenes y texto.

Por otra parte, Google presentó nuevas formas de crear y editar vídeo a través de un nuevo modelo de vídeo de IA llamado Veo. También presentó formas de crear música con IA a través de su modelo Lyria y Music AI Sandbox, que Google creó en colaboración con YouTube y grandes artistas como Björn (de ABBA) y Wyclef Jean. Mientras que Veo competirá con plataformas rivales como Runway y Sora de OpenAI, la función de música la enfrenta a aplicaciones como Suno AI, cada vez más populares.

En cuanto a las imágenes, Google ha introducido mejoras en su modelo de IA para imágenes, Imagen 3, que está a disposición de los desarrolladores en modo de vista previa privada. Una de las mejoras para las imágenes es la visualización de texto legible en lugar de distorsionado en forma de palabras irreconocibles. Sin embargo, las distorsiones de texto han sido una de las formas más fáciles de identificar las imágenes generadas por IA en el pasado, incluso si no llevan marca de agua.

Según Rowan Curran, analista de Forrester especializado en IA y aprendizaje automático, las actualizaciones de Google no suponen necesariamente un cambio radical en la forma en que las empresas pueden utilizar la IA. En su lugar, muestra el creciente interés por mejorar los casos de uso existentes con capacidades multimodales.

“Ya hemos visto a lo largo de este año que la multi-modalidad se ha convertido en uno de los principales campos de batalla [por quien ha tenido la ventaja] en la carrera por los modelos”, afirma Curran. “Se espera ver una especie de evolución continua en esta dirección” dice.

Proyecto Astra y agentes de IA

Una de las formas en que Google planea ampliar sus capacidades es a través del Proyecto Astra, un nuevo asistente de IA que puede responder a consultas a través de texto, audio, imágenes y vídeo. La incorporación de la vista, el sonido y el texto permitirá al Proyecto Astra “entender y responder a nuestro complejo y dinámico mundo igual que nosotros”, dijo Sir Demis Hassabis, cofundador de Deepmind, que Google adquirió en 2014.

“Tendría que asimilar y recordar lo que ve para poder entender el contexto y actuar”, dijo Hassabis en el escenario de Google I/O. “Y tendría que ser proactivo, enseñable y personal para que puedas hablar con él de forma natural sin retrasos ni demoras”.

En muchos sentidos, algunas de las capacidades de Project Astra son similares a las nuevas actualizaciones de ChatGPT del nuevo modelo de IA GPT-4o de OpenAI, que debutó un día antes en un aparente intento de eclipsar a Google I/O. También es similar a lo que Meta estrenó hace unas semanas con su actualización para Meta AI, que impulsa varias aplicaciones de Meta y sus gafas inteligentes Meta Ray-Ban. Muchos han observado similitudes entre las últimas actualizaciones en la carrera armamentística de la IA y las capacidades de la IA imaginadas hace una década en la película de ciencia ficción de 2013 ‘Her’, del director Spike Jonze, protagonizada por Joaquin Phoenix y Scarlett Johansson.

Los marketers querrán saber cómo influyen los agentes de IA en las personas, según Geoffrey Colon, cofundador de Feelr Media, una nueva agencia creativa centrada en el diseño, la producción y la estrategia. Aunque es demasiado pronto para saber lo bueno que será Veo, podría beneficiar a YouTube al dar a los creadores herramientas para elaborar vídeos cinematográficos sin necesidad de conocimientos técnicos, lo que podría aportar contenidos más producidos para dispositivos más pequeños y televisores conectados de mayor tamaño.

Al realizar tareas en nombre de los usuarios, Colon afirma que Project Astra podría cumplir por fin lo prometido por asistentes anteriores como Cortana, de Microsoft. Habiendo dirigido anteriormente equipos de marketing y contenidos en Microsoft y Dell, cree que Project Astra y los otros agentes de IA de Google no deberían verse como IA sino como IA: “asistentes inteligentes”.

“La historia de la IA será menos sobre los modelos en sí y todo sobre lo que pueden hacer por ti”, dijo Colon. “Y esa historia gira en torno a los agentes: robots que no se limitan a hablar con usted, sino que realmente hacen cosas en su nombre. Algunos de estos agentes serán herramientas ultra-sencillas para hacer cosas, mientras que otros serán más como colaboradores y compañeros”.

Cómo aborda Google los deepfakes, la desinformación y la privacidad de la IA

Google abordó las preocupaciones sobre el mal uso de los contenidos generados por IA en forma de deepfakes y desinformación. Por ejemplo, los ejecutivos anunciaron en el escenario que la herramienta SynthID de Google para marcas de agua se ampliará para su uso en contenidos de texto y vídeo generados por IA, incluida la marca de agua en contenidos de vídeo de Veo.

Los ejecutivos de Google también hablaron de cómo la empresa planea mejorar la protección de la privacidad en sus diversas plataformas y dispositivos. Otra forma es a través de un nuevo modelo de IA llamado Gemini Nano, que aparecerá en los dispositivos Google Pixel a finales de este año y permitirá a las personas tener capacidades de IA generativa multimodal en su teléfono en lugar de enviar datos fuera de un dispositivo. Google también está agregando formas para que los dispositivos detecten intentos de fraude como estafas de IA de deepfakes de video y audio o estafas de texto.

La IA generativa y el futuro de las búsquedas

Google tiene previsto ampliar el uso de la IA generativa en las búsquedas con nuevas formas de interacción de los usuarios con la Búsqueda de Google y nuevas funciones de búsqueda para Gmail, Google Fotos y otras aplicaciones. Una de las formas es a través de los resúmenes de IA, que resumen los resultados de búsqueda tradicionales. Esta función, que se lanzará esta semana en EE.UU. y llegará a 1.000 millones de usuarios en todo el mundo a finales de 2024, se basa en el año de pruebas de Google con Search Generative Experience (SGE) a través de Search Labs, que debutó en Google I/O 2023.

Otras actualizaciones de la IA para la búsqueda ayudarán a las personas a encontrar sus fotos, crear planes de comidas, planificar viajes y desglosar las consultas en varias partes de una pregunta. Sin embargo, Google va más allá del texto e incluye formas para que los usuarios busquen en tiempo real con entradas de audio y vídeo para hacer preguntas sobre el mundo que les rodea. Google está fundamentando las respuestas indexando información sobre ubicación, horarios comerciales y valoraciones para asegurarse de que las consultas basadas en el lugar ofrezcan información actualizada.

Combinar los datos de localización con otros contextos del lenguaje ayuda a mejorar la precisión, dependiendo de lo que la persona esté buscando. Cuando Yext examinó las ubicaciones de más de 700.000 negocios, descubrió que las empresas que tenían información completa y precisa en línea experimentaban un aumento del 278% de visibilidad en los resultados de búsqueda. Sin embargo, esto también hace que sea más importante que las empresas se aseguren de que su información en línea es precisa y está actualizada.

Según Christian Ward, director de datos de Yext, a medida que la búsqueda basada en el chat se hace más común y más útil, algunas plataformas podrían dejar de ser modelos basados en la publicidad para convertirse en modelos basados en la oferta. En su opinión, Google se encuentra en una posición privilegiada para pasar de los anuncios a las ofertas, pero añade que la transición no será fácil.

“Google está en una posición fenomenal para pasar de un modelo de anuncios a un motor de ofertas”, afirma Ward. “Incluso pueden hacerlo como una subasta de la forma en que ya están diseñados con los anuncios. La gente apuesta en contra de Google, pero eso no es una gran idea… Por favor, entiendan que esto es la tierra del Dilema del Innovador, donde van a ser arrastrados a eso pataleando y gritando”.

A pesar de todas sus innovaciones presentadas en Google I/O, otro comodín también podría hacer que Google patalee y grite: La decisión pendiente de un juez federal que supervisa el caso antimonopolio en curso. Aunque todavía no está claro lo que podría dictaminar en las próximas semanas o meses, los expertos han dicho que una sentencia podría afectar a las ambiciones de búsqueda de Google en función del resultado.

Related Articles

Back to top button