Google presenta Gemini, una IA multimodal, flexible y disponible en tres tamaños

Tecnología

El modelo, que ya se puede probar en Bard y los Pixel 8 Pro, es capaz de comprender y combinar texto, imágenes, audio, vídeo y código

Así es el bastión de defensa de Google en Andalucía

Su modelo de inteligencia artificial (IA) más grande y capaz hasta la fecha. Así ha presentado Google Gemini, una IA multimodal, flexible y disponible en tres tamaños que puede ejecutarse casi en cualquier parte, desde dispositivos móviles hasta centros de datos.

Según explicó la compañía por medio de un comunicado firmado por su consejero delegado Sundar Pichai, Gemini es el resultado de un trabajo colaborativo de diferentes equipos en Google, incluídos DeepMind y Google Research.

Gemini ha sido desarrollado para que sea multimodal de forma nativa y, según explicó Demis Hassabis, director ejecutivo y cofundador de Google DeepMind, puede "comprender, operar y combinar a la perfección distintos tipos de información, como texto, imágenes, audio, vídeo y lenguajes de código".

Esta primera versión del modelo, Gemini 1.0, llega en tres tamaños: Ultra (más potente y de mayor tamaño, para tareas de gran complejidad), Pro (para escalar en una amplia gama de tareas) y Nano (el más eficiente, para ejecutar tareas directamente en un dispositivo).

Google Gemini

En el anuncio, Google destacó las ventajas y avances que supone para empresas, desarrolladores y particulares.

Gemini para los usuarios

Para los usuarios, ya está disponible (en inglés) Bard con una versión afinada de Gemini Pro, con mejoras en el resumen, brainstorming, escritura y planificación.

Además, la compañía está introduciendo el modelo en los teléfonos Pixel 8 Pro, con nuevas funciones como resumir en la Grabadora y respuesta inteligente en el teclado Gboard. En los próximos meses, adelantó, Gemini estará disponible en otros productos y servicios de la tecnológica, como el buscador, los anuncios, el navegador Chrome o Duet AI.

Gemini para desarrolladores y empresas

Por lo que se refiere a desarrolladores y empresas, podrán a partir del 13 de diciembre acceder a Gemini Pro mediante la API de Gemini a través de Google AI Studio (herramienta gratuita para desarrolladores basada en web que ayuda a crear prototipos y lanzar aplicaciones con una clave API) y Vertex AI (a la hora de tener una plataforma de IA administrada, permite la personalización de Gemini con control de datos y se beneficia de funciones adicionales de Google Cloud para seguridad empresarial, privacidad y gobernanza y cumplimiento de datos).

Google Gemini

En Android, los desarrolladores podrán crear con Gemini Nano a través de AICore, una nueva capacidad del sistema disponible en Android 14, a partir de dispositivos Pixel 8 Pro.

Además, Gemini Ultra estará disponible a través de un programa de acceso anticipado para desarrolladores, socios y empresas seleccionadas, antes de abrirlo de manera más extendida a principios del año que viene.

A principios de 2024, Google también estrenará Bard Advanced, una nueva experiencia de IA que da acceso a "nuestros mejores modelos y capacidades, comenzando con Gemini Ultra".

Qué puede hacer Gemini

Según la documentación publicada por Google, Gemini Ultra supera los resultados más avanzados en 30 de las 32 cotas académicas de uso generalizado, utilizadas en la investigación y el desarrollo de grandes modelos lingüísticos (LLM).

Qué puede hacer Google Gemini

Con una puntuación del 90,0%, Gemini Ultra es el primer modelo que supera a los expertos humanos en MMLU (comprensión masiva del lenguaje multitarea), que utiliza una combinación de 57 materias, como matemáticas, física, historia, derecho, medicina y ética, con las que se pone a prueba tanto el conocimiento del mundo como la capacidad de resolución de problemas.

"Nuestro nuevo enfoque de referencia para MMLU permite a Gemini utilizar sus capacidades de razonamiento para pensar más detenidamente antes de responder a preguntas difíciles, lo que se traduce en mejoras significativas", explica Hassabis.

Gemini Ultra también logra una puntuación del 59,4% en la nueva cota de referencia MMMU, que consiste en realizar tareas multimodales en diferentes ámbitos para los que se requiere un razonamiento deliberado.

Gemini 1.0 puede extraer conocimientos difíciles de identificar entre ingentes cantidades de datos y obtener conclusiones a partir de cientos de miles de documentos mediante la lectura, el filtrado y la comprensión de la información. Al haber sido entrenado para comprender distintos modos de información a la vez, entiende mejor la información matizada y puede responder preguntas sobre temas complicados.

Google Gemini

Y, si hablamos de código, puede entender, explicar y generar código de alta calidad en los lenguajes más populares del mundo, como Python, Java, C++ y Go.

Seguridad y responsabilidad

Por lo que se refiere a la seguridad y responsabilidad, Google, a partir de sus Principios de IA, ha añadido, asegura, "nuevas protecciones adaptadas a las capacidades multimodales de Gemini, incluidas medidas contra sesgos y toxicidad". Así, han abordado áreas de riesgo como la ciberdelincuencia, la persuasión o la autonomía para identificar problemas de seguridad críticos antes del despliegue de Gemini.

Para limitar los daños, han creado lo que llaman clasificadores de seguridad específicos para identificar, etiquetar y clasificar contenidos que implican, por ejemplo, violencia o estereotipos negativos, lo que se une a filtros para que "Gemini resulte más seguro y más inclusivo para todos". La tecnológica añade que esto es un trabajo en progreso y que seguirán abordando retos como "la facticidad, la fundamentación, la atribución y la verificación".