software

Google integra uso de computadora en Gemini 3.5 Flash

Google anunció que el “computer use” —la capacidad de un modelo para ver una interfaz, razonar sobre ella y ejecutar acciones como parte de un flujo de agente— ya está integrado como herramienta nativa en Gemini 3.5 Flash. La función apunta a desarrolladores y empresas que quieren construir agentes capaces de operar en entornos de navegador, móvil y escritorio con más continuidad que un simple llamado a función.

Qué ocurrió

La publicación de Google, fechada el 24 de junio y actualizada el 25, dice que el uso de computadora pasa de ser un modelo independiente de Gemini 2.5 a estar integrado directamente en Gemini 3.5 Flash. Según la compañía, Gemini ya combinaba llamadas a funciones y herramientas como Search y Maps grounding; ahora añade una herramienta incorporada para tareas de uso de computadora dentro del modelo Flash.

Google describe el caso de uso como agentes que pueden “ver, razonar y actuar” sobre interfaces. La documentación para desarrolladores y el repositorio de referencia muestran que la función se orienta a flujos donde el agente interactúa con pantallas, aplicaciones o sitios, no solo con texto. La disponibilidad inicial se canaliza por Gemini API y Gemini Enterprise Agent Platform.

Por qué importa

El anuncio es relevante porque la próxima etapa de los agentes de IA no se limita a responder preguntas o generar instrucciones. Para automatizar trabajo real, un sistema necesita operar sobre herramientas existentes: formularios web, paneles internos, aplicaciones de oficina, sistemas de pruebas, CRM, tickets, reportes o entornos de desarrollo. Integrar computer use en un modelo general como Gemini 3.5 Flash baja la distancia entre un prototipo de agente y un flujo que puede tocar software cotidiano.

Para empresas, el atractivo está en tareas largas y repetitivas: pruebas continuas de software, trabajo administrativo entre aplicaciones, revisión de información en sistemas heredados o coordinación de pasos que hoy dependen de usuarios humanos moviéndose entre pantallas. Para desarrolladores, la señal es que Google quiere que Gemini compita no solo como modelo conversacional, sino como base de agentes que ejecutan acciones.

Qué cambia para usuarios y equipos técnicos

En la práctica, esto no significa que cualquier agente pueda recibir acceso ilimitado a una computadora. Lo que cambia es la capa de producto: en vez de unir un modelo con herramientas externas de control de pantalla de manera artesanal, los equipos pueden probar una capacidad integrada en Gemini 3.5 Flash y apoyarse en documentación, APIs y ejemplos oficiales.

La diferencia puede acelerar pilotos de automatización, especialmente en equipos que ya trabajan con Gemini o Google Cloud. También puede aumentar la presión competitiva sobre otros proveedores de agentes, porque la interfaz gráfica —no solo las APIs— sigue siendo donde viven muchos procesos empresariales.

Lectura de producto y automatización

Desde la perspectiva de producto, el punto fuerte es la convergencia: modelo rápido, herramientas incorporadas, grounding y capacidad de actuar sobre interfaces. Esa combinación acerca a los agentes a procesos reales, pero también exige diseño cuidadoso. Automatizar una pantalla no es lo mismo que entender el negocio que está detrás de esa pantalla; sin permisos, observabilidad, auditoría y límites claros, el agente puede ejecutar pasos correctos en el lugar equivocado.

Google reconoce parte de ese riesgo. La publicación menciona entrenamiento adversarial dirigido contra prompt injection y dos salvaguardas empresariales opcionales: requerir confirmación explícita para acciones sensibles o irreversibles, y detener tareas automáticamente si se identifica una inyección indirecta de instrucciones. La compañía también recomienda sandboxing, verificación humana y controles estrictos de acceso.

Qué todavía no está claro

Todavía faltan evaluaciones independientes sobre confiabilidad en entornos empresariales reales, costos, límites de uso, compatibilidad con aplicaciones complejas y desempeño frente a páginas dinámicas o flujos con datos sensibles. Lo confirmado es el cambio de disponibilidad y arquitectura: computer use ya forma parte de Gemini 3.5 Flash como herramienta integrada, con documentación oficial para empezar a construir.

Fuentes consultadas

Google DeepMind / Google Blog, anuncio oficial: Leer Más AI for Developers, documentación de computer use: Leer Más Gemini, implementación de referencia: Leer Más por Nova Rivera — Perspectiva de producto y automatización.

Fuentes: Google DeepMind, Google AI for Developers, Google Gemini GitHub

Noticias IA de ACIAPR