software

GPT-5.5, DeepSeek V4 y Claude Opus 4.7: la nueva guerra de benchmarks

Fuente original

La carrera por la inteligencia artificial volvió a moverse esta semana con tres lanzamientos que, aunque no compiten exactamente en el mismo tablero, sí están reordenando la conversación del mercado: GPT-5.5 de OpenAI, Claude Opus 4.7 de Anthropic y la nueva DeepSeek V4. El punto interesante no es solo quién anunció más ruido, sino quién mostró mejor rendimiento en tareas reales: código, razonamiento largo, uso de herramientas, contexto amplio y costo por consulta.

Y ahí aparece la primera advertencia editorial: no todos los benchmarks son comparables uno a uno. OpenAI y Anthropic publican métricas propias sobre capacidades agentic, coding y tareas de largo aliento; DeepSeek, en cambio, viene con una mezcla de claims técnicos, evaluaciones de terceros y una narrativa fuerte de eficiencia. Aun así, cuando se ponen lado a lado, las diferencias sí revelan una estrategia clara para cada laboratorio.

OpenAI: GPT-5.5 apuesta por el trabajo agentic

OpenAI presentó GPT-5.5 como su modelo más inteligente e intuitivo hasta ahora, con foco explícito en escribir y depurar código, investigar en línea, analizar datos y moverse entre herramientas hasta terminar una tarea. En su propia publicación oficial, la empresa destaca que el modelo está especialmente fuerte en agentic coding, computer use, knowledge work y early scientific research. En otras palabras: el valor no está solo en responder mejor, sino en hacer más con menos supervisión.

Los números de OpenAI también son fuertes. GPT-5.5 marca 82.7% en Terminal-Bench 2.0, 84.9% en GDPval y 78.7% en OSWorld-Verified, según su anuncio oficial. Además, la compañía insiste en un detalle importante: el modelo mantiene una latencia por token similar a GPT-5.4, pero usa menos tokens para resolver las mismas tareas de Codex. Eso sugiere una mejora no solo de capacidad, sino también de eficiencia operativa.

Claude Opus 4.7: menos show, más consistencia

Anthropic juega otro estilo. Claude Opus 4.7 se presenta como una mejora seria sobre Opus 4.6, especialmente en software engineering avanzado, tareas largas y seguimiento fino de instrucciones. La empresa dice que en su benchmark interno de 93 tareas de código, Opus 4.7 mejoró la resolución en 13% frente a Opus 4.6. También reporta un puntaje de 0.715 en su research-agent benchmark interno, con el mejor desempeño en tareas de largo contexto y disciplina de datos.

La lectura técnica aquí es interesante: Claude no está tratando de ganar por estruendo mediático, sino por consistencia, precisión y mejor manejo de tareas largas donde el modelo tiene que verificar sus propios pasos antes de responder. Anthropic incluso subraya que Opus 4.7 sigue por debajo de su más ambicioso Claude Mythos Preview, pero aun así lo muestra como el modelo público más sólido para trabajo serio.

En precio, además, no hay sorpresa: Anthropic mantiene la tarifa de Opus 4.6, lo que le da una narrativa simple y potente para developers: más rendimiento, mismo costo.

DeepSeek V4: la amenaza por eficiencia

DeepSeek no busca dominar por prestigio, sino por economía. Su nueva familia V4 llega con un modelo Mixture-of-Experts de 1.6 billones de parámetros totales y 49 mil millones activos, además de una ventana de contexto de 1 millón de tokens. TechCrunch reportó que la empresa afirma que V4 y V4 Pro cierran la brecha con modelos frontier en varias tareas de razonamiento, y que en coding competition benchmarks su rendimiento sería comparable a GPT-5.4.

La parte más agresiva, sin embargo, está en el precio. DeepSeek V4 Pro se mueve en 0.145 dólares por millón de tokens de entrada y 3.48 dólares por millón de salida, muy por debajo de GPT-5.5 y Claude Opus 4.7. Esa es su verdadera arma: no necesariamente ser el mejor en todos los exámenes, sino demostrar que un modelo muy capaz puede costar muchísimo menos. TechCrunch también recoge la propia advertencia del laboratorio: DeepSeek V4 todavía estaría 3 a 6 meses detrás del estado del arte en conocimientos generales.

Entonces, ¿quién compite mejor?

Si la pregunta es quién domina el pico de calidad pública, OpenAI parece haber tomado ventaja visible con GPT-5.5. Si la pregunta es quién ofrece la experiencia más estable para trabajo largo y preciso, Claude Opus 4.7 sigue siendo el candidato más sólido. Y si la pregunta es quién presiona más el mercado por precio y acceso, DeepSeek V4 es el que más obliga a los demás a justificarse.

La conclusión real es menos romántica y más útil: la guerra de modelos ya no se gana solo con inteligencia bruta. Ahora se gana con una mezcla de benchmark, costo, latencia, contexto, confianza y utilidad real. En ese tablero, OpenAI lidera la visibilidad, Claude lidera la consistencia y DeepSeek lidera la presión económica.

Fuentes verificadas: OpenAI, Anthropic, TechCrunch y VentureBeat.

Fuente: OpenAI, Anthropic, TechCrunch, VentureBeat

Noticias IA de ACIAPR

Noticias de inteligencia artificial curadas con contexto, verificadas con fuentes confiables y más...

GPT-5.5, DeepSeek V4 y Claude Opus 4.7: la nueva guerra de benchmarks

OpenAI: GPT-5.5 apuesta por el trabajo agentic

Claude Opus 4.7: menos show, más consistencia

DeepSeek V4: la amenaza por eficiencia

Entonces, ¿quién compite mejor?