Anthropic lanza Claude Opus 4.6: IA que programa, investiga y trabaja como un profesional

Claude.

La compañía de inteligencia artificial Anthropic ha presentado Claude Opus 4.6, la última evolución de su modelo más potente. Y las mejoras no son solo incrementales: estamos ante un sistema capaz de trabajar con contextos enormes (es capaz de recordar, según las notas de lanzamiento, una conversación del tamaño de tres novelas) y con habilidades profesionales que se acercan cada vez más al trabajo humano especializado.

Un asistente que piensa antes de actuar

Lo que distingue a esta nueva versión, que ya está disponible, es su capacidad para planificar con más cuidado y mantener tareas complejas durante períodos más largos. En el ámbito de la programación, explica Anthropic, Opus 4.6 puede navegar por proyectos de código extensos con mayor fiabilidad, revisar su propio trabajo y detectar errores que versiones anteriores pasaban por alto. Es como tener un programador experimentado que, además, puede explicarte qué está haciendo en cada momento.

Las capacidades de Claude Opus 4.6 van mucho más allá del código. El modelo puede realizar análisis financieros, llevar a cabo investigaciones, crear y trabajar con documentos, hojas de cálculo y presentaciones. Todo ello con un nivel de autonomía que le permite encadenar tareas sin supervisión constante.

Números que respaldan el avance

Los resultados en pruebas especializadas confirman las afirmaciones de la compañía. En Terminal-Bench 2.0, una evaluación centrada en programación autónoma, Claude Opus 4.6 obtiene la puntuación más alta del sector.

En el Humanity's Last Exam, un examen multidisciplinar de razonamiento complejo, supera a todos los modelos de la competencia (seguro que los investigadores que han publicado un exhaustivo estudio en Nature están deseando comprobarlo).

Quizá el dato más revelador sea su rendimiento en GDPval-AA, una prueba que mide el desempeño en tareas profesionales de alto valor en finanzas, derecho y otras áreas: Opus 4.6 supera al siguiente mejor modelo del mercado (el GPT-5.2 de OpenAI) por 144 puntos Elo, y a su propio predecesor por 190 puntos.

El desafío del olvido, resuelto

Una queja habitual entre usuarios de IA es lo que se conoce como pudrición del contexto: a medida que las conversaciones se alargan, los modelos empiezan a perder información, a contradecirse o a olvidar detalles importantes mencionados páginas atrás. Opus 4.6 ataca este problema de frente.

En pruebas diseñadas para evaluar la memoria a largo plazo (donde se esconde información relevante entre cientos de miles de palabras), este modelo logra un 76% de acierto, frente al 18,5% de la versión anterior, Sonnet 4.5.

Es sin duda un cambio cualitativo: no se trata solo de que el modelo pueda almacenar mucha información, sino de que pueda usarla eficazmente incluso en conversaciones larguísimas.

Potencia sin sacrificar seguridad

Uno de los temores recurrentes con cada nuevo avance en IA es que los modelos más capaces sean también más propensos a comportamientos problemáticos. Anthropic asegura que Opus 4.6 mantiene, e incluso mejora, los estándares de seguridad de sus predecesores.

Según las auditorías automatizadas de la compañía, el nuevo modelo muestra tasas bajas de comportamientos indeseables como el engaño, la adulación excesiva o la cooperación con usos indebidos. Además, presenta la tasa más baja de negativas excesivas, como se conoce a los casos en los que el modelo se niega a responder preguntas inofensivas, de cualquier Claude reciente.

La empresa ha aplicado el conjunto más exhaustivo de evaluaciones de seguridad de cualquier modelo hasta la fecha, incorporando nuevas pruebas sobre bienestar del usuario, capacidad de rechazar peticiones peligrosas y habilidad para realizar acciones dañinas de forma encubierta. Incluso han comenzado a experimentar con métodos de interpretabilidad (la ciencia que intenta comprender el funcionamiento interno de las IA) para detectar problemas que los tests convencionales podrían pasar por alto.

Conscientes de que las capacidades mejoradas en ciberseguridad pueden usarse tanto para atacar como para defender, Anthropic ha desarrollado seis nuevas sondas especializadas para detectar respuestas potencialmente dañinas en este ámbito, y está utilizando el modelo para encontrar y corregir vulnerabilidades en software de código abierto.

Nuevas herramientas para trabajar

Junto al modelo, Anthropic ha introducido funcionalidades que permiten aprovecharlo mejor. En la plataforma para desarrolladores, destacan:

Pensamiento adaptativo: anteriormente, los programadores solo podían activar o desactivar el razonamiento extendido del modelo. Ahora Claude puede decidir por sí mismo cuándo necesita pensar más profundamente sobre un problema.
Niveles de esfuerzo: cuatro opciones (bajo, medio, alto y máximo) permiten ajustar cuánto trabaja el modelo en cada tarea, equilibrando inteligencia, velocidad y coste según las necesidades.
Compactación de contexto: cuando las conversaciones largas se acercan al límite, el sistema resume automáticamente la información antigua, permitiendo que las tareas continúen sin interrupciones.

Para usuarios no técnicos, las mejoras también son notables. Claude en Excel maneja ahora tareas más complejas y prolongadas, puede planificar antes de actuar e inferir la estructura correcta de datos desordenados.

Y, como novedad, se ha lanzado Claude en PowerPoint (en versión preliminar), que lee diseños, fuentes y plantillas maestras para mantener la coherencia visual al crear presentaciones completas.