Domingo de Mythos
Lo que es real, lo que es ruido y lo que conviene seguir vigilando sobre el nuevo modelo de Anthropic
Como cada domingo, aquí viene el vídeo correspondiente. Hoy la cosa va de Mythos.
Hace ya unas semanas que Anthropic lanzó este nuevo modelo o, mejor dicho, anunció su existencia y que no lo iban a lanzar al público. La razón, según la compañía liderada por Dario Amodei, era que “first we need safeguards that reliably block their most dangerous outputs”.
Es decir: esta nueva IA es tan poderosa, que antes de lanzarla suelta necesitamos determinar bien el terreno de juego.
A este efecto, han creado el proyecto Glasswing, donde un selecto grupo de empresas norteamericanas (Apple, Cisco, Nvidia, Google, etc.) van a tener acceso a este modelo para poder determinar y resolver vulnerabilidades, antes de un posible lanzamiento público.
Unas semanas después de su lanzamiento, el humo empieza a disiparse y quedan claras algunas cosas.
De entrada, que es una IA de tremenda potencia: en programación y razonamiento el salto sobre el modelo anterior de Anthropic (Opus 4.6) es enorme — pasa de un 53% a un 78% en SWE-bench Pro, una prueba estándar de ingeniería de software, y de un 42% a un 97% en la USAMO, una de las olimpiadas matemáticas más duras del mundo.
En ciberseguridad, el AI Security Institute británico verificó de forma independiente que Mythos resuelve el 73% de las tareas expertas, y que es el primer modelo capaz de completar en solitario un ataque corporativo de 32 pasos que a un humano le llevaría unas 20 horas. Mozilla, trabajando con el modelo, encontró 271 vulnerabilidades en Firefox en una sola ronda de análisis, frente a las pocas decenas que detectaba la generación anterior.
Esto son resultados reproducibles, verificados por terceros y ya parcheados.
Pero también han caído algunos mitos (perdón por la broma fácil): para empezar, las vulnerabilidades que encuentra Mythos no son nuevas conceptualmente. La inmensa mayoría son variaciones de clases de fallos bien conocidas y comprendidas desde hace años; lo que cambia no es el qué sino el a qué velocidad y a qué escala.
Investigadores como Klaudia Kloc (CEO de Vidoc) han demostrado que mediante “orquestación” (partir el código en piezas y coordinar varios modelos públicos) se reproducen vulnerabilidades muy similares con modelos abiertos que ya existen, y que esto es así desde hace meses.
La narrativa del “modelo demasiado peligroso para liberarlo” tampoco es estrictamente nueva: Anthropic la usó con argumentos parecidos en lanzamientos anteriores, y antes que ellos OpenAI hizo exactamente lo mismo con GPT-2 en 2019.
Con este contexto, os he seleccionado un vídeo de Carlos Santana (aka DotCSV) para entender un poco más sobre Mythos. Expone con seriedad técnica los avances de este nuevo modelo, pero también explica que algunas de las aparentes novedades no son tales.
Me parece un buen marco para comprender en qué punto estamos ahora mismo con Mythos.
PS: hay siempre un elemento a tener en cuenta, con Anthropic y con las otras empresas similares. Quien más quien menos, están levantando financiación o directamente preparando su próxima salida a bolsa. Nunca hay que olvidar este hecho, a la hora de valorar noticias difundidas por ellos mismos.
PS2: para quien quiera ir a la fuente, Anthropic publicó la documentación técnica de Mythos en el blog de su Frontier Red Team, y el marco corporativo del Project Glasswing en su web oficial. Eso sí, café para los más cafeteros.

