El Fin de los Relojes
de Envejecimiento
Un modelo de 14.000 millones de parámetros acaba de superar al reloj de Horvath.
Qué cambia para el médico que prescribe longevidad.
Los relojes de envejecimiento fueron la mejor herramienta disponible durante una década. Cada uno confinado a una modalidad, con un set fijo de features y sin capacidad de explicar por qué. Longevity-LLM cambia las reglas: un solo modelo que trabaja con metilación, proteómica, transcriptómica y biomarcadores clínicos simultáneamente. Para el médico que prescribe Epithalon, NAD+ o Rapamicina, la pregunta ya no es "¿funciona?" sino "¿cómo lo vamos a medir?"
Una década de herramientas que no se hablan entre sí
Desde que Steve Horvath publicó el primer reloj epigenético multitejido en 2013, el campo ha producido docenas de modelos especializados: relojes de metilación, relojes proteómicos, relojes de expresión génica, relojes de microbioma, relojes faciales. Cada uno funciona dentro de su modalidad y produce un número — la edad biológica estimada. Pero ninguno le dice al clínico por qué el paciente está envejeciendo más rápido de lo que debería.
Las limitaciones son estructurales: cada reloj opera con un set fijo de biomarcadores, no puede manejar observaciones incompletas, y añadir una nueva modalidad requiere construir, validar y desplegar un modelo completamente nuevo. Si quieres cruzar datos de metilación con un panel proteómico y biomarcadores clínicos de NHANES, necesitas tres modelos diferentes y un humano que interprete la incoherencia entre ellos.
En marzo de 2026, Insilico Medicine publicó un preprint que propone una alternativa radical.
Longevity-LLM v0.1: destilación de relojes en un transformer
El equipo de Zhavoronkov y Galkin tomó Qwen3-14B (un modelo de lenguaje de propósito general con 14.000 millones de parámetros) y lo ajustó con supervised fine-tuning (SFT) y reinforcement fine-tuning (RFT) sobre 766.640 ejemplos de entrenamiento que cubren cuatro modalidades: metilación de ADN, proteómica, transcriptómica y biomarcadores clínicos.
El concepto clave es lo que llaman destilación de relojes de envejecimiento: en lugar de equipar un LLM con relojes externos como herramientas, convirtieron el conocimiento acumulado en múltiples relojes especializados en trazas estructuradas de entrenamiento. El resultado es un modelo monolítico que ha internalizado la biología del envejecimiento a través de modalidades.
Los números
| Tarea | Resultado Longevity-LLM | Comparación |
|---|---|---|
| Predicción edad epigenética (DNAm) | MAE 4.34 años (RFT), R²=0.914, ρ=0.950 | Horvath: MAE 4.61, R²=0.895 |
| Pronóstico cáncer RNA (TCGA survival) | 0.77 accuracy — 1º en Longevity Bench | GPT-5.2: 0.697 |
| Mortalidad NHANES (binaria, 10 años) | 0.89 accuracy — 1º | Gemini 3 Pro: anterior líder |
| Mortalidad NHANES (regresión) | MAE 51.0 meses — 1º | Todos los frontier LLMs peor |
| Edad proteómica (Olink 3072) | MAE 7.9 años, ρ=0.713 | Goeminne chrono: 6.7 (UK Biobank, n mayor) |
| Generación perfiles proteómicos | Jaccard 0.072 — 1º por 2.4x | Grok-3: 0.030, Claude Sonnet 4.5: 0.012 |
El modelo base Qwen3-14B, antes del fine-tuning, fue incapaz de producir predicciones válidas en ninguna de las tareas probadas. Todo el rendimiento viene del entrenamiento especializado, no de la capacidad generalista del LLM.
De un número a una conversación
Si eres médico y prescribes protocolos de longevidad, esto es lo que Longevity-LLM cambia en tu práctica — no hoy, pero en 2-3 años:
Un solo punto de acceso a múltiples modalidades. Ya no necesitas un reloj de metilación, un reloj proteómico y un panel clínico separados. Un modelo que procesa las tres cosas simultáneamente puede detectar discrepancias entre ellas — y esas discrepancias son clínicamente más interesantes que cualquier número individual.
Maneja datos incompletos. Los relojes actuales necesitan el set completo de features. Si falta un CpG site o una proteína en tu panel, el reloj no funciona. Un LLM entrenado en múltiples formatos de prompt puede operar con observaciones parciales — que es exactamente la situación clínica real.
Potencial de interpretabilidad. Un reloj te dice "tu edad biológica es 7 años mayor que tu edad cronológica". No te dice por qué. Longevity-LLM, por estar construido sobre un transformer conversacional, tiene la arquitectura para articular la lógica biológica detrás de sus predicciones. Los autores reconocen que esta capacidad aún es embrionaria en v0.1 y es el objetivo central de v0.2.
Si estás usando relojes epigenéticos para medir la eficacia de un protocolo con Epithalon o NAD+, no dejes de usarlos todavía. Longevity-LLM no está disponible públicamente. Pero empieza a pedir a tu laboratorio de referencia paneles proteómicos junto con metilación. Cuando el modelo multimodal sea accesible, esos datos cruzados serán oro.
Lo que el paper no dice
Es un preprint. No ha pasado peer review. Los resultados son de un sprint de 10 días, y los autores lo describen explícitamente como un "informe intermedio". El modelo es v0.1.
Todos los autores son empleados de Insilico Medicine, una empresa que cotiza en bolsa (HKEX:3696.HK) y desarrolla aplicaciones de IA para descubrimiento de fármacos. Tienen incentivo comercial directo en demostrar la viabilidad de su plataforma MMAI.
El modelo no está disponible. Nadie fuera de Insilico puede validar estos resultados de forma independiente. Los benchmarks son internos contra el Longevity Bench que ellos mismos ayudaron a crear.
En proteómica, el dataset de entrenamiento es pequeño (7.807 ejemplos, 172 sujetos). Los relojes proteómicos de Goeminne se entrenaron con UK Biobank — órdenes de magnitud más datos. El MAE de 7.9 años es competitivo pero no superior.
Un modelo que no puedes ejecutar es un paper, no una herramienta. Los números son prometedores. El concepto de destilación de relojes es sólido. Pero hasta que exista validación externa y acceso clínico, esto es investigación, no práctica.
Dónde encaja esto en lo que ya hacemos
Los tres protocolos de longevidad de KRECE que más dependen de endpoints de envejecimiento biológico son:
Epithalon — donde el endpoint natural sería la edad epigenética pre/post ciclo. Hoy usamos Horvath o variantes. Un modelo multimodal que cruzara metilación con melatonina nocturna y expresión de hTERT daría una imagen mucho más completa del efecto real.
NAD+ / NMN — donde medimos NAD+ intracelular (Jinfiniti) pero no tenemos un endpoint de envejecimiento biológico integrado. Un modelo que pudiera cruzar el NAD+ intracelular con datos proteómicos y metilación permitiría distinguir entre "subió el biomarcador" y "el paciente envejece más lento".
Rapamicina — donde el efecto sobre autofagia, mTOR y mitofagia es molecular pero la traducción a envejecimiento biológico medible sigue siendo opaca. Un modelo multimodal es exactamente la herramienta que falta.
Para la red médica B2B: empezar a acumular datos multimodales ya. Los relojes epigenéticos unitarea van a ser obsoletos en 2-3 años. Los pacientes que hoy tienen solo metilación tendrán un dataset incompleto cuando la herramienta multimodal esté disponible. Añadir proteómica y biomarcadores clínicos estandarizados ahora es una inversión en datos futuros.
Lo que defendemos
Bibliografía
Este contenido es exclusivamente informativo y editorial. No constituye consejo médico. Longevity-LLM es un modelo de investigación no disponible públicamente. Los resultados citados provienen de un preprint sin peer review cuyos autores son empleados de Insilico Medicine. KRECE no tiene relación comercial con Insilico Medicine.
