Cuando alguien dice que su VO2max es 42, la pregunta clínica no es qué hacer con ese número. Es cómo se midió. Porque hay una diferencia entre ergoespirometría con máscara y rampa estandarizada, test de Bruce extrapolado desde METs, y un reloj de muñeca que cruza frecuencia cardíaca con pace. La mortalidad en los metaanálisis se midió con el primero. El número que aparece en tu pulsera es el tercero. El teatro empieza cuando tratamos los tres como si fueran lo mismo.
El VO2max es, por buena razón, el biomarcador más poderoso que tenemos para predecir mortalidad por todas las causas. Lo dijimos en el ancla de este cluster: el cuartil inferior tiene un riesgo relativo de muerte hasta cinco veces superior al cuartil superior, efecto mayor que fumar, que la hipertensión, que la diabetes, o que los marcadores lipídicos clásicos como ApoB y Lp(a). Ese dato es real. Y precisamente por lo importante que es, merece ser medido bien, no estimado con teatro.
Este editorial es sobre la distancia entre lo que se mide y lo que se dice que se mide. Sobre los tres actos del teatro del VO2max — wearables que lo estiman desde frecuencia cardíaca, pruebas de esfuerzo clínicas que lo extrapolan desde METs, y metaanálisis gigantes cuyos percentiles circulan como si todos hubieran usado CPET. Spoiler: casi ninguno lo hizo.
Al final, un protocolo de validación cruzada que cualquier lector puede ejecutar una vez al año para saber, al menos, cuánto se miente su propio reloj.
Medir VO2max es una sola cosa. Todo lo demás es predecirlo.
Medir VO2max de verdad requiere una máquina específica: un analizador metabólico que cuantifica, respiración a respiración (breath-by-breath), el consumo de oxígeno y la producción de dióxido de carbono. El sujeto lleva una máscara o boquilla conectada al equipo, hace ejercicio en una rampa incremental hasta el agotamiento, y el software registra el punto en el que el consumo de O2 deja de subir aunque la carga siga aumentando — el plateau de VO2, criterio clásico. Esto es ergoespirometría, o CPET (Cardiopulmonary Exercise Testing). Estado de oro. Sin máscara no hay VO2max. Hay estimación.
El resto de métodos — cualquiera que no mida gases exhalados — hace lo siguiente: registra alguna variable indirecta (pace, carga alcanzada en cinta, frecuencia cardíaca de recuperación, tiempo aguantando una velocidad) y la cruza con datos del sujeto (edad, sexo, peso) en una fórmula de predicción. Esa fórmula devuelve un número en ml/kg/min. Ese número sale después en una pantalla o en un informe etiquetado como «VO2max». Es una predicción. No es lo mismo que haberlo medido.
Aquí está el problema semántico del que se alimenta todo el teatro: el lenguaje del sector no distingue. «VO2max 42″ en un Apple Watch, en un informe de prueba de esfuerzo con cardiólogo de seguros, y en un paper de cardiología deportiva se lee igual. Pero hay órdenes de magnitud de diferencia en el error de medición y en el contexto clínico. Empecemos por el que lleva más gente encima.
Un reloj no mide oxígeno. Mide pulso y movimiento.
Ningún smartwatch comercial mide VO2max. Lo estima. El algoritmo típico cruza tres inputs: frecuencia cardíaca (por sensor óptico de muñeca o banda de pecho), velocidad o potencia de movimiento (GPS o acelerómetro), y datos del usuario (peso, edad, sexo). Sobre esa base se aplica un modelo que predice el consumo de oxígeno asumiendo una eficiencia metabólica estándar. Lo que sale es un estimador, no una medición.
El primer punto débil del estimador es la variable que lo ancla todo: la frecuencia cardíaca. Los sensores ópticos de muñeca (fotopletismografía, PPG) arrastran un error del 10 al 20 por ciento en la medición de FC durante el ejercicio, y ese error se degrada conforme sube la intensidad por artefactos de movimiento [3]. En zonas 4 y 5 — precisamente donde se define VO2max — se han documentado discrepancias de 20 a 30 lpm contra una banda de pecho como la Polar H10 [3]. Cuando el input bailo, el número final baila más. Un metaanálisis de 2018 sobre 20 dispositivos comerciales encontró que los wearables sobreestiman el gasto calórico durante ejercicio entre un 28 y un 93 por ciento [5]. El «VO2» que la pantalla devuelve nace de esa misma cocina.
Cómo queda cada fabricante
No todos los wearables son iguales. La correlación con CPET depende del tamaño de la base de datos de entrenamiento del algoritmo y de la calidad del sensor. La siguiente tabla resume el estado de la evidencia comparativa.
| Dispositivo | Correlación vs CPET | Error típico | Uso clínico defendible |
|---|---|---|---|
| Garmin (Forerunner, Fenix, Epix) | ~0,90 | ±3–5 ml/kg/min con banda | Tendencia longitudinal, con banda de pecho |
| Apple Watch (Series 7+) | Moderada-alta | ±4–7 ml/kg/min | Tendencia longitudinal, sujeto sano |
| Polar (Vantage, Pacer) | Moderada-baja | ±5–9 ml/kg/min | Limitado, algoritmo menos refinado |
| Whoop | Baja | No publica error de VO2max con transparencia | No defendible para VO2max |
| CPET breath-by-breath | — (estándar) | ±1–2 ml/kg/min | Diagnóstico, prescripción, umbrales VT1/VT2 |
Garmin sale mejor parado porque ha entrenado sus algoritmos con cohortes grandes de corredores y ciclistas con datos reales de laboratorio — el Firstbeat Analytics que licencian viene de tres décadas de investigación en Jyväskylä. Eso les da correlación razonable (~0,90) contra CPET en condiciones ideales: banda de pecho, carrera en plano, FC bien calibrada. Pero «correlación 0,90» no significa «mismo número». Significa que si tu VO2max sube de verdad, el reloj lo va a reflejar en la dirección correcta. No significa que el 48 del reloj sea el 48 del laboratorio.
La conclusión útil: un wearable vale para saber si mejoras, no para saber dónde estás. El delta es interpretable; el absoluto, no. Cuando alguien publica su «VO2max 54 según Garmin» junto al percentil de mortalidad clínico, está cruzando dos sistemas de medida que nunca se hablaron.
Si vas a seguir VO2max con wearable, vincula una banda de pecho por Bluetooth/ANT+ (Polar H10, Garmin HRM-Pro, Wahoo TICKR). La señal eléctrica de una banda tiene precisión de milisegundo en el intervalo R-R. La de muñeca es basura para zona 4–5.
Para el adulto promedio, el combo Garmin Forerunner o Apple Watch + banda de pecho es lo máximo que se puede exigir a la medición doméstica. Sin banda, lo que sale del reloj no da para seguimiento serio por encima del umbral aeróbico.
Cinta de correr + cardiólogo ≠ ergoespirometría.
La prueba de esfuerzo clínica clásica — la que el cardiólogo pide antes de una cirugía, la que aparece en revisiones anuales de mutuas, la que se hace con Bruce en cinta o con cicloergómetro — no suele usar analizador de gases. Se mide FC, tensión arterial, ECG, tiempo en cinta y carga máxima. De ahí se calcula MET-equivalente, y el informe devuelve un valor de VO2max. Ese valor no se midió. Se predijo, multiplicando METs por 3,5 (ml/kg/min equivalentes a 1 MET).
El protocolo de Bruce fue diseñado para detectar isquemia, no para cuantificar capacidad cardiorrespiratoria. Su precisión diagnóstica para patología cardíaca es del 90-95 por ciento [4], y para eso sigue siendo útil. Pero el número de VO2max que genera es una extrapolación con error estándar de aproximadamente 3 a 7 ml/kg/min contra CPET real, y el error crece cuando el sujeto tiene eficiencia mecánica atípica — obesos, personas con limitación ortopédica, principiantes en cinta, gente con fluctuación del paso.
| Método | Qué mide realmente | Correlación con CPET | Error estándar |
|---|---|---|---|
| CPET / ergoespirometría | Consumo de O2 y producción de CO2 respiración a respiración | — | ±1–2 ml/kg/min |
| Test de Cooper (12 min) | Distancia máxima en 12 min a esfuerzo sostenido | r ~ 0,90 | ±3–5 ml/kg/min en sujetos entrenados |
| Protocolo de Bruce sin gases | METs alcanzados en cinta + FC máxima | Moderada | ±3–7 ml/kg/min |
| Test de Rockport (caminata 1 milla) | Tiempo de caminata + FC final | Moderada | ±4–8 ml/kg/min, variabilidad inter-sujeto |
| YMCA step test | Recuperación de FC tras 3 min de escalón | Baja-moderada | Adecuado para screening, no para precisión |
Los factores que ensucian la predicción
La literatura documenta varios factores que hacen que la extrapolación clínica falle con particular consistencia:
Betabloqueantes. Atenolol, bisoprolol y sus primos limitan artificialmente la FC máxima. El paciente no llega al 85 por ciento de la FC teórica aunque su sistema cardiorrespiratorio lo soporte. El test termina siendo no concluyente o se subestima la capacidad. En esos casos, la escala de Borg de percepción de esfuerzo es más informativa que la FC.
La fórmula 220-edad. Obsoleta. La predicción Tanaka (208 − 0,7 × edad) se ajusta mejor en mayores de 40 [2]. En un hombre de 55 años, la diferencia es entre 165 y 170 lpm — cinco latidos que mueven varios ml/kg/min de VO2max estimado.
Eficiencia mecánica en cinta. Un sujeto que camina bien en cinta gasta menos oxígeno para la misma velocidad que otro que tropieza o se agarra al pasamanos. La fórmula de METs asume un caminante promedio. Fuera del promedio, el VO2max predicho se desvía.
Diabetes y síndrome metabólico. Disfunción mitocondrial subyacente altera la cinética del lactato. Pacientes diabéticos alcanzan el umbral anaeróbico a cargas más bajas, y el VO2max submax extrapolado subestima la capacidad real. La mitofagia y el fitness mitocondrial tienen su propia conversación aquí — la abordamos en Mitofagia, ejercicio, urolitina y rapamicina, y los péptidos que intentan replicar la adaptación al ejercicio a nivel mitocondrial (MOTS-c entre otros) ocupan el siguiente satélite de este cluster.
Obesidad. El VO2max se expresa relativo a peso corporal total. Un sujeto con alta masa grasa «penaliza» el número aunque su sistema cardiorrespiratorio esté bien. Reportar VO2max relativo a masa libre de grasa (cuando hay bioimpedancia fiable) afina la lectura.
Traducción práctica: cuando un paciente trae un informe que dice «VO2max 38″ de una prueba de esfuerzo convencional, lo útil es preguntar qué se midió exactamente. Si no hubo máscara ni analizador de gases, lo que hay es un número predicho con un error estándar que los metaanálisis de percentiles no conocen, y que puede ser perfectamente incompatible con los cortes de mortalidad clínica.
Los percentiles que citas salieron de cohortes que tampoco midieron VO2max.
Aquí entra el acto más fino del teatro, porque es el menos visible. Los percentiles de mortalidad que circulan en toda la literatura de longevidad — «elite», «alto», «medio-alto», «medio-bajo», «bajo» — tienen origen en un puñado de cohortes clínicas enormes. La mayoría no usaron CPET.
| Estudio | N | Método de medición | Lo que sale en los titulares |
|---|---|---|---|
| Mandsager 2018 Cleveland Clinic | 122.077 | Prueba de esfuerzo en cinta (Bruce) con METs. No CPET sistemático. | Mortalidad 5× mayor en cuartil inferior vs superior |
| Kokkinos / VA Study | > 750.000 | METs en cinta o cicloergómetro. Predicción desde carga alcanzada. | Riesgo relativo de mortalidad por niveles de fitness |
| Kodama 2009 (metaanálisis) | Agregado | Mezcla. Algunos estudios con CPET, otros con predicción. | «Cada 1 MET adicional: 13–15% menos mortalidad» |
| Strasser 2015 (metaanálisis) | Agregado | Mezcla. Mayoría con METs predichos. | Relación dosis-respuesta CRF / mortalidad |
El punto no es que estos estudios estén mal. Son la mejor evidencia que tenemos y la relación inversa entre capacidad cardiorrespiratoria y mortalidad por todas las causas es uno de los hallazgos más consistentes de la epidemiología clínica moderna. El punto es que los cortes absolutos de VO2max que luego aparecen en infografías («elite > 54, alto 47–54, medio 41–47…») heredan el método de predicción de las cohortes originales. Esos números no son comparables, uno a uno, con lo que te devuelve un CPET de verdad.
Ejemplo concreto: en algunos cortes de la Cleveland Clinic, el umbral «elite» para varones jóvenes se sitúa en torno a 50 ml/kg/min [1]. Cualquier triatleta profesional o ciclista de ruta de nivel medio supera 70. El coeficiente «elite» de una cohorte cardiológica (gente referida a prueba de esfuerzo por sospecha de patología) no es la definición de elite en cardiología deportiva. Son escalas distintas con el mismo nombre.
La lectura honesta: el riesgo relativo es sólido — salir del cuartil inferior reduce la mortalidad aproximadamente a la mitad, y la relación es monotónicamente inversa sin techo conocido. Los cortes absolutos son orientativos. Útiles para situar a alguien grosso modo. No son verdades absolutas contra las que comparar el número de tu reloj.
42 ml/kg/min a los 30 es mediocre. A los 70 es excepcional.
Esto es la otra gran ausencia de la conversación pública sobre VO2max: el número crudo, sin edad ni sexo, no informa nada. El VO2max cae aproximadamente un 13,5 por ciento por década a partir de los 30 en población general — unos 4 ml/kg/min cada diez años [6]. Lo que define si estás bien no es el valor absoluto; es dónde te sitúas en la distribución de tu edad y sexo.
El mismo 42 en tres edades distintas
Un VO2max de 42 ml/kg/min significa cosas diferentes según quién lo tenga. Los percentiles aproximados en población masculina sana, según normativas publicadas, quedan así:
| Sujeto | VO2max medido | Percentil aproximado | Lectura clínica |
|---|---|---|---|
| Hombre, 30 años | 42 ml/kg/min | ~p40 | Mediocre. Margen de mejora 20–25% |
| Hombre, 50 años | 42 ml/kg/min | ~p75 | Alto. Perfil longevista razonable |
| Hombre, 70 años | 42 ml/kg/min | ~p95+ | Excepcional. Perfil elite ajustado a edad |
| Mujer, 40 años | 42 ml/kg/min | ~p90 | Muy alto. Valor medio hombre es ~36 a esa edad |
| Hombre, 80 años | 18 ml/kg/min | Umbral fragilidad | Línea de independencia funcional |
La misma cifra puede ser una señal de alarma (hombre de 30 en p40 sin actividad) o una señal de fitness excepcional (hombre de 70 con salud cardiorrespiratoria de uno de 40). Los percentiles ajustados a edad y sexo son el dato real. El número crudo sin esas coordenadas es ruido descontextualizado. Este matiz lo desarrollamos más adelante en el satelite de percentiles por edad y sexo de este mismo cluster.
Hay también una línea que no se habla suficiente: por debajo de 15–18 ml/kg/min un adulto pierde la capacidad funcional para las actividades básicas de la vida diaria — subir escaleras, cargar la compra, levantarse del suelo sin ayuda. Es la línea de independencia. Todo el esfuerzo en mantener VO2max después de los 60 es pelea para retrasar el cruce de esa línea. Es el dato clínico más importante de la longevidad funcional, y — coherentemente con todo el argumento de este editorial — tampoco se discute tanto como debería.
Validación cruzada anual — el protocolo doméstico honesto
La queja sin alternativa es literatura estéril. Aquí el protocolo que KRECE considera razonable para cualquier adulto motivado a monitorizar VO2max con seriedad, sin presupuesto de atleta profesional.
Paso 1 — CPET de referencia (anual o bienal)
Una vez al año, o como mínimo cada 18 meses a partir de los 40, ergoespirometría real con máscara y analizador de gases. En España, clínicas de medicina deportiva (Cemtro, UGC de Cardiología del Hospital Clínic, centros de alto rendimiento deportivo) ofrecen CPET por un precio que oscila entre 150 y 400 euros. En LATAM, unidades de cardiología deportiva de hospitales privados tipo Hospital Italiano o Fleni en Argentina, o centros de medicina deportiva en Paraguay en creciente desarrollo. Este es el número ancla. El resto del año se interpreta contra este.
Paso 2 — Mismo día, medición cruzada
El día del CPET, o en las 48 horas siguientes con condiciones similares, registrar también un test submax doméstico (Cooper 12 min, o Rockport si no se corre) con el wearable habitual bien equipado (banda de pecho, GPS fiable, condiciones conocidas). Esto da tres números del mismo sujeto el mismo momento: CPET, test de campo, wearable.
Paso 3 — Calcular el sesgo personal
El delta CPET – wearable es el error sistemático del dispositivo para este sujeto. Si el CPET da 48 y el Garmin da 53, el reloj sobreestima 5 ml/kg/min en este perfil. Ese sesgo se mantiene relativamente estable entre mediciones cercanas en el tiempo.
Paso 4 — Lectura del resto del año
Durante los 12 meses siguientes, el wearable vale para tendencia. Si sube 3 unidades tras una temporada de zona 2 y VO2max intervals, eso refleja mejora real. Si cae 4, hay que prestar atención. Pero el valor absoluto se traduce siempre con el sesgo conocido: número del reloj − 5 = aproximación al CPET. El siguiente CPET recalibra el sesgo.
Una al año CPET para anclar. Trimestral test de campo para confirmar. Diario wearable para tendencia. Las tres capas cubren lo que ninguna cubre por separado.
Para prescriptor: ante un paciente que presume de su número de Apple Watch, la pregunta inicial es «¿cuándo fue el último CPET?» Si la respuesta es «nunca», el valor absoluto vale lo que cuesta mirarlo — cero. Si hay CPET de referencia, el reloj se convierte en instrumento útil para seguimiento.
Este esquema no es perfecto. Es honesto. Reconoce que (a) el CPET es el dato clínicamente comparable con la literatura de mortalidad, (b) el wearable vale para ver la dirección del cambio a diario, y (c) sin calibrar los dos contra el mismo sujeto, cualquier número es decorativo. El resto del mapa — cómo entrenar para mejorar VO2max, qué percentil objetivo toca por edad, qué péptidos aspiran a simular la adaptación al ejercicio — va en los próximos satélites de este cluster, dentro del silo de Longevidad.
El VO2max es el biomarcador más poderoso que tenemos. Merece ser medido bien.
Este contenido es opinión editorial de KRECE. No sustituye consulta médica individualizada ni evaluación cardiológica. La indicación de CPET, la interpretación de pruebas de esfuerzo y la prescripción de ejercicio deben realizarse con un profesional que conozca el historial clínico del paciente. La crítica a wearables y tests submax no niega su utilidad para seguimiento de tendencia, sólo acota cuándo su número es dato y cuándo es ruido.
- Mandsager K, Harb S, Cremer P, et al. Association of Cardiorespiratory Fitness With Long-term Mortality Among Adults Undergoing Exercise Treadmill Testing. JAMA Network Open 2018; 1(6):e183605. Cohorte Cleveland Clinic, N=122.077, prueba de esfuerzo con METs (no CPET sistemático).
- Tanaka H, Monahan KD, Seals DR. Age-predicted maximal heart rate revisited. Journal of the American College of Cardiology 2001; 37(1):153-156. Fórmula 208 − 0,7 × edad, más precisa que 220 − edad en mayores de 40.
- Passler S, Bohrer J, Blöchinger L, Senner V. Validity of Wrist-Worn Activity Trackers for Estimating VO2max and Energy Expenditure. International Journal of Environmental Research and Public Health 2019; 16(17):3037. Revisión de sensores PPG de muñeca y su error contra CPET.
- Balady GJ, Arena R, Sietsema K, et al. Clinician’s Guide to Cardiopulmonary Exercise Testing in Adults: A Scientific Statement From the American Heart Association. Circulation 2010; 122(2):191-225.
- Shcherbina A, Mattsson CM, Waggott D, et al. Accuracy in Wrist-Worn, Sensor-Based Measurements of Heart Rate and Energy Expenditure in a Diverse Cohort. Journal of Personalized Medicine 2017; 7(2):3. Error en gasto energético por dispositivo comercial.
- Ross R, Blair SN, Arena R, et al. Importance of Assessing Cardiorespiratory Fitness in Clinical Practice: A Case for Fitness as a Clinical Vital Sign. Circulation 2016; 134(24):e653-e699. AHA statement sobre CRF como signo vital.
- Kodama S, Saito K, Tanaka S, et al. Cardiorespiratory Fitness as a Quantitative Predictor of All-Cause Mortality and Cardiovascular Events in Healthy Men and Women: A Meta-analysis. JAMA 2009; 301(19):2024-2035.
