El teatro del VO2max: casi nadie mide lo que dice medir

Longevity · Editorial crítico

Estado

Opinión KRECE

Valoración KRECE

8 /10

Evidencia

9 /10

Impacto

9 /10

Dificultad

Intermedio

Lectura

14 min

Revisión

V1.7 · Rev. 1

Categoría

Editorial

Cuando alguien dice que su VO₂max es 42, la pregunta clínica no es qué hacer con ese número. Es cómo se midió. Porque hay una diferencia entre ergoespirometría con máscara y rampa estandarizada, test de Bruce extrapolado desde METs, y un reloj de muñeca que cruza frecuencia cardíaca con pace. La mortalidad en los metaanálisis se midió con el primero. El número que aparece en tu pulsera es el tercero. El teatro empieza cuando tratamos los tres como si fueran lo mismo.

El VO₂max es, por buena razón, el biomarcador más poderoso que tenemos para predecir mortalidad por todas las causas. Lo dijimos en el ancla de este cluster: el cuartil inferior tiene un riesgo relativo de muerte hasta cinco veces superior al cuartil superior, efecto mayor que fumar, que la hipertensión, que la diabetes, o que los marcadores lipídicos clásicos como ApoB y Lp(a). Ese dato es real. Y precisamente por lo importante que es, merece ser medido bien, no estimado con teatro.

Este editorial es sobre la distancia entre lo que se mide y lo que se dice que se mide. Sobre los tres actos del teatro del VO₂max — wearables que lo estiman desde frecuencia cardíaca, pruebas de esfuerzo clínicas que lo extrapolan desde METs, y metaanálisis gigantes cuyos percentiles circulan como si todos hubieran usado CPET. Spoiler: casi ninguno lo hizo.

Al final, un protocolo de validación cruzada que cualquier lector puede ejecutar una vez al año para saber, al menos, cuánto se miente su propio reloj.

01 · El truco básico

Medir VO₂max es una sola cosa. Todo lo demás es predecirlo.

Medir VO₂max de verdad requiere una máquina específica: un analizador metabólico que cuantifica, respiración a respiración (breath-by-breath), el consumo de oxígeno y la producción de dióxido de carbono. El sujeto lleva una máscara o boquilla conectada al equipo, hace ejercicio en una rampa incremental hasta el agotamiento, y el software registra el punto en el que el consumo de O₂ deja de subir aunque la carga siga aumentando — el plateau de VO₂, criterio clásico. Esto es ergoespirometría, o CPET (Cardiopulmonary Exercise Testing). Estado de oro. Sin máscara no hay VO₂max. Hay estimación.

El resto de métodos — cualquiera que no mida gases exhalados — hace lo siguiente: registra alguna variable indirecta (pace, carga alcanzada en cinta, frecuencia cardíaca de recuperación, tiempo aguantando una velocidad) y la cruza con datos del sujeto (edad, sexo, peso) en una fórmula de predicción. Esa fórmula devuelve un número en ml/kg/min. Ese número sale después en una pantalla o en un informe etiquetado como «VO₂max». Es una predicción. No es lo mismo que haberlo medido.

Aquí está el problema semántico del que se alimenta todo el teatro: el lenguaje del sector no distingue. «VO₂max 42″ en un Apple Watch, en un informe de prueba de esfuerzo con cardiólogo de seguros, y en un paper de cardiología deportiva se lee igual. Pero hay órdenes de magnitud de diferencia en el error de medición y en el contexto clínico. Empecemos por el que lleva más gente encima.

02 · Primer acto — el teatro wearable

Un reloj no mide oxígeno. Mide pulso y movimiento.

Ningún smartwatch comercial mide VO₂max. Lo estima. El algoritmo típico cruza tres inputs: frecuencia cardíaca (por sensor óptico de muñeca o banda de pecho), velocidad o potencia de movimiento (GPS o acelerómetro), y datos del usuario (peso, edad, sexo). Sobre esa base se aplica un modelo que predice el consumo de oxígeno asumiendo una eficiencia metabólica estándar. Lo que sale es un estimador, no una medición.

El primer punto débil del estimador es la variable que lo ancla todo: la frecuencia cardíaca. Los sensores ópticos de muñeca (fotopletismografía, PPG) arrastran un error del 10 al 20 por ciento en la medición de FC durante el ejercicio, y ese error se degrada conforme sube la intensidad por artefactos de movimiento [3]. En zonas 4 y 5 — precisamente donde se define VO₂max — se han documentado discrepancias de 20 a 30 lpm contra una banda de pecho como la Polar H10 [3]. Cuando el input bailo, el número final baila más. Un metaanálisis de 2018 sobre 20 dispositivos comerciales encontró que los wearables sobreestiman el gasto calórico durante ejercicio entre un 28 y un 93 por ciento [5]. El «VO₂» que la pantalla devuelve nace de esa misma cocina.

10–20%

Error típico de FC en sensores ópticos de muñeca durante ejercicio

28–93%

Sobreestimación de gasto energético en wearables (metaanálisis 2018)

20–30 lpm

Diferencia documentada en zonas 4–5 vs banda de pecho

±5–15

ml/kg/min de desviación esperable contra CPET real

Cómo queda cada fabricante

No todos los wearables son iguales. La correlación con CPET depende del tamaño de la base de datos de entrenamiento del algoritmo y de la calidad del sensor. La siguiente tabla resume el estado de la evidencia comparativa.

Dispositivo	Correlación vs CPET	Error típico	Uso clínico defendible
Garmin (Forerunner, Fenix, Epix)	~0,90	±3–5 ml/kg/min con banda	Tendencia longitudinal, con banda de pecho
Apple Watch (Series 7+)	Moderada-alta	±4–7 ml/kg/min	Tendencia longitudinal, sujeto sano
Polar (Vantage, Pacer)	Moderada-baja	±5–9 ml/kg/min	Limitado, algoritmo menos refinado
Whoop	Baja	No publica error de VO₂max con transparencia	No defendible para VO₂max
CPET breath-by-breath	— (estándar)	±1–2 ml/kg/min	Diagnóstico, prescripción, umbrales VT1/VT2

Garmin sale mejor parado porque ha entrenado sus algoritmos con cohortes grandes de corredores y ciclistas con datos reales de laboratorio — el Firstbeat Analytics que licencian viene de tres décadas de investigación en Jyväskylä. Eso les da correlación razonable (~0,90) contra CPET en condiciones ideales: banda de pecho, carrera en plano, FC bien calibrada. Pero «correlación 0,90» no significa «mismo número». Significa que si tu VO₂max sube de verdad, el reloj lo va a reflejar en la dirección correcta. No significa que el 48 del reloj sea el 48 del laboratorio.

La conclusión útil: un wearable vale para saber si mejoras, no para saber dónde estás. El delta es interpretable; el absoluto, no. Cuando alguien publica su «VO₂max 54 según Garmin» junto al percentil de mortalidad clínico, está cruzando dos sistemas de medida que nunca se hablaron.

KRECE TIP 01 — Banda de pecho obligatoria

Si vas a seguir VO₂max con wearable, vincula una banda de pecho por Bluetooth/ANT+ (Polar H10, Garmin HRM-Pro, Wahoo TICKR). La señal eléctrica de una banda tiene precisión de milisegundo en el intervalo R-R. La de muñeca es basura para zona 4–5.

Para el adulto promedio, el combo Garmin Forerunner o Apple Watch + banda de pecho es lo máximo que se puede exigir a la medición doméstica. Sin banda, lo que sale del reloj no da para seguimiento serio por encima del umbral aeróbico.

03 · Segundo acto — el teatro clínico

Cinta de correr + cardiólogo ≠ ergoespirometría.

La prueba de esfuerzo clínica clásica — la que el cardiólogo pide antes de una cirugía, la que aparece en revisiones anuales de mutuas, la que se hace con Bruce en cinta o con cicloergómetro — no suele usar analizador de gases. Se mide FC, tensión arterial, ECG, tiempo en cinta y carga máxima. De ahí se calcula MET-equivalente, y el informe devuelve un valor de VO₂max. Ese valor no se midió. Se predijo, multiplicando METs por 3,5 (ml/kg/min equivalentes a 1 MET).

El protocolo de Bruce fue diseñado para detectar isquemia, no para cuantificar capacidad cardiorrespiratoria. Su precisión diagnóstica para patología cardíaca es del 90-95 por ciento [4], y para eso sigue siendo útil. Pero el número de VO₂max que genera es una extrapolación con error estándar de aproximadamente 3 a 7 ml/kg/min contra CPET real, y el error crece cuando el sujeto tiene eficiencia mecánica atípica — obesos, personas con limitación ortopédica, principiantes en cinta, gente con fluctuación del paso.

Método	Qué mide realmente	Correlación con CPET	Error estándar
CPET / ergoespirometría	Consumo de O₂ y producción de CO₂ respiración a respiración	—	±1–2 ml/kg/min
Test de Cooper (12 min)	Distancia máxima en 12 min a esfuerzo sostenido	r ~ 0,90	±3–5 ml/kg/min en sujetos entrenados
Protocolo de Bruce sin gases	METs alcanzados en cinta + FC máxima	Moderada	±3–7 ml/kg/min
Test de Rockport (caminata 1 milla)	Tiempo de caminata + FC final	Moderada	±4–8 ml/kg/min, variabilidad inter-sujeto
YMCA step test	Recuperación de FC tras 3 min de escalón	Baja-moderada	Adecuado para screening, no para precisión

Los factores que ensucian la predicción

La literatura documenta varios factores que hacen que la extrapolación clínica falle con particular consistencia:

Betabloqueantes. Atenolol, bisoprolol y sus primos limitan artificialmente la FC máxima. El paciente no llega al 85 por ciento de la FC teórica aunque su sistema cardiorrespiratorio lo soporte. El test termina siendo no concluyente o se subestima la capacidad. En esos casos, la escala de Borg de percepción de esfuerzo es más informativa que la FC.

La fórmula 220-edad. Obsoleta. La predicción Tanaka (208 − 0,7 × edad) se ajusta mejor en mayores de 40 [2]. En un hombre de 55 años, la diferencia es entre 165 y 170 lpm — cinco latidos que mueven varios ml/kg/min de VO₂max estimado.

Eficiencia mecánica en cinta. Un sujeto que camina bien en cinta gasta menos oxígeno para la misma velocidad que otro que tropieza o se agarra al pasamanos. La fórmula de METs asume un caminante promedio. Fuera del promedio, el VO₂max predicho se desvía.

Diabetes y síndrome metabólico. Disfunción mitocondrial subyacente altera la cinética del lactato. Pacientes diabéticos alcanzan el umbral anaeróbico a cargas más bajas, y el VO₂max submax extrapolado subestima la capacidad real. La mitofagia y el fitness mitocondrial tienen su propia conversación aquí — la abordamos en Mitofagia, ejercicio, urolitina y rapamicina, y los péptidos que intentan replicar la adaptación al ejercicio a nivel mitocondrial (MOTS-c entre otros) ocupan el siguiente satélite de este cluster.

Obesidad. El VO₂max se expresa relativo a peso corporal total. Un sujeto con alta masa grasa «penaliza» el número aunque su sistema cardiorrespiratorio esté bien. Reportar VO₂max relativo a masa libre de grasa (cuando hay bioimpedancia fiable) afina la lectura.

Traducción práctica: cuando un paciente trae un informe que dice «VO₂max 38″ de una prueba de esfuerzo convencional, lo útil es preguntar qué se midió exactamente. Si no hubo máscara ni analizador de gases, lo que hay es un número predicho con un error estándar que los metaanálisis de percentiles no conocen, y que puede ser perfectamente incompatible con los cortes de mortalidad clínica.

04 · Tercer acto — la trampa de los metaanálisis

Los percentiles que citas salieron de cohortes que tampoco midieron VO₂max.

Aquí entra el acto más fino del teatro, porque es el menos visible. Los percentiles de mortalidad que circulan en toda la literatura de longevidad — «elite», «alto», «medio-alto», «medio-bajo», «bajo» — tienen origen en un puñado de cohortes clínicas enormes. La mayoría no usaron CPET.

Estudio	N	Método de medición	Lo que sale en los titulares
Mandsager 2018 Cleveland Clinic	122.077	Prueba de esfuerzo en cinta (Bruce) con METs. No CPET sistemático.	Mortalidad 5× mayor en cuartil inferior vs superior
Kokkinos / VA Study	> 750.000	METs en cinta o cicloergómetro. Predicción desde carga alcanzada.	Riesgo relativo de mortalidad por niveles de fitness
Kodama 2009 (metaanálisis)	Agregado	Mezcla. Algunos estudios con CPET, otros con predicción.	«Cada 1 MET adicional: 13–15% menos mortalidad»
Strasser 2015 (metaanálisis)	Agregado	Mezcla. Mayoría con METs predichos.	Relación dosis-respuesta CRF / mortalidad

El punto no es que estos estudios estén mal. Son la mejor evidencia que tenemos y la relación inversa entre capacidad cardiorrespiratoria y mortalidad por todas las causas es uno de los hallazgos más consistentes de la epidemiología clínica moderna. El punto es que los cortes absolutos de VO₂max que luego aparecen en infografías («elite > 54, alto 47–54, medio 41–47…») heredan el método de predicción de las cohortes originales. Esos números no son comparables, uno a uno, con lo que te devuelve un CPET de verdad.

Ejemplo concreto: en algunos cortes de la Cleveland Clinic, el umbral «elite» para varones jóvenes se sitúa en torno a 50 ml/kg/min [1]. Cualquier triatleta profesional o ciclista de ruta de nivel medio supera 70. El coeficiente «elite» de una cohorte cardiológica (gente referida a prueba de esfuerzo por sospecha de patología) no es la definición de elite en cardiología deportiva. Son escalas distintas con el mismo nombre.

La lectura honesta: el riesgo relativo es sólido — salir del cuartil inferior reduce la mortalidad aproximadamente a la mitad, y la relación es monotónicamente inversa sin techo conocido. Los cortes absolutos son orientativos. Útiles para situar a alguien grosso modo. No son verdades absolutas contra las que comparar el número de tu reloj.

05 · El percentil es el dato, no el número

42 ml/kg/min a los 30 es mediocre. A los 70 es excepcional.

Esto es la otra gran ausencia de la conversación pública sobre VO₂max: el número crudo, sin edad ni sexo, no informa nada. El VO₂max cae aproximadamente un 13,5 por ciento por década a partir de los 30 en población general — unos 4 ml/kg/min cada diez años [6]. Lo que define si estás bien no es el valor absoluto; es dónde te sitúas en la distribución de tu edad y sexo.

−13,5%

Declive de VO₂max por década a partir de los 30

ml/kg/min perdidos cada 10 años en población general

ml/kg/min límite aproximado de independencia funcional en AVD

4–5×

Riesgo de mortalidad: cuartil inferior vs superior ajustado a edad

El mismo 42 en tres edades distintas

Un VO₂max de 42 ml/kg/min significa cosas diferentes según quién lo tenga. Los percentiles aproximados en población masculina sana, según normativas publicadas, quedan así:

Sujeto	VO₂max medido	Percentil aproximado	Lectura clínica
Hombre, 30 años	42 ml/kg/min	~p40	Mediocre. Margen de mejora 20–25%
Hombre, 50 años	42 ml/kg/min	~p75	Alto. Perfil longevista razonable
Hombre, 70 años	42 ml/kg/min	~p95+	Excepcional. Perfil elite ajustado a edad
Mujer, 40 años	42 ml/kg/min	~p90	Muy alto. Valor medio hombre es ~36 a esa edad
Hombre, 80 años	18 ml/kg/min	Umbral fragilidad	Línea de independencia funcional

La misma cifra puede ser una señal de alarma (hombre de 30 en p40 sin actividad) o una señal de fitness excepcional (hombre de 70 con salud cardiorrespiratoria de uno de 40). Los percentiles ajustados a edad y sexo son el dato real. El número crudo sin esas coordenadas es ruido descontextualizado. Este matiz lo desarrollamos más adelante en el satelite de percentiles por edad y sexo de este mismo cluster.

Hay también una línea que no se habla suficiente: por debajo de 15–18 ml/kg/min un adulto pierde la capacidad funcional para las actividades básicas de la vida diaria — subir escaleras, cargar la compra, levantarse del suelo sin ayuda. Es la línea de independencia. Todo el esfuerzo en mantener VO₂max después de los 60 es pelea para retrasar el cruce de esa línea. Es el dato clínico más importante de la longevidad funcional, y — coherentemente con todo el argumento de este editorial — tampoco se discute tanto como debería.

06 · Qué hacer con esto

Validación cruzada anual — el protocolo doméstico honesto

La queja sin alternativa es literatura estéril. Aquí el protocolo que KRECE considera razonable para cualquier adulto motivado a monitorizar VO₂max con seriedad, sin presupuesto de atleta profesional.

Paso 1 — CPET de referencia (anual o bienal)

Una vez al año, o como mínimo cada 18 meses a partir de los 40, ergoespirometría real con máscara y analizador de gases. En España, clínicas de medicina deportiva (Cemtro, UGC de Cardiología del Hospital Clínic, centros de alto rendimiento deportivo) ofrecen CPET por un precio que oscila entre 150 y 400 euros. En LATAM, unidades de cardiología deportiva de hospitales privados tipo Hospital Italiano o Fleni en Argentina, o centros de medicina deportiva en Paraguay en creciente desarrollo. Este es el número ancla. El resto del año se interpreta contra este.

Paso 2 — Mismo día, medición cruzada

El día del CPET, o en las 48 horas siguientes con condiciones similares, registrar también un test submax doméstico (Cooper 12 min, o Rockport si no se corre) con el wearable habitual bien equipado (banda de pecho, GPS fiable, condiciones conocidas). Esto da tres números del mismo sujeto el mismo momento: CPET, test de campo, wearable.

Paso 3 — Calcular el sesgo personal

El delta CPET – wearable es el error sistemático del dispositivo para este sujeto. Si el CPET da 48 y el Garmin da 53, el reloj sobreestima 5 ml/kg/min en este perfil. Ese sesgo se mantiene relativamente estable entre mediciones cercanas en el tiempo.

Paso 4 — Lectura del resto del año

Durante los 12 meses siguientes, el wearable vale para tendencia. Si sube 3 unidades tras una temporada de zona 2 y VO₂max intervals, eso refleja mejora real. Si cae 4, hay que prestar atención. Pero el valor absoluto se traduce siempre con el sesgo conocido: número del reloj − 5 = aproximación al CPET. El siguiente CPET recalibra el sesgo.

KRECE TIP 02 — La regla de las tres mediciones

Una al año CPET para anclar. Trimestral test de campo para confirmar. Diario wearable para tendencia. Las tres capas cubren lo que ninguna cubre por separado.

Para prescriptor: ante un paciente que presume de su número de Apple Watch, la pregunta inicial es «¿cuándo fue el último CPET?» Si la respuesta es «nunca», el valor absoluto vale lo que cuesta mirarlo — cero. Si hay CPET de referencia, el reloj se convierte en instrumento útil para seguimiento.

Este esquema no es perfecto. Es honesto. Reconoce que (a) el CPET es el dato clínicamente comparable con la literatura de mortalidad, (b) el wearable vale para ver la dirección del cambio a diario, y (c) sin calibrar los dos contra el mismo sujeto, cualquier número es decorativo. El resto del mapa — cómo entrenar para mejorar VO₂max, qué percentil objetivo toca por edad, qué péptidos aspiran a simular la adaptación al ejercicio — va en los próximos satélites de este cluster, dentro del silo de Longevidad.

07 · La posición de KRECE

Posición de KRECE

El VO₂max es el biomarcador más poderoso que tenemos. Merece ser medido bien.

Ninguna wearable mide VO₂max — lo estima desde FC y pace. El absoluto no vale como dato clínico, la tendencia sí.

El estimador depende de variables con error del 10–20% (FC por PPG) y de algoritmos entrenados con poblaciones que no son el usuario. Garmin tiene la correlación más alta (~0,90) porque ha calibrado con cohortes grandes, pero correlación no es identidad. El número absoluto del reloj no se puede comparar con los cortes de percentil clínico. La dirección del cambio, sí.

La prueba de esfuerzo sin analizador de gases es un test cardiológico excelente. Pero no mide VO₂max.

El Bruce estima desde METs con error estándar de 3–7 ml/kg/min. Funciona bien para detectar isquemia (90–95% de precisión diagnóstica), no para cuantificar capacidad cardiorrespiratoria. El informe que devuelve «VO₂max predicho» debería leerse literalmente — predicho. Sin máscara, no hay medición.

Los percentiles de mortalidad clínicos vienen de cohortes sin CPET sistemático. Sólidos en riesgo relativo, orientativos en cortes absolutos.

Mandsager (Cleveland, N=122.077), Kokkinos (VA, N>750.000) y Kodama 2009 extrapolaron desde METs en cinta. El hallazgo central — relación monotónicamente inversa CRF/mortalidad, cuartil inferior con 4–5× más riesgo — es robusto. Los umbrales absolutos («elite 54, alto 47») son orientativos y heredan la metodología de la cohorte.

El número crudo sin edad ni sexo no informa. El percentil ajustado es el dato que vale.

VO₂max cae 13,5% por década desde los 30. Un 42 a los 30 es p40 (mediocre); a los 70 es p95 (excepcional). Publicar el absoluto sin coordenadas demográficas es teatro. El percentil y el delta contra medición previa propia son lo único con valor clínico real.

Protocolo doméstico honesto: CPET anual + test de campo trimestral + wearable diario para tendencia. Nunca al revés.

Un CPET cuesta 150–400 € en España y equivalente en LATAM. Si se hace inversión en wearable premium y se sigue VO₂max con seriedad, no hacerse CPET una vez al año es como medir glucosa con detector casero y no pasar nunca por laboratorio. El dato ancla es el laboratorio. El reloj interpreta el trayecto.

Este contenido es opinión editorial de KRECE. No sustituye consulta médica individualizada ni evaluación cardiológica. La indicación de CPET, la interpretación de pruebas de esfuerzo y la prescripción de ejercicio deben realizarse con un profesional que conozca el historial clínico del paciente. La crítica a wearables y tests submax no niega su utilidad para seguimiento de tendencia, sólo acota cuándo su número es dato y cuándo es ruido.

Referencias

Mandsager K, Harb S, Cremer P, et al. Association of Cardiorespiratory Fitness With Long-term Mortality Among Adults Undergoing Exercise Treadmill Testing. JAMA Network Open 2018; 1(6):e183605. Cohorte Cleveland Clinic, N=122.077, prueba de esfuerzo con METs (no CPET sistemático).
Tanaka H, Monahan KD, Seals DR. Age-predicted maximal heart rate revisited. Journal of the American College of Cardiology 2001; 37(1):153-156. Fórmula 208 − 0,7 × edad, más precisa que 220 − edad en mayores de 40.
Passler S, Bohrer J, Blöchinger L, Senner V. Validity of Wrist-Worn Activity Trackers for Estimating VO₂max and Energy Expenditure. International Journal of Environmental Research and Public Health 2019; 16(17):3037. Revisión de sensores PPG de muñeca y su error contra CPET.
Balady GJ, Arena R, Sietsema K, et al. Clinician’s Guide to Cardiopulmonary Exercise Testing in Adults: A Scientific Statement From the American Heart Association. Circulation 2010; 122(2):191-225.
Shcherbina A, Mattsson CM, Waggott D, et al. Accuracy in Wrist-Worn, Sensor-Based Measurements of Heart Rate and Energy Expenditure in a Diverse Cohort. Journal of Personalized Medicine 2017; 7(2):3. Error en gasto energético por dispositivo comercial.
Ross R, Blair SN, Arena R, et al. Importance of Assessing Cardiorespiratory Fitness in Clinical Practice: A Case for Fitness as a Clinical Vital Sign. Circulation 2016; 134(24):e653-e699. AHA statement sobre CRF como signo vital.
Kodama S, Saito K, Tanaka S, et al. Cardiorespiratory Fitness as a Quantitative Predictor of All-Cause Mortality and Cardiovascular Events in Healthy Men and Women: A Meta-analysis. JAMA 2009; 301(19):2024-2035.

El teatro del VO2max: wearables, cintas sin gases y percentiles prestados

Medir VO2max es una sola cosa. Todo lo demás es predecirlo.