Muerte en UCIP estimada con el índice “PRISM”: comparación de la exactitud diagnóstica de las predicciones realizadas con un modelo de regresión logística y una red neuronal artificial. Una propuesta bayesiana

Modesto i Alapont, Vicent

Muerte en UCIP estimada con el índice “PRISM”comparación de la exactitud diagnóstica de las predicciones realizadas con un modelo de regresión logística y una red neuronal artificial. Una propuesta bayesiana

Modesto i Alapont, Vicent

Supervised by:

Jaime Latour Pérez Director
Andreu Nolasco Bonmatí Director
Antonio J. Serrano López Director

Defence university: Universitat d'Alacant / Universidad de Alicante

Fecha de defensa: 30 September 2011

Committee:

Luis Carlos Silva Ayçaguer Chair
Corsino Rey Galán Secretary
José David Martín Guerrero Committee member
Joaquín Moncho Vasallo Committee member
Antonio David Prieto Merino Committee member

Department:

ENFERMERIA COMUNITARIA, MEDICINA PREVENTIVA Y SALUD PUBLICA E HISTORIA DE LA CIENCIA

Type: Thesis

Teseo: 313994 DIALNET RUA editor

Abstract

1. Antecedentes y estado actual del tema El problema lógico de la inducción, enunciado inicialmente por el filósofo Hume en 1739, aún no está resuelto: no existe ningún razonamiento inductivo que sea lógicamente válido. Por tanto, la inducción pura, el aprendizaje o adquisición de nuevo conocimiento cierto derivado exclusivamente mediante especulación racional desde los datos relativos a hechos del pasado, es imposible a menos que se asuma como verdadero cierto conocimiento previo. Sin embargo, el desarrollo de la teoría de la probabilidad y la estadística nos muestra dos caminos o maneras útiles de evitarlo: la evasión bayesiana y la frecuentista. La estadística bayesiana, evade el problema haciéndonos capaces de aprender deductiva y racionalmente de los datos que nos proporciona la experiencia. La estadística frecuentista, la estimación por intervalos de confianza y la teoría inferencial de Neyman-Pearson, aún reconociendo que no es posible la inferencia inductiva sobre casos particulares, nos permiten obtener justificación deductiva para afirmar con confianza la veracidad o falsedad de ciertas hipótesis causales relativas a grupos homogéneos de individuos, y así poder llevar a cabo comportamientos inductivos consecuentes. En Medicina Clínica, la evasión frecuentista del problema de la inducción, basada en la concepción clásica de la probabilidad como límite de frecuencias, se utiliza en la práctica desde 1948. Según este paradigma, la realización de experimentos aleatorizados y la estimación inferencial por intervalos de confianza establece científicamente la eficacia de una medida terapéutica o profiláctica. El ensayo clínico es, hoy por hoy, el experimento de la medicina: lo que le otorga carácter de ciencia y le da la capacidad para establecer conocimiento sobre relaciones causales. La aleatorización de muestras grandes, por su capacidad para minimizar el sesgo de confusión, es, para los frecuentistas y en virtud de la Ley de Grandes Números, la esencia de la experimentación: el momento del diseño de un experimento en el que queda justificada lógicamente la validez de una inferencia causal. Pero cuando se enfrenta a los problemas de diagnóstico, la Medicina Clínica utiliza la evasión bayesiana del problema de la inducción: el médico aplica el teorema de Bayes partiendo de la concepción de la probabilidad como una medida del grado de creencia (racional) sobre la presencia, en el paciente que tiene delante, de una enfermedad. Porque cuando tiene que realizar un diagnóstico, el médico se enfrenta a una situación en la que debe tomar decisiones coherentes en ambiente de incertidumbre, pero en la que la repetición de los eventos muestrales es imposible. Debe dar un diagnóstico ante un paciente concreto y en un momento determinado. La actividad diagnóstica trata, pues, de acontecimientos singulares y casos únicos -el enfermo particular que tiene delante en las circunstancias propias e irrepetibles de ese día- y no tiene sentido utilizar un método que necesite incluir este caso en una serie de casos similares para obtener un veredicto que se justifique asintóticamente (que funcione el 95% de las veces que se use). La estadísitica bayesiana, en base sólo al principio de intercambiabilidad, dá respuestas apropiadas a las situaciones únicas; dá al médico la probabilidad (grado de creencia racional) de que ese enfermo concreto sea portador, en ese momento, de esa enfermedad. Así pues, en el proceso de diagnóstico, para la Medicina Clínica resulta indispensable la estadística bayesiana: la forma racional de tomar decisiones científicas de una manera coherente en situaciones de incertidumbre, sin que se requiera de la repetición de una serie de eventos muestrales ni del muestreo aleatorio. En consecuencia, es sabido que para evaluar el rendimiento clínico de una prueba diagnóstica, la epidemiología utiliza unos índices (Sensibilidad, Especificidad, Razones de Verosimilitud, Área bajo la Curva ROC) cuya interpretación sólo tiene sentido bajo la perspectiva bayesiana. Y por eso llama poderosamente la atención que se utilicen rutinariamente métodos clásicos de inferencia frecuentista (intervalos de confianza, pruebas de significación estadística) es decir, basados en distribuciones muestrales que asumen aleatorización de una serie grande de eventos repetidos- para evaluar la potencia de dichos índices o para comparar entre sí dos métodos de predición. Así, por ejemplo, cuando se quiere evaluar el rendimiento diagnóstico de un modelo de regresión logística como predictor de mortalidad, el nivel de significación estadística de la Sensibilidad, la Especificidad y de las Razones de Verosimilitud se evalúa utilizando el teorema del Límite Central (la aproximación normal a la distribución binomial de la proporción muestral), la significación estadística del Área bajo la curva ROC se obtiene usando el Test no paramétrico de Wilcoxon (o la versión de Mann-Whitney de este), y la calibración del modelo se mide con el test de Hosmer-Lemeshow cuya significación estadística se obtiene con la distribución muestral de Ji-Cuadrado. Si lo que se quiere es comparar entre sí dos modelos de regresión, se utiliza la significación estadística de la diferencia entre sus Áreas bajo la curva ROC, que se obtiene habitualmente con el método de Hanley-McNeil basado en la distribución muestral normal standard. Sin embargo, y aquí radica a nuestro juicio el error, no se exige como imprescindible que los datos con los que se van a extraer esos índices de evaluación de las pruebas diagnósticas se hayan obtenido mediante un muestreo aleatorio. A nuestro entender, ello matemáticamente es un sin sentido. El presente trabajo se justifica para intentar resolver esta paradoja. 2. Bibliografía más relevante 1.- Hacking I. La domesticación del azar (The taming of chance). 1ª ed. Barcelona: Editorial Gedisa S.A., 1995. 2.- Serrano Angulo J. Iniciación a la estadística bayesiana. Madrid: Ed La Muralla / Hespérides. Colección Cuadernos de Estadística. 2003. 3.- Álamo Santana F, Vázquez Polo FJ, Rodríguez Pérez JC. Herramientas para la investigación biomédica: la perspectiva bayesiana (I). Med Clin (Barc) 2002; 119 (7): 265-8. 4.- Álamo Santana F, Vázquez Polo FJ, Rodríguez Pérez JC. Herramientas para la investigación biomédica: la perspectiva bayesiana (II). Med Clin (Barc) 2002; 119 (7): 269-72. 5.- Berry DA. Statistics: a Bayesian perspective. Belmont (California). Duxbury Press, 1996 6.- Kadane JB, Seidenfeld T. Randomization in a Bayesian perspective. Journal of Statistical Planning and Inference 1990; 25: 329-45. 7.- Vandenbroucke JP. Observational research, randomised trials, and two views of medical science. PLoS Med 2008; 5(3): e67. doi:10.1371/journal.pmed.0050067 (open Acces archive) 8.- D'Agostini G. Bayesian reasoning in data analysis. A critical introduction. 1ª edición. Singapur: World Scientific Publishing Co. 2003. 9.- Mayo DG. An error-statistical philosophy of evidence. En: Taper ML, Lele SR. The nature of scientific evidence. 1ª edición. Chicago: Chicago University Press. 2004. 10.- Mayo DG, Spanos A. Severe testing as a basic concept in a Neyman-Pearso philosophy of induction. Brit J Phil Sci 2006; 57: 323-57. 11.- Bernardo JM. Mètodes estadístics contemporanis en la investigació científica: anàlisi bayesià. Mètode 2000; 24:32-34 12.- Gillies D. Philosophical theories of probability. 1ª ed. London: Routledge (Taylor and Francis Group), 2003. 13.- Martín del Brío B, Sanz Molina A. Redes neuronales y sistemas borrosos. 2ª ed. Madrid: RA-MA Editorial, 2001. 14.- Bacallao J La perspectiva exploratorio-confirmatoria en las aplicaciones biomédicas de la estadística: dos diálogos (I). Bayesianismo frente a frecuencialismo: sus respectivas implicaciones prácticas en relación con el análisis de datos. Med Clin (Barc) 1996; 107: 467-71. 15.- Bacallao J La perspectiva exploratorio-confirmatoria en las aplicaciones biomédicas de la estadística: dos diálogos (II). Consideraciones críticas acerca de las pruebas de significación. Med Clin (Barc) 1996; 107: 539-43. 16.- Silva Ayçaguer L, Muñoz Villegas A. Debate sobre métodos frecuentistas vs. Bayesianos. Gac Sanit 2000; 14(6): 482-494. 17.- Greenland S. Bayesian perspective for epidemiological research: I. Foundations and basic methods. Int J Epidemiol 2006; 35: 765-75. 18.- Silva Ayçaguer LC. La investigación biomédica y sus laberintos. En defensa de la racionalidad para la ciencia del siglo XXI. 2009. 1ª edición. Ed Diaz de Santos. 19.- Latour Pérez J. El diagnóstico. Quaderns de Salut Pública i Administració de Serveis de Salut. 21. València. Escola Valenciana de Estudis per a la Salut. 2003. 3. Objetivos de la investigación El objetivo principal de este trabajo es proponer como alternativa la aplicación de métodos estadísticos sencillos pero estrictamente bayesianos. Bajo el supuesto de intercambiabilidad, la validez de los métodos estadísticos bayesianos no requiere de la repetición de una serie de eventos muestrales ni del muestreo aleatorio. Este objetivo pretende alcanzarse a través de la aplicación práctica a la comparación de la exactitud diagnóstica de dos test de predicción de mortalidad, un modelo de regresión logística y una red neuronal artificial, aplicados sobre los datos obtenidos con el índice de predicción clínico más utilizada en nuestro medio para estimar la mortalidad en la UCI de pediatría: el PRISM. El objetivo secundario es estimar si la exactitud diagnóstica es superior en alguno de los dos modelos, tanto desde el punto de vista de su capacidad discriminante como de su calibración. 4. Metodologia, hipótesis y plan de trabajo La hipótesis principal es que, bajo el supuesto de intercambiabilidad y sin que se requiera de un muestreo aleatorio ni una justificación asintótica, es posible estimar la exactitud de un test diagnóstico mediante índices de rendimiento cuya precisión se establezca con métodos estadísticos sencillos pero estrictamente bayesianos. La hipótesis secundaria es que la exactitud diagnóstica del test basado en un modelo de Red Neuronal Artificial es superior a la del modelo de Regresión Logística Diseño del estudio: Se trata de un estudio observacional analítico de cohortes retrospectivas para obtener y comparar dos métodos diagnósticos de predicción de mortalidad tras el ingreso en UCIP. Uno es un modelo clásico de regresión logística y el otro es una red neuronal artificial, y ambos están basados en tres variables predictoras: la edad en meses, la puntuación en el índice PRISM, y la presencia o ausencia de cirugía previa al ingreso (1 postoperados, 0 no postoperados). El estudio se desarrolla en tres fases: una primera de desarrollo de los tests, una segunda de validación, y finalmente una tercera de comparación del rendimiento diagnóstico de ambos tests entre sí. Durante cada una de ellas, la capacidad de discriminación y la calibración de cada test será medida utilizando las herramientas estadísticas frecuentistas clásicas, y se va a proponer la utilización de una evaluación realizada mediante sus alternativas bayesianas equivalentes. 1ª Fase: desarrollo de los tests: 1- Modelo predictivo de Regresión Logística 1.1.- El diseño: Estudio observacional analítico de una cohorte retrospectiva 1.2.- Muestreo y tamaño muestral: El estudio se realiza sobre el análisis retrospectivo de la base de datos de todos los pacientes ingresados en la UCIP del Hospital Central de Asturias desde su inauguración en Octubre de 1995 hasta el mes de Diciembre de 2003. La muestra total de nuestro estudio incluyó 43 exitus, por lo que el tamaño muestral mínimo adecuado se estimó de 500 pacientes 1.3.- Ajuste del modelo predictivo de regresión logística con evaluación de su exactitud diagnóstica: Capacidad discriminante y Calibración del modelo. El modelo de regresión logística (RL) se ajustará utilizando el programa estadístico SPSS 11.0.1. mediante el procedimiento clásico habitual: ajuste por pasos hacia delante en base a la RV. 1.3.1.- La Capacidad discriminante se va a evaluar: A) Método frecuentista clásico con los índices clásicos de exactitud diagnóstica: Sensibilidad, especificidad, razones de verosimilitud y AUC de la curva ROC, con los correspondientes Intervalos de Confianza al 95%. B) Método bayesiano: usando los mismos índices pero calculando sus Intervalos de Credibilidad al 95%. Se ha hecho un análisis bayesiano de referencia, y por ello se ha partido de la distribución a priori menos informativa para el problema: la Beta (0'5, 0'5), y la Normal plana.. 1.3.2.- La Calibración se va a establecer: A) Método clasico: Con el Test de Hosmer-Lemeshow. B) Método bayesiano: calculando la entropía relativa (divergencia logarítmica de Kullback-Leibler), la divergencia de Jeffreys y la discrepancia intrínseca como medidas para caracterizar la distancia -medida en bits de información- entre dos distribuciones de probabilidad. 2.- Red Neuronal Artificial: 2.1.- El diseño: el mismo que la RL 2.2.- Muestreo y tamaño muestral: el mismo que la RN 2.3.- Desarrollo de la red neuronal artificial: se realizará en el Departamento de Procesado Digital de Señales de la UV mediante metodología específica, en cuanto al Software empleado y al proceso de Selección del mejor modelo de RN 2.4.- Evaluación de la exactitud diagnóstica del modelo: Capacidad discriminante y Calibración del modelo. Se realiza con la misma metodología que la empleada para evaluar la RL En ambos modelos, la evaluación bayesiana se va a hacer con la hoja de cálculo MS-Excel para windows, el programa MatLab 7.0.1., el programa WinBUGS 14.3, accesible libremente en la dirección http://www.mrc-bsu.cam.ac.uk/bugs , y el programa EpiInfo 3.1 desarrollado por el Servizo de Epidemioloxía de la Dirección Xeral de Saúde Pública da Consellería de Sanidade (Xunta de Galicia) en colaboración con la Unidad de Análisis de Salud y Sistemas de Información Sanitaria da Organización Panamericana de la Salud (OPS-OMS), a través da carta de entendemento existente entre a Consellería de Sanidade y la OPS-OMS, accesible libremente en Internet en la dirección http://dxsp.sergas.es 2ª Fase: validación de ambos tests: 1- Diseño: Estudio observacional analítico de una cohorte retrospectiva distinta, pero clínicamente superponible 2.- Muestreo El estudio de validación se realiza sobre el análisis retrospectivo de la base de datos de los pacientes ingresados en la UCI Pediátrica del Hospital Infantil La Fe durante los años 1994 y 1995. Los pacientes son los mismos para validar ambos modelos, la RL y la RN. 3.- Validación del modelo de regresión logística: Para cada paciente de la cohorte de validación se calculará la probabilidad de muerte predicha por el modelo de RL ajustado en la primera fase de desarrollo. Para clasificar los pacientes en muertos o vivos para el modelo, se usará el punto de corte de probabilidad pronosticada que se muestre óptimo en la primera fase de desarrollo 4.- Validación del modelo de red neuronal artificial: Para la fase de validación se ha utilizado la misma RN desarrollada en la fase anterior, pero ahora se le han enseñados los datos de la nueva cohorte de validación. Para clasificar los pacientes en muertos o vivos para el modelo, se usará el punto de corte de probabilidad pronosticada que se muestre óptimo en la primera fase de desarrollo. 5.- Evaluación de la exactitud diagnóstica de ambos modelos 5.1.- Evaluación de la capacidad discriminante: Se usará la misma metodología (frecuentista y bayesiana) que en la fase de desarrollo 5.2.- Evaluación de la calibración Se usará la misma metodología (frecuentista y bayesiana) que en la fase de desarrollo 3ª Fase: comparación de la exactitud diagnóstica de ambos tests 1.- Comparación de la capacidad discriminante La comparación de la eficacia de dos o más pruebas diagnósticas para detectar una enfermedad o proceso patológico dado, se hará sobre la base de comparar sus índices de exactitud diagnóstico: los valores de Sensibilidad, Especificidad y las Razones de verosimilitud. Además se va a realizar la comparación de las curvas ROC correspondientes resulta el modo más natural de determinar cuál de las pruebas es más eficaz, ya que el valor de los índices de rendimiento diagnóstico de pruebas de este tipo depende del punto de corte que se elija. La curva ROC que tenga el área mayor será la que corresponde a la prueba más exacta. Para comparar ambos modelos se usan las curvas ROC obtenidas sobre los datos de la cohorte de validación. Las curvas ROC se trazarán con el programa SPSS. 1.1.- Evaluación clásica: Las comparaciones analíticas de las áreas bajo la curva ROC (AUC) de ambos métodos se harán con Epidat 3.1. Este programa puede hacer comparaciones de AUCs cuando las curvas son correlacionadas, esto es, construidas con los mismos pacientes. El programa utiliza el método no paramétrico de DeLong para calcular la significación estadística de la diferencia en las áreas, que tiene como hipótesis nula la de igualdad de las AUCs. No puede calcularse el IC95% de la diferencia en las AUCs. 1.2.- Propuesta de evaluación bayesiana: Se hará calculando el Intervalo de Credibilidad al 95% sobre la diferencia en las AUCs, de manera triple: a) Utilizando la aproximación Normal a la distribución Beta; b) Utilizando la simulación con métodos de Monte Carlo y c) Utilizando el método gráfico discreto de la parrilla de Berry 2.- Comparación de la Calibración: Sólo puede hacerse mediante métodos bayesianos 3.- Comparación mediante la incorporación al proceso diagnóstico: análisis de decisión 5. Resultados y Conclusiones: PRIMERA: Nuestro trabajo confirma que, bajo el supuesto de intercambiabilidad y sin que se requiera de un muestreo aleatorio ni una justificación asintótica, es posible estimar la exactitud de un test diagnóstico mediante índices de rendimiento calculados con métodos estadísticos sencillos de naturaleza bayesiana. SEGUNDA: Tanto el modelo de Regresión Logística como la Red Neuronal presentan una excelente capacidad de discriminación. Las estimaciones frecuentistas de los IC95% de los índices de exactitud presentan serios problemas de interpretación conceptual. Sin embargo, estimados con métodos bayesianos, los Intervalos del 95% de Credibilidad tienen una fácil y directa interpretación conceptual, sobretodo desde el punto de vista clínico. Así, sólo mediante métodos bayesianos hemos podido estimar que, si utilizamos en clínica el índice PRISM con el propósito de confirmar que se va a producir la muerte un niño en la UCIP, la probabilidad de que la Red Neuronal sea un buen método diagnóstico es altísima (0,87), muy superior a la de la Regresión Logística (0,04). Por el contrario, si lo utilizamos con el propósito de descartar que se vaya a producir la muerte, la probabilidad de que la Regresión Logística sea un buen método diagnóstico (0,92) es, superior a la de la Red Neuronal (0,66). TERCERA: El análisis frecuentista no permite establecer la superioridad en la capacidad de discriminación de ninguno de los dos modelos: no se ha podido descartar la hipótesis de diferencia nula entre ambos (con una probabilidad de cometer error tipo I del 5%). Sin embargo, el análisis bayesiano nos permite obtener una información distinta y mucho más completa: la hipótesis más verosímil es la de que el modelo de Red Neuronal es más discriminante que el de Regresión Logística. De hecho la hipótesis de que el modelo de Red Neuronal sea mejor discriminante es tres veces más probable que la contraria. CUARTA: Tanto el modelo de Regresión Logística como la Red Neuronal parecen estar muy bien calibrados. De nuevo el análisis frecuentista no nos ha permitido otra conclusión que la de asumir una buena calibración, porque en ambos casos no hemos podido descartar la hipótesis nula (con un valor alfa del 5%). Para realizar un análisis bayesiano de la calibración de métodos diagnósticos que estimen probabilidades (como es el caso de ambos modelos aquí estudiados) en el que no utilicemos pruebas de significación estadística, en este trabajo hemos propuesto emplear índices extraídos de la teoría matemática de la información. Con ellos puede estimarse distancias (en concreto distancias entrópicas), expresadas en bts de información, entre las distribuciones de probabilidad estimadas por cada modelo y los resultados finalmente observados. Con este análisis, tanto la Regresión Logística como la Red Neuronal se comportan como métodos de estimación probabilística muy bien calibrados. QUINTA: Desde el punto de vista frecuentista no hemos podido estimar cual de los dos modelos presenta mejor calibración. Con el uso de las medidas de información estadística propuestas en este trabajo podemos afirmar que, respecto de los resultados de mortalidad finalmente observados, las predicciones realizadas con el modelo de Regresión Logística quedan a una distancia doble de las realizadas con el modelo de Red Neuronal, de donde podemos inferir que la calibración del modelo de Red Neuronal es mucho mejor. Esta afirmación es, de nuevo, imposible de realizar desde un punto de vista del análisis clásico frecuentista. SEXTA: Si se incorporan a un análisis formal de decisión desde la perspectiva del clínico, que es el que va a utilizar ambos modelos, tanto si se usan los índices de exactitud obtenidos mediante análisis frecuentista clásico como si se usan los obtenidos mediante nuestra propuesta bayesiana, la decisión dominante es siempre utilizar el modelo de Red Neuronal para hacer nuestras predicciones de mortalidad en la UCIP con el índice PRISM. Sólo en contextos clínicos en los que la prevalencia de muerte en la UCIP se sitúe en un entorno del 40%, un valor muy alejado de laprevalencia de muerte en las UCIs pediátricas españolas, la decisión más adecuada sería utilizar el modelo de Regresión Logística. Ello confirma de nuevo la superioridad del modelo de Red Neuronal, y debería hacernos replantear la práctica habitual de nuestras UCIPs. A la luz de estas conclusiones, y desde nuestro particular punto de vista, sería necesario en el futuro seguir promoviendo en los estudios científicos el uso de técnicas de análisis capaces de aportar una información con muchos más matices y, sobre todo, con una interpretación mucho más directa, natural y racional de sus conclusiones que las técnicas basadas en las pruebas de significación estadística de las hipótesis. Las técnicas bayesianas permiten incorporar rigurosamente, durante el proceso de análisis, los puntos de vista o convicciones que se tenían antes del estudio: ese es el modo habitual como realizamos nuestros razonamientos en la vida real. Además, sus conclusiones se expresan en el lenguaje de la probabilidad, el lenguaje de la ciencia. Los cálculos necesarios son mucho más complicados, pero ya existen programas informáticos que los simplifican y los ponen al alcance de la mayoría de los investigadores preocupados por el rigor de sus métodos y la exactitud de sus resultados. A pesar de sus críticos y detractores, en este siglo que empezamos, el enfoque bayesiano debería consolidarse como el preponderante para posibilitar la consolidación de la racionalidad en la ciencia.