Consideraciones estadísticas en una revisión sistemática de medidas indirectas del comportamiento clínico

Sobre la base de una revisión sistemática complementaria de medidas indirectas del comportamiento clínico , revisamos además la amplia gama de métodos estadísticos utilizados en los estudios incluidos para comparar medidas indirectas y directas del comportamiento. Ahora discutimos estos métodos estadísticos y luego hacemos recomendaciones. Aunque nuestra revisión no se limitó, en principio, a medidas basadas en elementos binarios (sí/no), todos los documentos incluidos utilizaron este enfoque. Debido a que algunos artículos compararon ítems directamente, y otros compararon puntajes basados en la combinación de respuestas de ítems, estructuramos nuestra discusión para reflejar estos dos enfoques.

Comparaciones ítem por ítem

En el contexto actual, sensitivity responde a la pregunta: ¿Qué proporción de acciones que fueron realmente realizadas y registradas por observación directa fueron identificadas por el proxy? El valor predictivo positivo responde a la pregunta: ¿Qué proporción de acciones que fueron marcadas por el proxy como realizadas fueron registradas por observación directa como realizadas? La especificidad y los valores predictivos negativos abordan cuestiones similares, pero sobre acciones que no se realizaron.

Para las comparaciones de un solo ítem, la notificación de sensibilidad y especificidad es una forma adecuada de evaluar el desempeño de un proxy , aunque es necesario pensar cuál de estas medidas es más relevante para el contexto clínico y la pregunta de investigación, o si ambas medidas son necesarias, o si el valor predictivo positivo (y/o negativo) puede ser más informativo. Los valores predictivos positivos y negativos tienen la desventaja de que varían con la prevalencia del comportamiento real y, por lo tanto, variarán entre las poblaciones .

Sin embargo, es dudoso que sea apropiado estimar sensibilidades y especificidades basadas en una combinación de ítems que describen diferentes acciones clínicas . Por ejemplo , parece cuestionable si es válido combinar acciones para revisar medicamentos y discutir el abandono del tabaquismo , o acciones para preguntar al paciente sobre la radiación del dolor y preguntar a su ocupación, o acciones para aplicar un cabestrillo y referirse a un fisioterapeuta . La combinación de elementos supone que sus medidas indirectas tienen la misma sensibilidad y especificidad subyacentes, lo que puede no ser cierto. La validez de este supuesto podría evaluarse y los ítems combinados solo si sus sensibilidades y especificidades fueran similares.

La evaluación de la «concordancia» mediante la comparación de la proporción de elementos realizados que fueron identificados por la medida directa y la medida indirecta es inadecuada porque, a diferencia de la sensibilidad, no da ninguna indicación de si un elemento registrado como realizado en la medida directa se registra también como realizado en la medida indirecta. Es posible tener un acuerdo perfecto incluso si las medidas directas y proxy registran elementos completamente diferentes según se realizan. Por ejemplo, los porcentajes registrados como realizados por una medida directa y por el proxy pueden ser del 50%, incluso si la sensibilidad, la especificidad y el valor predictivo positivo y negativo son todos cero (por ejemplo, si a = d = 0 y b = c = 50; ver Tabla 1). Además, la evaluación del «acuerdo» considera que las medidas directas y sustitutivas tienen la misma validez, lo que puede no ser necesariamente el caso, ya que cualquiera de las dos medidas puede plantear problemas de validez.

Algunos informes utilizaron estadísticas kappa para cuantificar los niveles de concordancia entre las medidas directas y las indirectas. Aunque a veces se alega que la estadística kappa da una medida de concordancia «corregida al azar» entre dos medidas, se ha argumentado que esto es engañoso porque las medidas claramente no son independientes . Dos de estos informes también utilizaron estadísticas kappa para probar la hipótesis de que no hay más acuerdo entre las medidas directas y las indirectas de lo que podría ocurrir por casualidad. Esto no es muy informativo, ya que las medidas dependen por definición porque califican el mismo comportamiento. Las estadísticas Kappa también comparten los defectos de otras medidas de correlación (la correlación de Pearson y la correlación intraclase) para evaluar la concordancia entre los métodos de medición: asumen que los dos métodos a comparar son intercambiables, mientras que generalmente consideramos que la medida directa está más cerca del valor verdadero que el proxy; y su valor está influenciado por el rango de medición, con un rango más amplio que da una correlación más alta .

Las mismas críticas se aplican a la evaluación del «desacuerdo». La «validez convergente» asume que no realizar acciones específicas tiene la misma importancia que realizarlas, lo que puede o no ser cierto dependiendo de la situación.

Ninguno de los informes permitió agrupar elementos dentro de los médicos, por ejemplo, mediante el uso de un modelo multinivel . Es probable que haya correlación de ítems dentro de los médicos, ya que las acciones realizadas por un médico probablemente sean más similares entre sí que con las acciones realizadas por otros médicos. Si no se tiene en cuenta esta falta de independencia de los elementos, es probable que se produzcan estimaciones espuriosamente precisas de sensibilidad, especificidad y otras estadísticas de resumen. Lamentablemente, ninguno de estos informes presentaba intervalos de confianza en ninguna de las estadísticas resumidas.

Métodos recomendados para comparar medidas directas y indirectas elemento por elemento

Un grupo de expertos en la materia puede evaluar la validez facial y de contenido de los elementos individuales. Su fiabilidad puede evaluarse utilizando una muestra aleatoria o sistemática de médicos seleccionados de un marco de muestreo regional o nacional . Si el foco de interés son las acciones que se realizaron, entonces la sensibilidad y el valor predictivo positivo son estadísticas apropiadas para comparar medidas directas y indirectas elemento por elemento. La medida proxy debe tener una alta sensibilidad y un alto valor predictivo positivo, de modo que detecte la mayoría de las acciones que se realizaron y la mayoría de las acciones que marca como realizadas se realizaron realmente. Si las acciones que no se realizaron también son de interés, también se requiere la especificidad y el valor predictivo negativo. Los elementos que evalúan diferentes acciones no deben tratarse como si fueran intercambiables, a menos que se haya demostrado que tienen propiedades de diagnóstico similares.

Comparaciones de puntajes resumidos

Los ítems individuales pueden funcionar como variables indicadoras o como variables causales . Las variables de los indicadores están determinadas por un concepto subyacente no observable: por ejemplo, se supone que las respuestas a los elementos en una prueba de inteligencia están determinadas por un nivel subyacente de capacidad, por lo que se espera que estén correlacionadas. En contraste, las variables causales determinan conjuntamente un constructo no observado. Por ejemplo, el estatus socioeconómico puede determinarse conjuntamente por la educación, los ingresos, el vecindario y el prestigio profesional; un aumento en cualquiera de estos podría aumentar el estatus socioeconómico, pero no esperaríamos que estos indicadores se correlacionaran. Los métodos utilizados para combinar ítems en puntajes dependen de si los ítems son considerados como variables indicadoras o variables causales. La teoría de la respuesta al ítem, incluidos los modelos Rasch, se puede aplicar a las variables indicadoras, pero no es apropiada para las variables causales, para las que se han propuesto una serie de métodos . Ninguno de los informes incluidos contenía ninguna discusión sobre si los ítems se consideraban variables causales o indicadoras, aunque dos informes ponderaron los ítems para reflejar su importancia.

Varios informes compararon los promedios de las puntuaciones sumarias, lo que es inadecuado para evaluar la concordancia. En primer lugar, aunque los medios de las medidas directas y sustitutivas sean similares, no puede suponerse que estén de acuerdo para todos los valores de la medida directa. En segundo lugar, los medios no proporcionan información suficiente para predecir la medida directa a partir de un valor del proxy. En tercer lugar, la comparación de los medios no nos dice nada sobre la variabilidad de la medida indirecta para ningún valor específico de la medida directa. Por último, es posible que las puntuaciones resumidas tengan el mismo valor para las medidas directas y las medidas indirectas, incluso si las respuestas a los elementos individuales son muy diferentes.

Algunos informes calcularon puntuaciones resumidas para cada consulta , mientras que otros informes promediaron las puntuaciones de consulta para cada médico con el fin de obtener una puntuación para el médico . El simple promedio de consultas no permite la correlación de las acciones del mismo clínico (discutido anteriormente): se requieren métodos como el modelado multinivel . Sin embargo, un informe afirmó, sobre la base del análisis de varianza, que no había un efecto significativo de la agrupación dentro de los médicos clínicos .

Varios informes utilizaron métodos basados en un modelo lineal-análisis de varianza , pruebas t o correlación-para evaluar la concordancia. Estos métodos asumen que el resultado del interés es continuo y distribuido normalmente. Esto no es estrictamente válido cuando el resultado es la proporción de ítems realizados, ya que las proporciones tienen valores discretos y una distribución binomial, aunque en muchos casos, las inferencias que se hacen pueden seguir siendo válidas.

El análisis de varianza evalúa cómo el valor medio de una variable se ve afectado por la clasificación de los datos . Compara la variación entre grupos (en este caso, mediciones por métodos directos y proxy) con la variación dentro de los grupos, para evaluar si los valores medios difieren en diferentes grupos. Aunque este método tiene la ventaja de que puede tener en cuenta otros factores que podrían afectar a las diferencias entre los métodos, p. ej., enfermedad, complejidad de casos, nivel de formación del médico y sitios hospitalarios, es esencialmente un método para probar la hipótesis de que los medios son los mismos en diferentes grupos, lo que es inapropiado por las razones que se indican a continuación. Las pruebas T son un caso especial de análisis de varianza y comparten sus desventajas.

La correlación de Pearson mide la fuerza de la asociación lineal entre dos variables, y por lo tanto da una medida de la variabilidad promedio en su relación . Si un gráfico de dispersión de las dos variables muestra que todos los puntos se encuentran en una línea recta, la correlación de Pearson tiene el valor de uno( o menos uno); pero si los puntos muestran mucha dispersión, la correlación de Pearson tiene un valor entre cero y uno (o menos uno). Sin embargo, tiene la desventaja de que no evalúa el sesgo: por ejemplo, dos medidas pueden tener una correlación perfecta (igual a una), incluso si una medida es el doble de la otra . Además, la correlación de Pearson depende del rango de las variables: si efectivamente hay una relación lineal entre las variables, entonces un rango más amplio de variación de comportamientos resultará en un coeficiente de correlación más alto .

Todos los informes que compararon las puntuaciones resumidas utilizaron pruebas de hipótesis. La evaluación de la concordancia entre dos medidas es un problema de estimación, no de prueba de hipótesis . La estimación puede predecir el valor que es probable que tome una medida (la medida directa), si se conoce el valor de la otra medida (el proxy). La prueba de hipótesis tiene como objetivo ayudar a la toma de decisiones sobre si los datos observados proporcionan evidencia de que es poco probable que una hipótesis en particular (por ejemplo, que dos valores son iguales) sea cierta. La prueba de hipótesis y la estimación pueden llevar a conclusiones diferentes: por ejemplo, si hay un amplio rango de variabilidad en cada medida, es probable que la prueba de hipótesis lleve a la conclusión de que la medida indirecta y la medida directa son similares, mientras que la estimación tendería a indicar que la medida indirecta puede ser un mal predictor de la medida directa.

Métodos recomendados para comparar puntajes resumidos de medición proxy y directa

Las medidas que resumen varios ítems deben ser confiables, repetibles, capturar un solo aspecto subyacente del comportamiento y medir ese constructo utilizando una escala de medición válida. Una vez que se han construido tales medidas directas y indirectas, la relación entre ellas debe evaluarse en todo su rango, primero mediante una gráfica simple de una medida contra la otra . El siguiente paso dependerá de si la medida directa puede considerarse un «patrón oro» sin errores. En los estudios incluidos en nuestra revisión, la confiabilidad interevaluador fue buena para las medidas directas basadas en pacientes simulados , lo que sugiere que estas medidas tuvieron poco error, pero las medidas directas basadas en grabaciones de audio o video fueron más propensas a errores .

Si queremos evaluar la concordancia entre dos métodos de medición, ninguno de los cuales puede considerarse una estimación del valor real de la cantidad medida, Bland y Altman han recomendado que la diferencia entre dos medidas se represente en función de su media. Esto permite la evaluación visual tanto del sesgo sistemático como de la variación .

Alternativamente, si una medida puede considerarse libre de errores, y el interés se centra principalmente en si muestra una relación consistente y predecible con la medida proxy, el problema es de calibración en lugar de evaluación de la concordancia . Esta relación se puede capturar mediante el uso de regresión : la línea de regresión captura la relación media entre las medidas, y es posible construir un intervalo de predicción del 95% que muestra, para cada valor de la medida proxy, el rango dentro del cual es probable que se encuentren los valores de la medida directa para un médico individual (o consulta).

Este uso de regresión tiene algunas debilidades intrínsecas. En primer lugar, como el indicador indirecto se mide inevitablemente con algún error , es casi seguro que la relación entre las medidas directas y las medidas indirectas muestre una regresión a la media, subestimando así los valores altos de la medida directa y sobrestimando los valores bajos. En segundo lugar, la regresión asume que la cantidad de variación en los puntajes indirectos no depende del valor de la medida directa, lo que no fue cierto en los estudios incluidos en esta revisión. Las puntuaciones resumidas utilizadas en los estudios incluidos tenían un rango limitado, p.ej., de 0 a 100, por lo que la variación en la puntuación proxy tendía a ser menor si las puntuaciones directas se acercaban más a los extremos. Esto podría conducir a una precisión espuria en las estimaciones de la línea de regresión y su intervalo de predicción. Tal efecto sería más marcado para puntuaciones basadas en menos ítems o con desviaciones estándar más grandes. En tercer lugar, como se señaló anteriormente para el análisis de varianza y correlación, la suposición de que la puntuación resumida es continua y distribuida normalmente no es válida. Por último, la relación entre las medidas directas y las medidas sustitutivas puede no ser lineal en todo su rango: la no linealidad se puede evaluar mediante la inspección de la gráfica o, más formalmente, probando el efecto de agregar un término cuadrático a la regresión. Las alternativas a un enfoque de regresión incluyen la teoría de respuesta de ítems (si se asume que los ítems son variables indicadoras) o fórmulas de utilidad multiplicativa o modelado de ecuaciones estructurales (si se asume que los ítems son variables causales) .

Deja una respuesta

Tu dirección de correo electrónico no será publicada.