considerazioni Statistiche in una revisione sistematica di misure di proxy di comportamento clinico

Basato su un compagno di revisione sistematica di misure di proxy di comportamento clinico , ulteriormente, abbiamo esaminato l’ampia gamma di metodi statistici utilizzati in studi inclusi per confrontare proxy e misure dirette di comportamento. Ora discutiamo questi metodi statistici e poi passiamo a formulare raccomandazioni. Sebbene la nostra revisione non fosse, in linea di principio, limitata a misure basate su elementi binari (sì/no), tutti i documenti inclusi hanno utilizzato questo approccio. Poiché alcuni documenti hanno confrontato direttamente gli articoli e altri hanno confrontato i punteggi in base alla combinazione delle risposte agli articoli, strutturiamo la nostra discussione in modo da riflettere questi due approcci.

Confronti voce per voce

Nel contesto attuale, la sensibilità risponde alla domanda: quale percentuale di azioni effettivamente eseguite e registrate dall’osservazione diretta è stata identificata dal proxy? Il valore predittivo positivo risponde alla domanda: Quale percentuale di azioni che sono state contrassegnate dal proxy come eseguite è stata registrata dall’osservazione diretta come eseguita? Specificità e valori predittivi negativi affrontano domande simili, ma su azioni che non sono state eseguite.

Per i confronti di singoli elementi, la segnalazione di sensibilità e specificità è un modo appropriato per valutare le prestazioni di un proxy , sebbene sia necessario considerare quale di queste misure sia più rilevante per il contesto clinico e la domanda di ricerca, o se entrambe le misure siano necessarie o se il valore predittivo positivo (e/o negativo) possa essere più informativo. I valori predittivi positivi e negativi hanno lo svantaggio di variare con la prevalenza del comportamento reale e quindi varieranno tra le popolazioni .

Tuttavia, è dubbio che sia opportuno stimare le sensibilità e le specificità sulla base di una combinazione di elementi che descrivono diverse azioni cliniche . Ad esempio , sembra discutibile se sia valido combinare azioni per rivedere i farmaci e discutere la cessazione del fumo , o azioni per chiedere al paziente la radiazione del dolore e chiedere la loro occupazione, o azioni per applicare una fionda e fare riferimento a un fisioterapista . La combinazione di elementi presuppone che le loro misure proxy abbiano la stessa sensibilità e specificità di fondo, il che potrebbe non essere vero. La validità di questa ipotesi potrebbe essere valutata e gli elementi combinati solo se le loro sensibilità e specificità fossero simili.

La valutazione dell ‘”accordo” rispetto alla proporzione di elementi eseguiti che sono stati identificati dalla misura diretta e dalla delega è inappropriata in quanto, a differenza della sensibilità, non fornisce alcuna indicazione sul fatto che un elemento registrato come eseguito sulla misura diretta sia ugualmente registrato come eseguito sulla delega. È possibile avere un accordo perfetto anche se le misure dirette e proxy registrano elementi completamente diversi come eseguiti. Ad esempio, le percentuali registrate come eseguite da una misura diretta e dal proxy possono essere entrambe del 50%, anche se la sensibilità, la specificità, il valore predittivo positivo e negativo sono tutti zero (ad esempio, se a = d = 0 e b = c = 50; vedi Tabella 1). Inoltre, la valutazione di “accordo” considera le misure dirette e delegate come aventi la stessa validità, il che potrebbe non essere necessariamente il caso in quanto entrambe le misure possono porre problemi di validità.

Alcuni rapporti hanno utilizzato le statistiche kappa per quantificare i livelli di accordo tra misure dirette e proxy. Anche se a volte si sostiene che la kappa-statistic fornisce una misura “corretta per caso” di accordo tra due misure, è stato sostenuto che ciò è fuorviante perché le misure non sono chiaramente indipendenti . Due di questi rapporti hanno anche utilizzato le statistiche kappa per testare l’ipotesi che non ci sia più accordo tra misure dirette e proxy di quanto potrebbe accadere per caso. Questo non è molto informativo, poiché le misure dipendono per definizione perché valutano lo stesso comportamento. Kappa-statistiche anche condividere i difetti di altre misure di correlazione (Pearson) e correlazione la correlazione intra-classe), per valutare l’accordo tra i metodi di misurazione: si suppone che i due metodi a confronto sono intercambiabili, mentre noi di solito quanto riguarda la misura diretta come essere più vicino al vero valore di delega; e il loro valore è influenzato dal range di misura, con una più ampia gamma in grado di offrire una maggiore correlazione .

Le stesse critiche si applicano alla valutazione del “disaccordo”. La “validità convergente” presuppone che non eseguire azioni specifiche abbia la stessa importanza di eseguirle, il che può o non può essere vero a seconda della situazione.

Nessuno dei report consentiva il clustering di elementi all’interno dei medici, ad esempio utilizzando un modello multilivello . È probabile che ci sarà correlazione di elementi all’interno dei medici come azioni eseguite da un medico sono suscettibili di essere più simili tra loro che alle azioni eseguite da altri medici. Se non si tiene conto di questa mancanza di indipendenza degli elementi è probabile che si traduca in stime spuriamente precise di sensibilità, specificità e altre statistiche di sintesi. Sfortunatamente, nessuno di questi rapporti presentava intervalli di confidenza su nessuna delle statistiche di sintesi.

Metodi consigliati per confrontare le misure dirette e proxy voce per voce

I singoli elementi possono essere valutati per la validità del volto e del contenuto da un gruppo di esperti in materia. La loro affidabilità può essere valutata utilizzando un campione casuale o sistematico di medici selezionati da un quadro di campionamento regionale o nazionale . Se il focus di interesse sono le azioni eseguite, la sensibilità e il valore predittivo positivo sono statistiche appropriate per confrontare le misure dirette e proxy voce per voce. La misura proxy deve avere un’alta sensibilità e un alto valore predittivo positivo, in modo tale da rilevare la maggior parte delle azioni eseguite e la maggior parte delle azioni che segnala come eseguite sono state effettivamente eseguite. Se anche le azioni che non sono state eseguite sono di interesse, sono necessarie anche la specificità e il valore predittivo negativo. Gli elementi che valutano azioni diverse non dovrebbero essere trattati come se fossero intercambiabili, a meno che non abbiano dimostrato di avere proprietà diagnostiche simili.

Confronti dei punteggi sommari

Le singole voci possono funzionare come variabili indicatrici o come variabili causali . Le variabili degli indicatori sono determinate da un concetto sottostante non osservabile: ad esempio, si presume che le risposte agli elementi in un test di intelligenza siano determinate da un livello di abilità sottostante e quindi ci si aspetta che siano correlate. Al contrario, le variabili causali determinano congiuntamente un costrutto non osservato. Ad esempio, lo status socioeconomico può essere determinato congiuntamente dall’istruzione, dal reddito, dal vicinato e dal prestigio professionale; un aumento di uno di questi potrebbe aumentare lo status socioeconomico, ma non ci aspetteremmo che questi indicatori siano correlati. I metodi utilizzati per combinare gli elementi in punteggi dipendono dal fatto che gli elementi siano considerati variabili indicatrici o variabili causali. La teoria della risposta agli elementi, compresi i modelli Rasch, può essere applicata alle variabili indicatrici, ma non è appropriata per le variabili causali, per le quali sono stati proposti una serie di metodi . Nessuna delle relazioni incluse conteneva alcuna discussione sul fatto che le voci fossero considerate variabili causali o indicative, sebbene due relazioni ponderassero le voci per riflettere la loro importanza.

Diverse relazioni hanno confrontato i mezzi dei punteggi sommari , che è inadeguato per la valutazione dell’accordo. In primo luogo, anche se i mezzi delle misure dirette e proxy sono simili, non si può presumere che siano d’accordo per tutti i valori della misura diretta. In secondo luogo, i mezzi non forniscono informazioni sufficienti per prevedere la misura diretta da un valore del proxy. In terzo luogo, il confronto dei mezzi non ci dice nulla sulla variabilità della misura proxy per qualsiasi valore specifico della misura diretta. Infine, è possibile che i punteggi sommari abbiano lo stesso valore per le misure di misura diretta e proxy, anche se le risposte ai singoli elementi sono molto diverse.

Alcuni rapporti hanno calcolato i punteggi sommari per ogni consultazione , mentre altri rapporti hanno calcolato i punteggi di consultazione per ogni clinico al fine di ottenere un punteggio per il clinico . La semplice media delle consultazioni non consente la correlazione delle azioni dello stesso clinico (discusso sopra): sono necessari metodi come la modellazione multilivello . Tuttavia, un rapporto ha affermato, sulla base dell’analisi della varianza, che non vi era alcun effetto significativo del clustering all’interno dei medici .

Diversi report hanno utilizzato metodi basati su un modello lineare-analisi della varianza , test t o correlazione-per valutare l’accordo. Questi metodi presuppongono che il risultato di interesse sia continuo e normalmente distribuito. Questo non è strettamente valido quando il risultato è la proporzione di elementi eseguiti, poiché le proporzioni hanno valori discreti e una distribuzione binomiale, sebbene in molti casi le inferenze che vengono fatte possano essere ancora valide.

L’analisi della varianza valuta come il valore medio di una variabile sia influenzato dalla classificazione dei dati . Confronta la variazione tra gruppi (in questo caso, misurazioni con metodi diretti e proxy) con la variazione all’interno dei gruppi, al fine di valutare se i valori medi differiscono nei diversi gruppi. Sebbene questo metodo abbia il vantaggio di poter tenere conto di altri fattori che potrebbero influenzare le differenze tra i metodi, ad esempio, malattia, complessità del caso, livello di formazione del medico e siti ospedalieri, è essenzialmente un metodo per testare l’ipotesi che i mezzi siano gli stessi in diversi gruppi, il che è inappropriato per i motivi indicati di seguito. I test T sono un caso speciale di analisi della varianza e condividono i suoi svantaggi.

La correlazione di Pearson misura la forza dell’associazione lineare tra due variabili, e quindi fornisce una misura della variabilità media nella loro relazione . Se un grafico a dispersione delle due variabili mostra che tutti i punti si trovano su una linea retta, la correlazione di Pearson ha il valore di uno (o meno uno); ma se i punti mostrano un sacco di dispersione, la correlazione di Pearson ha un valore compreso tra zero e uno (o meno uno). Tuttavia, ha lo svantaggio di non valutare il bias: ad esempio, due misure possono avere una correlazione perfetta (uguale a una) anche se una misura è costantemente il doppio dell’altra misura . Inoltre, la correlazione di Pearson dipende dall’intervallo delle variabili: se esiste effettivamente una relazione lineare tra le variabili, allora una gamma più ampia di variazioni di comportamenti si tradurrà in un coefficiente di correlazione più elevato .

Tutti i report che hanno confrontato i punteggi sommari hanno utilizzato il test di ipotesi. La valutazione dell’accordo tra due misure è un problema di stima, non di test di ipotesi . La stima può prevedere il valore che una misura (la misura diretta) è probabile che prenda, se il valore dell’altra misura (il proxy) è noto. Il test di ipotesi mira ad aiutare il processo decisionale sul fatto che i dati osservati forniscano la prova che una particolare ipotesi (ad esempio, che due valori sono gli stessi) è improbabile che sia vera. Il test di ipotesi e la stima possono portare a conclusioni diverse: ad esempio, se esiste un’ampia gamma di variabilità in ogni misura, è probabile che il test di ipotesi porti a una conclusione che il proxy e la misura diretta sono simili, mentre la stima tenderebbe a indicare che il proxy può essere un cattivo predittore della misura diretta.

Metodi consigliati per confrontare i punteggi proxy e direct measure summary

Le misure che riassumono più elementi dovrebbero essere affidabili, ripetibili, catturare un singolo aspetto sottostante del comportamento e misurare che costruiscono utilizzando una scala di misurazione valida. Una volta che tali misure dirette e proxy sono state costruite, la relazione tra loro dovrebbe essere valutata su tutta la loro gamma, in primo luogo da un semplice grafico di una misura contro l’altra . Il passo successivo dipenderà dal fatto che la misura diretta possa essere considerata un “gold standard” privo di errori. Negli studi inclusi nella nostra recensione, l’affidabilità inter-rater era buona per le misure dirette basate su pazienti simulati , suggerendo che queste misure avevano pochi errori, ma le misure dirette basate sulla registrazione audio o video erano più inclini agli errori .

Se vogliamo valutare l’accordo tra due metodi di misurazione, nessuno dei quali può essere considerato come la stima del valore reale della quantità misurata, Bland e Altman hanno raccomandato che la differenza tra due misure dovrebbe quindi essere tracciata rispetto alla loro media. Ciò consente una valutazione visiva sia del pregiudizio sistematico che della variazione .

In alternativa, se una misura può essere considerata priva di errori e gli interessi si concentrano principalmente sul fatto che mostri una relazione coerente e prevedibile con la misura proxy, il problema è la calibrazione piuttosto che la valutazione dell’accordo . Questa relazione può quindi essere catturata dall’uso della regressione : la linea di regressione cattura la relazione media tra le misure ed è possibile costruire un intervallo di previsione del 95% che mostra, per ogni valore della misura proxy, l’intervallo entro il quale è probabile che si trovino i valori della misura diretta per un singolo clinico (o consultazione).

Questo uso della regressione ha alcune debolezze intrinseche. Innanzitutto, poiché il proxy viene inevitabilmente misurato con qualche errore , la relazione tra le misure dirette e proxy mostrerà quasi certamente una regressione alla media, sottovalutando così i valori alti della misura diretta e sovrastimando i valori bassi. In secondo luogo, la regressione presuppone che la quantità di variazione nei punteggi proxy non dipenda dal valore della misura diretta, che non era vero negli studi inclusi in questa revisione. I punteggi sommari utilizzati negli studi inclusi avevano un intervallo limitato, ad esempio, 0 a100, quindi la variazione nel punteggio proxy tendeva ad essere più piccola se i punteggi diretti erano più vicini agli estremi. Ciò potrebbe portare a una precisione spuria nelle stime della linea di regressione e del suo intervallo di previsione. Tale effetto sarebbe più marcato per i punteggi basati su un minor numero di elementi o con maggiori deviazioni standard. In terzo luogo, come notato sopra per l’analisi della varianza e della correlazione, l’ipotesi che il punteggio di sintesi sia continuo e normalmente distribuito non è valida. Infine, la relazione tra le misure dirette e proxy potrebbe non essere lineare su tutto il loro intervallo: la non linearità può essere valutata ispezionando la trama o, più formalmente, testando l’effetto dell’aggiunta di un termine quadratico alla regressione. Le alternative a un approccio di regressione includono la teoria della risposta degli elementi (se si presume che gli elementi siano variabili indicatrici) o formule di utilità moltiplicative o modellazione di equazioni strutturali (se si presume che gli elementi siano variabili causali) .

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.