statistiske overvejelser i en systematisk gennemgang af fuldmagtsforanstaltninger for Klinisk adfærd

baseret på en ledsagende systematisk gennemgang af fuldmagtsforanstaltninger for Klinisk adfærd gennemgik vi yderligere den brede vifte af statistiske metoder , der blev brugt i de inkluderede studier til at sammenligne fuldmagt og direkte adfærdsmålinger. Vi diskuterer nu disse statistiske metoder og fortsætter derefter med at komme med anbefalinger. Selvom vores gennemgang i princippet ikke var begrænset til foranstaltninger baseret på binære (ja/nej) poster, brugte alle inkluderede papirer denne tilgang. Fordi nogle papirer sammenlignede varer direkte, og andre sammenlignede scoringer baseret på at kombinere varesvar, vi strukturerer vores diskussion for at afspejle disse to tilgange.

sammenligning af punkt for punkt

i den nuværende sammenhæng svarer følsomheden spørgsmålet: hvilken andel af handlinger, der faktisk blev udført og registreret ved direkte observation, blev identificeret af fuldmægtigen? Den positive prædiktive værdi svarer på spørgsmålet: Hvilken andel af handlinger, der blev markeret af fuldmægtigen som udført, blev registreret ved direkte observation som udført? Specificitet og negative prædiktive værdier adresserer lignende spørgsmål, men om handlinger, der ikke blev udført.

for enkeltpostsammenligninger er rapportering af følsomhed og specificitet en passende måde at vurdere udførelsen af en fuldmagt på, selvom det skal overvejes , hvilke af disse foranstaltninger der er mest relevante for den kliniske kontekst og forskningsspørgsmålet, eller om begge foranstaltninger er nødvendige, eller om den positive (og/eller negative) forudsigelige værdi kan være mere informativ. De positive og negative forudsigelige værdier har den ulempe, at de varierer med forekomsten af faktisk adfærd og derfor vil variere mellem populationer .

det er imidlertid tvivlsomt, om det er hensigtsmæssigt at estimere følsomheder og specificiteter baseret på en kombination af emner, der beskriver forskellige kliniske handlinger . For eksempel synes det tvivlsomt , om det er gyldigt at kombinere handlinger for at gennemgå stoffer og diskutere rygestop , eller handlinger for at spørge patienten om stråling af smerte og spørge deres besættelse eller handlinger for at anvende en slynge og henvise til en fysioterapeut . Ved at kombinere elementer antages det, at deres fuldmagtsforanstaltninger har samme underliggende følsomhed og specificitet, hvilket måske ikke er sandt. Gyldigheden af denne antagelse kunne kun vurderes og elementer kombineres, hvis deres følsomhed og specificiteter var ens.

vurdering af ‘aftale’ ved sammenligning af andelen af udførte genstande, der blev identificeret ved den direkte foranstaltning og fuldmagt, er upassende, fordi den i modsætning til følsomheden ikke giver nogen indikation af, om en vare, der er registreret som udført på den direkte foranstaltning, ligeledes registreres som udført på fuldmagten. Det er muligt at have perfekt aftale, selvom de direkte og fuldmægtige foranstaltninger registrerer helt forskellige elementer som udført. For eksempel kan de procentsatser, der er registreret som udført ved et direkte mål og ved fuldmagt, begge være 50%, selvom følsomheden, specificiteten, den positive og den negative forudsigelsesværdi alle er nul (f.eks. Hvis A = d = 0 og b = c = 50; Se tabel 1). Desuden behandler vurderingen af aftalen de direkte og fuldmægtige foranstaltninger med samme gyldighed, hvilket ikke nødvendigvis er tilfældet, da begge foranstaltninger kan udgøre gyldighedsproblemer.

nogle rapporter brugte kappa-statistikker til at kvantificere niveauer af enighed mellem direkte og fuldmægtige foranstaltninger. Selv om det undertiden hævdes, at kappa-statistikken giver et tilfældigt korrigeret mål for enighed mellem to foranstaltninger, er det blevet hævdet, at dette er vildledende, fordi foranstaltningerne tydeligvis ikke er uafhængige . To af disse rapporter brugte også kappa-statistikker til at teste hypotesen om, at der ikke er mere enighed mellem direkte og fuldmægtige foranstaltninger, end der tilfældigt kan forekomme. Dette er ikke særlig informativt, da foranstaltningerne pr.definition er afhængige, fordi de vurderer den samme adfærd. Kappa-statistikker deler også manglerne ved andre korrelationsmål (Pearson-korrelationen og korrelationen inden for klassen) til vurdering af enighed mellem målemetoder: de antager, at de to metoder, der skal sammenlignes, er udskiftelige, mens vi normalt betragter det direkte mål som tættere på den sande værdi end fuldmagten; og deres værdi påvirkes af måleområdet, med et bredere interval, der giver en højere korrelation .

den samme kritik gælder for vurdering af ‘uenighed’. Den ‘konvergerende gyldighed’ antager, at ikke at udføre specifikke handlinger har samme betydning som at udføre dem, hvilket måske eller måske ikke er sandt afhængigt af situationen.

ingen af rapporterne tillod gruppering af emner inden for klinikere, for eksempel ved hjælp af en multi-level model . Det er sandsynligt, at der vil være sammenhæng mellem emner inden for klinikere, da handlinger udført af en kliniker sandsynligvis ligner hinanden mere end handlinger udført af andre klinikere. Manglende mulighed for denne manglende uafhængighed af poster vil sandsynligvis resultere i spuriously præcise estimater af følsomhed, specificitet, og anden sammenfattende statistik. Desværre fremlagde ingen af disse rapporter konfidensintervaller for nogen af de sammenfattende statistikker.

anbefalede metoder til sammenligning af direkte og fuldmægtige foranstaltninger punkt for punkt

individuelle emner kan vurderes for ansigt og indholdsgyldighed af en gruppe fageksperter. Deres pålidelighed kan vurderes ved hjælp af en tilfældig eller systematisk prøve af klinikere udvalgt fra en regional eller national prøveudtagningsramme . Hvis fokus af interesse er handlinger, der blev udført, er følsomheden og den positive forudsigelige værdi passende statistik til sammenligning af direkte og fuldmægtige mål fra punkt til punkt. Fuldmagtsforanstaltningen skal have en høj følsomhed og en høj positiv forudsigelsesværdi, således at den registrerer de fleste handlinger, der blev udført, og de fleste handlinger, som den markerer som udført, blev faktisk udført. Hvis handlinger, der ikke blev udført, også er af interesse, er specificiteten og den negative forudsigelsesværdi også påkrævet. Elementer, der vurderer forskellige handlinger, bør ikke behandles som om de var udskiftelige, medmindre de har vist sig at have lignende diagnostiske egenskaber.

sammenligninger af summariske scoringer

individuelle poster kan fungere som enten indikatorvariabler eller som årsagsvariabler . Indikatorvariabler bestemmes af et ikke-observerbart, underliggende koncept: for eksempel antages svarene på elementer i en efterretningstest at være bestemt af et Underliggende niveau af evne, og de forventes derfor at være korrelerede. I modsætning hertil bestemmer årsagsvariabler i fællesskab en uobserveret konstruktion. For eksempel kan socioøkonomisk status bestemmes i fællesskab af uddannelse, indkomst, naboskab og erhvervsmæssig prestige; en stigning i nogen af disse kan øge den socioøkonomiske status, men vi forventer ikke, at disse indikatorer korreleres. Metoderne til at kombinere elementer i scoringer afhænger af, om elementerne betragtes som indikatorvariabler eller årsagsvariabler. Varesvarsteori, inklusive Rasch-modeller , kan anvendes på indikatorvariabler, men er upassende for kausale variabler, for hvilke der er foreslået en række metoder . Ingen af de inkluderede rapporter indeholdt nogen diskussion af, om punkterne blev betragtet som årsagsvariabler eller indikatorvariabler, skønt to rapporter vægtede poster for at afspejle deres betydning.

flere rapporter sammenlignede midlerne til summariske scoringer , hvilket er utilstrækkeligt til vurdering af enighed. For det første, selv om midlerne til de direkte og fuldmægtige foranstaltninger er ens, kan det ikke antages, at de er enige om alle værdier af den direkte foranstaltning. For det andet giver midlerne ikke tilstrækkelig information til at forudsige den direkte foranstaltning ud fra en værdi af fuldmagten. For det tredje fortæller sammenligning af midler os ikke noget om variabiliteten af fuldmagtsforanstaltningen for nogen specifik værdi af den direkte foranstaltning. Endelig er det muligt for summariske scoringer at have samme værdi for direkte måling og fuldmagtsforanstaltninger, selvom svarene på de enkelte poster er meget forskellige.

nogle rapporter beregnede summariske scoringer for hver konsultation , mens andre rapporter gennemsnitede konsultationsscore for hver kliniker for at opnå en score for klinikeren . Simpelthen gennemsnit over konsultationer tillader ikke korrelation af handlinger fra den samme kliniker (diskuteret ovenfor): metoder såsom modellering på flere niveauer er påkrævet . En rapport hævdede imidlertid på grundlag af variansanalyse, at der ikke var nogen signifikant effekt af klyngedannelse inden for klinikere .

flere rapporter anvendte metoder baseret på en lineær model-analyse af varians , t-test eller korrelation-for at vurdere enighed. Disse metoder antager, at resultatet af interesse er kontinuerligt og normalt fordelt. Dette er ikke strengt gyldigt, når resultatet er andelen af udførte genstande, da proportioner har diskrete værdier og en binomialfordeling, skønt de slutninger, der foretages, i mange tilfælde stadig kan være gyldige.

variansanalyse vurderer, hvordan middelværdien af en variabel påvirkes af klassificeringen af dataene . Den sammenligner variationen mellem grupper (i dette tilfælde målinger ved direkte og fuldmægtige metoder) med variationen inden for grupper for at vurdere, om middelværdierne er forskellige i forskellige grupper. Selv om denne metode har den fordel, at den kan give mulighed for andre faktorer, der kan påvirke forskelle mellem metoder, f. eks., sygdom, sagskompleksitet, lægeuddannelsesniveau, og hospitalssteder, det er i det væsentlige en metode til at teste hypotesen om, at midlerne er de samme i forskellige grupper, hvilket er upassende af nedenstående grunde. T-test er et specielt tilfælde af variansanalyse og deler dens ulemper.

Pearson-korrelationen måler styrken af lineær sammenhæng mellem to variabler og giver derfor et mål for den gennemsnitlige variabilitet i deres forhold . Hvis et scatter-plot af de to variabler viser, at alle punkterne ligger på en lige linje, har Pearson-korrelationen værdien af en (eller minus en); men hvis punkterne viser en masse scatter, har Pearson-korrelationen en værdi mellem nul og en (eller minus en). Det har imidlertid den ulempe, at det ikke vurderer bias: for eksempel kan to mål have perfekt korrelation (lig med en), selvom den ene foranstaltning konsekvent er dobbelt så stor som den anden foranstaltning . Desuden, Pearson-korrelationen afhænger af variabelområdet: hvis der faktisk er et lineært forhold mellem variablerne, vil en bredere vifte af variation i adfærd resultere i en højere korrelationskoefficient .

alle de rapporter, der sammenlignede summariske scoringer, brugte hypotesetest. Vurdering af enighed mellem to foranstaltninger er et problem med estimering, ikke hypotesetest . Estimering kan forudsige den værdi, som en foranstaltning (den direkte foranstaltning) sandsynligvis vil tage, hvis værdien af den anden foranstaltning (fuldmagten) er kendt. Hypotesetest har til formål at hjælpe beslutningstagningen om, hvorvidt de observerede data giver bevis for, at en bestemt hypotese (f.eks. Hypotesetest og estimering kan føre til forskellige konklusioner: for eksempel, hvis der er en bred vifte af variation i hver foranstaltning, hypotesetest vil sandsynligvis føre til en konklusion om, at fuldmagten og den direkte foranstaltning er ens, hvorimod estimering har tendens til at indikere, at fuldmagten kan være en dårlig forudsigelse for den direkte foranstaltning.

anbefalede metoder til sammenligning af fuldmægtig og direkte målesammendrag

mål, der opsummerer flere elementer, skal være pålidelige, gentagelige, indfange et enkelt underliggende aspekt af adfærd og måle, at konstruere ved hjælp af en gyldig måleskala. Når sådanne direkte og stedfortrædende foranstaltninger er konstrueret, skal forholdet mellem dem vurderes over hele deres rækkevidde, først ved en simpel plot af den ene foranstaltning mod den anden . Det næste trin afhænger af, om den direkte foranstaltning kan betragtes som en fejlfri ‘guldstandard’. I undersøgelserne inkluderet i vores gennemgang var Inter-rater pålidelighed god til direkte målinger baseret på simulerede patienter, hvilket tyder på , at disse foranstaltninger havde ringe fejl, men direkte foranstaltninger baseret på lyd-eller videooptagelse var mere tilbøjelige til fejl .

hvis vi ønsker at vurdere enighed mellem to målemetoder, hvoraf ingen kan betragtes som estimering af den sande værdi af den målte mængde, Bland og Altman har anbefalet, at forskellen mellem to mål derefter skal afbildes mod deres gennemsnit. Dette muliggør visuel vurdering af både systematisk bias og variation .

alternativt, hvis en foranstaltning kan betragtes som fejlfri, og renter hovedsageligt fokuserer på, om den viser et konsistent, forudsigeligt forhold til fuldmagtsforanstaltningen, er problemet et kalibrering snarere end vurdering af aftale . Dette forhold kan derefter fanges ved brug af regression : regressionslinjen fanger det gennemsnitlige forhold mellem målene, og det er muligt at konstruere et forudsigelsesinterval på 95%, der for hver værdi af fuldmagtsforanstaltningen viser det interval, inden for hvilket værdierne for det direkte mål for en individuel kliniker (eller konsultation) sandsynligvis vil ligge.

denne brug af regression har nogle iboende svagheder. For det første, da fuldmagten uundgåeligt måles med en vis fejl , vil forholdet mellem de direkte og fuldmægtige foranstaltninger næsten helt sikkert vise regression til gennemsnittet og dermed undervurdere høje værdier af den direkte foranstaltning og overvurdere lave værdier. For det andet antager regression, at mængden af variation i fuldmagtsresultater ikke afhænger af værdien af direkte måling, hvilket ikke var sandt i undersøgelserne inkluderet i denne gennemgang. De summariske scoringer, der blev anvendt i inkluderede studier, havde et begrænset interval, f. eks., 0 til100, så variationen i fuldmagtsresultatet havde en tendens til at være mindre, hvis de direkte scoringer var tættere på ekstremerne. Dette kan føre til falsk præcision i estimater af regressionslinjen og dens forudsigelsesinterval. En sådan effekt ville være mere markant for scoringer baseret på færre poster eller med større standardafvigelser. For det tredje, som nævnt ovenfor for analyse af varians og korrelation, er antagelsen om, at den summariske score er kontinuerlig og normalt fordelt, ikke gyldig. Endelig er forholdet mellem direkte og fuldmægtige foranstaltninger muligvis ikke lineært over hele deres rækkevidde: ikke-linearitet kan vurderes ved inspektion af plottet eller mere formelt ved at teste effekten af at tilføje et kvadratisk udtryk til regressionen. Alternativer til en regressionsmetode inkluderer elementresponsteori (hvis det antages, at elementerne er indikatorvariabler) eller multiplikative hjælpeformler eller strukturel ligningsmodellering (hvis det antages, at elementerne er årsagsvariabler) .

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.