statistiska överväganden i en systematisk genomgång av proxy mått på kliniskt beteende

baserat på en följeslagare systematisk genomgång av proxy mått på kliniskt beteende , vi granskade vidare det breda spektrum av statistiska metoder som används i de inkluderade studierna för att jämföra proxy och direkta mått på beteende. Vi diskuterar nu dessa statistiska metoder och fortsätter sedan med att göra rekommendationer. Även om vår granskning i princip inte var begränsad till åtgärder baserade på binära (ja/nej) artiklar, använde alla inkluderade papper detta tillvägagångssätt. Eftersom vissa papper jämförde objekt direkt, och andra jämförde poäng baserat på att kombinera artikelsvar, strukturerar vi vår diskussion för att återspegla dessa två tillvägagångssätt.

jämförelse mellan objekt och objekt

i det aktuella sammanhanget svarar känsligheten på frågan: vilken andel åtgärder som faktiskt utfördes och registrerades genom direkt observation identifierades av proxyn? Det positiva prediktiva värdet svarar på frågan: Hur stor andel av de åtgärder som flaggades av fullmakten som utförda registrerades genom direkt observation som utförda? Specificitet och negativa prediktiva värden adresserar liknande frågor, men om åtgärder som inte utfördes.

för jämförelser med enskilda objekt är rapportering av känslighet och specificitet ett lämpligt sätt att bedöma prestanda för en proxy , även om man måste tänka på vilka av dessa åtgärder som är mest relevanta för det kliniska sammanhanget och forskningsfrågan, eller om båda åtgärderna krävs, eller om det positiva (och/eller negativa) prediktiva värdet kan vara mer informativt. De positiva och negativa prediktiva värdena har nackdelen att de varierar med förekomsten av faktiskt beteende och så kommer att variera mellan populationer .

det är dock tveksamt om det är lämpligt att uppskatta känslighet och specificitet baserat på en kombination av objekt som beskriver olika kliniska åtgärder . Det verkar till exempel tveksamt om det är giltigt att kombinera åtgärder för att granska droger och diskutera rökavvänjning , eller åtgärder för att fråga patienten om strålningen av smärta och att fråga sitt yrke , eller åtgärder för att applicera en slinga och hänvisa till en fysioterapeut . Att kombinera objekt förutsätter att deras proxyåtgärder har samma underliggande känslighet och specificitet, vilket kanske inte är sant. Giltigheten av detta antagande kunde bedömas och poster kombineras endast om deras känslighet och särdrag var likartade.

bedömning av ’överenskommelse’ genom jämförelse av andelen utförda poster som identifierades genom den direkta åtgärden och fullmakten är olämplig eftersom den, till skillnad från känsligheten, inte ger någon indikation på om en post som registrerats som utförd på den direkta åtgärden också registreras som utförd på fullmakten. Det är möjligt att ha perfekt överenskommelse även om direkt-och proxyåtgärderna registrerar helt olika objekt som utförs. Till exempel kan de procentsatser som registrerats som utförda av ett direkt mått och av proxyn båda vara 50%, även om känsligheten, specificiteten, positiva och negativa prediktiva värdet är alla noll (t.ex. om a = d = 0 och b = c = 50; se Tabell 1). Vidare anser bedömningen av avtal att de direkta åtgärderna och fullmaktsåtgärderna har samma giltighet, vilket kanske inte nödvändigtvis är fallet, eftersom endera åtgärden kan innebära giltighetsproblem.

vissa rapporter använde kappa-statistik för att kvantifiera nivåer av överenskommelse mellan direkta och proxyåtgärder. Även om det ibland hävdas att kappa-statistiken ger ett slumpmässigt korrigerat mått på överenskommelse mellan två åtgärder, har det hävdats att detta är vilseledande eftersom åtgärderna uppenbarligen inte är oberoende . Två av dessa rapporter använde också kappa-statistik för att testa hypotesen att det inte finns någon mer överenskommelse mellan direkta och proxyåtgärder än vad som kan ske av en slump. Detta är inte särskilt informativt, eftersom åtgärderna per definition är beroende av att de betygsätter samma beteende. Kappa-statistik delar också bristerna i andra mått på korrelation (Pearson-korrelationen och den intra-klass korrelation) för att bedöma överenskommelse mellan mätmetoder: de antar att de två metoderna som ska jämföras är utbytbara, medan vi vanligtvis betraktar det direkta måttet som närmare det verkliga värdet än proxyn; och deras värde påverkas av mätområdet, med ett bredare intervall som ger en högre korrelation .

samma kritik gäller för bedömning av oenighet. Den konvergerande giltigheten förutsätter att inte utföra specifika åtgärder har samma betydelse som att utföra dem, vilket kan eller inte kan vara sant beroende på situationen.

ingen av rapporterna tillåts för klustring av objekt inom kliniker, till exempel genom att använda en multi-level modell . Det är troligt att det kommer att finnas korrelation mellan objekt inom kliniker eftersom åtgärder som utförs av en kliniker sannolikt kommer att likna varandra mer än åtgärder som utförs av andra kliniker. Underlåtenhet att tillåta denna brist på oberoende av artiklar kommer sannolikt att resultera i skrämmande exakta uppskattningar av känslighet, specificitet och annan sammanfattande statistik. Tyvärr presenterade ingen av dessa rapporter konfidensintervall för någon av sammanfattningsstatistiken.

rekommenderade metoder för att jämföra direkta och proxy åtgärder post för post

enskilda objekt kan bedömas för ansikte och innehåll giltighet av en grupp av ämnesexperter. Deras tillförlitlighet kan bedömas med hjälp av ett slumpmässigt eller systematiskt urval av kliniker utvalda från en regional eller nationell provtagningsram . Om fokus av intresse är åtgärder som utfördes, är känsligheten och det positiva prediktiva värdet lämplig statistik för att jämföra direkta och proxyåtgärder post-för-post. Proxy-måttet bör ha en hög känslighet och ett högt positivt prediktivt värde, så att det upptäcker de flesta åtgärder som utfördes och de flesta åtgärder som den flaggar som utförda utfördes faktiskt. Om åtgärder som inte utfördes också är av intresse, krävs också specificiteten och det negativa prediktiva värdet. Objekt som bedömer olika åtgärder bör inte behandlas som om de var utbytbara, såvida de inte har visat sig ha liknande diagnostiska egenskaper.

jämförelser av sammanfattande poäng

enskilda objekt kan fungera som antingen indikatorvariabler eller som kausala variabler . Indikatorvariabler bestäms av ett icke observerbart, underliggande koncept: till exempel antas svaren på objekt i ett intelligenstest bestämmas av en underliggande nivå av förmåga, och så förväntas de vara korrelerade. Däremot bestämmer kausala variabler gemensamt en obemärkt konstruktion. Till exempel kan socioekonomisk status bestämmas gemensamt av utbildning, inkomst, grannskap och yrkesprestige; en ökning av någon av dessa kan öka socioekonomisk status, men vi förväntar oss inte att dessa indikatorer ska korreleras. Metoderna som används för att kombinera objekt i poäng beror på om objekten betraktas som indikatorvariabler eller kausala variabler. Artikelresponsteori, inklusive Rasch-modeller, kan tillämpas på indikatorvariabler , men är olämpligt för kausala variabler, för vilka en rad metoder har föreslagits . Ingen av de inkluderade rapporterna innehöll någon diskussion om posterna betraktades som kausala eller indikatorvariabler, även om två rapporter viktade poster för att återspegla deras betydelse.

flera rapporter jämförde medel för sammanfattande poäng, vilket är otillräckligt för bedömning av överenskommelse. För det första, även om medlen för direkt-och fullmaktsåtgärderna är likartade, kan det inte antas att de är överens om alla värden för den direkta åtgärden. För det andra ger medlen inte tillräckligt med information för att förutsäga det direkta måttet från ett proxyvärde. För det tredje säger jämförelse av medel inte något om variationen i proxy-måttet för något specifikt värde av den direkta åtgärden. Slutligen är det möjligt för sammanfattande poäng att ha samma värde för direkta mått och proxyåtgärder, även om svaren på de enskilda objekten är mycket olika.

vissa rapporter beräknade sammanfattande poäng för varje konsultation , medan andra rapporter i genomsnitt räknade konsultationspoängen för varje kliniker för att få en poäng för kliniken . Att bara medelvärdera över konsultationer tillåter inte korrelation av åtgärder av samma kliniker (diskuterad ovan): metoder som modellering på flera nivåer krävs . En rapport hävdade emellertid, på grundval av variansanalys, att det inte fanns någon signifikant effekt av kluster inom kliniker .

flera rapporter använde metoder baserade på en linjär modell-variansanalys , t-test eller korrelation-för att bedöma överenskommelse. Dessa metoder antar att resultatet av intresse är kontinuerligt och normalt fördelat. Detta är inte strikt giltigt när resultatet är andelen utförda objekt, eftersom proportioner har diskreta värden och en binomialfördelning, även om de slutsatser som görs i många fall fortfarande kan vara giltiga.

variansanalys bedömer hur medelvärdet för en variabel påverkas av klassificeringen av data . Den jämför variationen mellan grupper (i detta fall mätningar med direkta och proxy-metoder) med variationen inom grupper för att bedöma om medelvärdena skiljer sig åt i olika grupper. Även om denna metod har fördelen att den kan tillåta andra faktorer som kan påverka skillnader mellan metoder, t. ex., sjukdom, fallkomplexitet, läkarutbildningsnivå och sjukhusplatser, det är i huvudsak en metod för att testa hypotesen att medel är desamma i olika grupper, vilket är olämpligt av de skäl som anges nedan. T-test är ett speciellt fall av variansanalys och delar dess nackdelar.

Pearson-korrelationen mäter styrkan i linjär association mellan två variabler och ger därför ett mått på den genomsnittliga variationen i deras förhållande . Om en scatter-plot av de två variablerna visar att alla punkter ligger på en rak linje, har Pearson-korrelationen värdet av en (eller minus en); men om punkterna visar mycket scatter har Pearson-korrelationen ett värde mellan noll och en (eller minus en). Det har emellertid nackdelen att det inte bedömer bias: till exempel kan två mått ha perfekt korrelation (lika med en) även om en åtgärd är konsekvent dubbelt så stor som den andra åtgärden . Dessutom beror Pearson-korrelationen på variablernas intervall: om det verkligen finns ett linjärt förhållande mellan variablerna, kommer ett bredare spektrum av variation av beteenden att resultera i en högre korrelationskoefficient .

alla rapporter som jämförde sammanfattande poäng använde hypotesprovning. Bedömning av överenskommelse mellan två åtgärder är ett problem med uppskattning, inte hypotesprövning . Uppskattning kan förutsäga det värde som ett mått (det direkta måttet) sannolikt kommer att ta, om värdet på det andra måttet (proxyn) är känt. Hypotesprovning syftar till att underlätta beslutsfattandet om huruvida de observerade uppgifterna ger bevis för att en viss hypotes (t.ex. att två värden är desamma) sannolikt inte är sant. Hypotesprövning och uppskattning kan leda till olika slutsatser: till exempel, om det finns ett brett spektrum av variabilitet i varje åtgärd, hypotesprövning kommer sannolikt att leda till en slutsats att proxy och direkt åtgärd är likartade, medan uppskattning tenderar att indikera att proxy kan vara en dålig prediktor för den direkta åtgärden.

rekommenderade metoder för att jämföra proxy-och direct measure summary-poäng

åtgärder som sammanfattar flera objekt bör vara tillförlitliga, repeterbara, fånga en enda underliggande aspekt av beteende och mäta som konstruerar med en giltig mätskala. När sådana direkta åtgärder och fullmaktsåtgärder har konstruerats bör förhållandet mellan dem utvärderas över hela sitt intervall, först genom en enkel plot av en åtgärd mot den andra . Nästa steg beror på om den direkta åtgärden kan betraktas som en felfri guldstandard. I studierna som ingår i vår granskning var Inter-rater tillförlitlighet bra för direkta åtgärder baserade på simulerade patienter, vilket tyder på att dessa åtgärder hade lite fel , men direkta åtgärder baserade på ljud-eller videoinspelning var mer benägna att fel .

om vi vill bedöma överensstämmelse mellan två mätmetoder, varav ingen kan betraktas som att uppskatta det verkliga värdet av den uppmätta kvantiteten, har Bland och Altman rekommenderat att skillnaden mellan två mått sedan ska ritas mot deras medelvärde. Detta möjliggör visuell bedömning av både systematisk bias och variation .

alternativt, om en åtgärd kan betraktas som felfri, och intresset främst handlar om huruvida det visar ett konsekvent, förutsägbart förhållande till proxyåtgärden, är problemet en kalibrering snarare än bedömning av överenskommelse . Detta förhållande kan sedan fångas med hjälp av regression : regressionslinjen fångar det genomsnittliga förhållandet mellan åtgärderna och det är möjligt att konstruera ett 95% prediktionsintervall som för varje värde av proxy-måttet visar det intervall inom vilket värdena för den direkta åtgärden för en enskild kliniker (eller konsultation) sannolikt kommer att ligga.

denna användning av regression har vissa inneboende svagheter. För det första, eftersom proxyn oundvikligen mäts med något fel , kommer förhållandet mellan de direkta och proxyåtgärderna nästan säkert att visa regression till medelvärdet, vilket underskattar höga värden för den direkta åtgärden och överskattar låga värden. För det andra antar regression att mängden variation i proxypoängen inte beror på värdet av direkt mått, vilket inte var sant i studierna som ingår i denna översyn. De sammanfattande poäng som användes i inkluderade studier hade ett begränsat intervall, t. ex., 0 to100, så variationen i proxypoängen tenderade att vara mindre om de direkta poängen var närmare ytterligheterna. Detta kan leda till falsk precision i uppskattningar av regressionslinjen och dess prediktionsintervall. En sådan effekt skulle vara mer markerad för poäng baserade på färre objekt eller med större standardavvikelser. För det tredje, som nämnts ovan för analys av varians och korrelation, är antagandet att sammanfattningspoängen är kontinuerlig och normalt fördelad inte giltig. Slutligen kan förhållandet mellan direkta och proxyåtgärder inte vara linjärt över hela sitt sortiment: icke-linjäritet kan bedömas genom inspektion av tomten eller, mer formellt, genom att testa effekten av att lägga till en kvadratisk term till regressionen. Alternativ till en regressionsmetod inkluderar artikelresponsteori (om det antas att objekten är indikatorvariabler) eller multiplikativa verktygsformler eller strukturell ekvationsmodellering (om det antas att objekten är kausala variabler) .

Lämna ett svar

Din e-postadress kommer inte publiceras.