D3lir i aku7afd3ling3n – Kan vi korrekt forudsige hvem der får delir?

RESUS Quick-Review: Delir-scorer i akutafdelingen

Delir er en kæmpestor og i vid udstrækning overset og underbehandlet diagnostisk udfordring i akutafdelingen. Studier blandt ældre patienter i akutafdelinger har vist prævalenser på helt op til 20-25% (1) og en op til 2-3 gange øget dødelighed (2). Samtidig viser studier at op til 89% af patienter med delir overses i akutafdelingen og op til 90% af disse ikke identificeres under indlæggelse (3).

En del af forklaringen ligger formentligt i at delir opfattes som en paradoksalt kompliceret og besværlig, men samtidig hyppig og nærmest forventelig og formentligt benign tilstand hos ældre. Tiltag i behandlingen af delir omfatter desuden ting som det kan være svært, for ikke at sige umuligt at gennemføre i akutafdelingen, såsom skærmning og fast vagt. Evidensen på området har længe været mangelfuld og en nyligt opdateret National Klinisk Retningslinje fra Sundhedsstyrelsen indeholder da også kun svage anbefalinger samt "god praksis" tiltag.

At tilstanden synes svær at behandle og evidensen ikke er klippefast må dog ikke, set i betragtning af den betydelige forekomst og konsekvenser i form af både den kraftigt øgede dødelighed samt et stærkt øget pres på plejepersonalet (måske endda i højere grad hvis tilstanden overses og underbehandles), betyde at vi lader tingene stå til som de er for nuværende. Havde der været tale om patienter med akutte kirurgikrævende tilstande eller akut behandlingskrævende koronarokklusioner havde der formentligt været sat ind tidligere.

Men hvor skal vi starte?

Det første skridt er formentligt korrekt at identificere de patienter der er i højest risiko for at have, eller at udvikle delir og tidligt igangsætte tiltag som kan undgå udviklingen til behandlingsresistent delir. Jo bedre data vi får for prævalensen og konsekvenserne af delir i akutafdelingen og videre ind i sygehusvæsenet, jo bedre vil vi kunne argumentere for udviklingen af forhold som understøtter de non-farmakologiske tiltag som vi ved hjælper.

Retningslinjen fra Sundhedsstyrelsen anbefaler bl.a. som "god praksis" screening af patienter i risiko for delir, defineret som en eller flere af følgende:

Høj alder (min. 65 år)
Demens eller kognitiv dysfunktion (både aktuel og tidligere, fx. tidligere delirium og hjerneskader)
Funktionsnedsættelse
Akut sygdom

For os der arbejder i akutafdelingen vil det altså sige størstedelen af vores patienter. Hvorvidt dette er praktisk gennemførligt afhænger i høj grad af ressourcetrækket som den valgte screeningsmetode vil kræve.

I retningslinjen anbefales ikke nogen specifik screeningsmetode, da "der ikke blev fundet brugbar evidens på området", men den omfattende screeningsmetode CAM (Confusion Assessment Method) samt dens kortere mere klinisk anvendelige version b-CAM (brief Confusion Assessment Method) nævnes. Begge har dog primært været brugt i forskningen og CAM er så tidskrævende (ca 20 min.) at det ikke er realistisk at anvende denne i akutafdelingen. Der er dog udviklet flere andre delirscorer og trods at evidensen ikke nødvendigvis er den stærkeste kan vi alligevel forholde os til den.

Som et nyt indslag på RESUS-platformen forsøger vi her at give et hurtigt overblik - ikke et systematisk review - af den vigtigste litteratur på området og, forhåbentlig, en konklusion på hvilke af scorerne der ud fra den tilgængelige evidens synes mest hensigtsmæssige at anvende i akutafdelingen.

Alle mod alle: Test af 6 delir-scorer

Studie: Hendry et al. “Evaluation of delirium screening tools in geriatric medical inpatients: a diagnostic test accuracy study” Age & Ageing 2016

PubMed ID: 27503794 DOI: 10.1093/ageing/afw130

PICTR-analyse:

Population: Patienter ≥65 år indlagt på geriatrisk afdeling (87% kvinder)
Indekstest: 4AT
Comparison: b-CAM, AMT10, AMT-4, MOTYB og SQID
Target condition: Delir
Referencestandard: Geriatrisk vurdering ud fra DSM-V

Metoder:

Prospektivt observationelt studie over konsekutiv kohorte af patienter
Alle tests blev udført på samme tid via en standardiseret protokol med efterfølgende udregning af hver score
Alle tests blev udført af en enkelt forsker med MSc med fokus på delir
Referencestandarden blev udført ifb. med stuegange to gange ugentligt og indekstests blev udført 25-70 minutter efter denne

Resultater:

18,6% havde sikker delir og 20,8% mulig delir ifølge referencestandarden, som blev udført på 474/500 ptt.

4AT: AUC 0,84
Sensitivitet 86,7% (CI 77.5–93.2)
Specificitet 69,5% (CI 64.4–74.3)
b-CAM: AUC 0,81
Sensitivitet 70.3% (CI 58.5–80.3)
Specificitet 91,4% (CI 87.7–94.3)
AMT-10: AUC 0,80
Sensitivitet 86,6% (CI 77.3–93.1)
Specificitet 63,5% (CI 58.0–68.7)
AMT-4: AUC 0,80
Sensitivitet 92,7% (84.8–97.3)
Specificitet 53,7% (CI 48.1–59.2)
SQiD: AUC 0,77
Sensitivitet 91,4% (76.9–98.2)
Specificitet 61,3% (CI 51.4–70.6)
MOTYB: AUC 0,76
Sensitivitet 91,3% (82.8–96.4)
Specificitet 49,7% (44.1–55.3)

b-CAM havde laveste sensitivitet, men højeste specificitet af alle tests, mens 4AT havde bedste AUC (Area Under the Curve)

Hvad betyder det?

For at en delirscore skal være anvendelig i akutafdelingen er det først og fremmest vigtigt at den:

Kan udføres ud fra det tilgængelige øjebliksbillede
Er hurtig at gennemføre
Kan udføres uden særlig oplæring

AMT-10 indeholder 10 spørgsmål rangerende fra aktuelle tidspunkt til hvornår 1. verdenskrig startede samt nedtælling fra 20 til 1 og er således for alle praktiske formål for omstændig til at gennemføre på en generelt risikopopulation i akutafdelingen. SQiD (Single Question in Delirium) indeholder kun ét spørgsmål, som dog går på om personalet vurderer der er sket en ændring i patientens tilstand indenfor det sidste døgn. Disse to delirscorer kan vi således umiddelbart se bort fra.

Derudover vil det dog også give mening kort at overveje hvad der for os i akutafdelingen er vigtigst: en høj sensitivitet (få falsk negative) eller en høj specificitet (få falsk positive). En kombination af begge (en AUC tæt på 1) vil selvfølgelig altid være at foretrække, men er sjældent praktisk opnåelig.

*Fra Alex Deforge - Phil 155: Reasons and arguments*

Umiddelbart vil det ud fra den høje øgning i mortalitet som delir er fundet at bringe med sig tale mest for at fokusere på en høj sensitivitet. Da tiltagende som må implementeres for at undgå udviklingen af eller behandle delir dog er relativt ressourcekrævende vil en delirscore med en høj sensitivitet, men meget lav specificitet med al sandsynlig vise sig ikke at være gennemførlig grundet for lav en omkostningseffektivitet.

AMT-4 indeholder kun 4 spørgsmål, som i virkeligheden omfatter de i forvejen brugte spørgsmål til vurdering af patientens orienteringsniveau (som evt. helt bør udskiftes med en delirscore?). MOTYB (Months of the Year Backwards) indeholder kun én test, som dog er opremsning af årets måneder bagfra. Disse to tests vil umiddelbart altså passe perfekt ind i akutafdelingens arbejdflow, men har trods god sensitivitet begge en elendig specificitet på 50% (hvilket i praksis vil betyde at lige så mange patienter identificeret med delir vil have det som ikke - altså en dobbelt så stor patientgruppe som nødvendig).

b-CAM og 4AT er begge delirscorer med hver 4 trin, som ikke kræver et indgående forudgående kendskab til patienten og kun relativt kort observation af et evt. fluktuerende kognitivt funktionsniveau (som ligeledes kan indhentes fra pårørende eller hjemmepleje). b-CAM resulterer i et dikotomt "ja"/"nej" svar, mens 4AT inddeler patientens risiko for delir i grader ud fra en score. 4AT er desuden specifikt udviklet og valideret ud fra præmissen at den ikke kræver nogen oplæring. b-CAM er dog også relativt tilgængelig, men kræver en vis introduktion. Begge er oversat til dansk.

b-CAM har i ovennævnte studie en relativt lav sensitivitet på 70%, men en imponerende specificitet på 91,4% mens 4AT har den bedste AUC (og altså den bedste balance imellem sensitivitet og specificitet) med en relativt højere sensitivitet på 86,7 og en bevaret specificitet på 69,5.

Ingen af scorerne er altså perfekte ud fra dette studies resultater (som det er vigtigt at se i lyset af at det blev udført på en geriatrisk afdeling og som én samlet screening der efterfølgende blev udregnet ud fra de forskellige scorer), men vi kan få indtrykket af at de mest plausible kandidater at anvende i akutafdelingen er b-CAM (som jo blev anbefalet i Sundhedsstyrelsens Nationale Kliniske Retningslinje) eller 4AT.

Men hvilken en skal vi så anvende?

Titel forsvareren: b-CAM valideringsstudie

Studie: Baten et al. “Validation of the Brief Confusion Assessment Method for Screening Delirium in Elderly Medical Patients in a German Emergency Department” Academic Emergency Medicine 2018

PubMed ID: 29738102 DOI: doi: 10.1111/acem.13449

PICTR-analyse:

Population: Medicinske patienter ≥70 år indlagt på en tysk akutafdeling
Indekstest: bCAM
Comparison: Ingen
Target condition: Delir
Referencestandard: Psykiatrisk eller neurologisk overlæge vurdering ud fra DSM-V

Metoder:

Prospektivt observationelt studie, som sammenligner b- CAM med DSM-V kriterier hos medicinske patienter ≥70 i akutafdelingen
En bekvemmelighedskohorte blev anvendt idet kun patienter der præsenterede sig i tidsrummet 8-16 mandag til fredag, som havde et værelse tilgængeligt til undersøgelse og ikke var isolerede blev inkluderede (dog kunne patienter inkluderes op til 12 timer efter ankomst til akutafdelingen, hvorfor nogle patienter fra hverdagsnattevagterne formentligt er inkluderede)
Information om ændret eller fluktuerende kognitivt funktionsniveau blev vurderet af personalet i akutafdelingen, eller indhentet fra pårørende eller plejepersonale som kendte patienten
Ved manglende information om ændret eller fluktuerende kognitivt funktionsniveau blev patienten scoret positiv hvis alle andre punkter på bCAM var opfyldt
b-CAM blev udført af læger i akutafdelingen ifb. med deres vanlige arbejde

Resultater:

46 ud af 288 patienter (16%) havde delir ud fra referencestandarden

Sensitivitet for b-CAM: 65,2% (CI 49,8%-78,7%)
Specificitet for b-CAM: 93,8%% (CI 90%-96,5%)
Likelihood ratios: LR+ 10,5 LR- 0,37

10 ud af 16 tilfælde af delir blev overset ved bCAM på baggrund af manglende information om fluktuerende eller ændret kognitivt funktionsniveau

Forfatterne konkluderer at en struktureret introduktion til bCAM-værktøjet formentligt vil kunne øge sensitiviteten noget

Hvad betyder det?

Det var i vores søgning ikke muligt at finde hverken et randomiseret kontrolleret studie eller en meta-analyse over b-CAMs præcision sammenholdt med referencestandard. Studiet, som trods alt er udført i akutafdelingen, er altså vores bedste bud på hvordan en indførelse af b-CAM scoren vil præstere i akutafdelingen.

Studiet har flere styrker, bl.a. en solid guldstandard (DSM-V vurdering af neurologisk eller psykiatrisk overlæge), samt det faktum at indekstesten (b-CAM) udføres af læger i akutafdelingen ifb. med deres vanlige arbejde. Studiet fremstiller således også nogle af de mest forudsigelige problematikker ifb. med udførelsen af b-CAM i akutafdelingen, særligt den store andel af "ubestemte" på spørgsmålet om ændret eller fluktuerende kognitivt funktionsniveau. I studiet blev hele b-CAM gennemført trods manglende information eller negativt svar på dette spørgsmål, men i virkeligheden er det ikke muligt at udføre b-CAM uden denne information og såfremt der ikke findes ændret eller fluktuerende kognitivt funktionsniveau er b-CAM automatisk negativ. Altså vil en indførsel af dette i akutafdelingens travle hverdag formentligt ikke se meget bedre ud end den gør her i studiet, hvor der trods en fortsat imponerende specificitet på 93,8% ses en lav sensitivitet på 65,2%.

Dertil skal tillægges at bekvemmelighedsinklusionen formentligt har ført til at nogle af de sværeste vurderinger - dem der foregår om natten og i weekenden - er udeladt. Uden at vide det med sikkerhed må det formodes at dette yderligere vil sænke sensitiviteten - og måske endda specificiteten - af værktøjet når det udføres i akutafdelingen.

Udfordreren: 4AT meta-analyse

Studie: Tieges et al. “Diagnostic accuracy of the 4AT for delirium detection in older adults: systematic review and meta-analysis” Age & Aging 2021

PubMed ID: 33951145 DOI: 10.1093/ageing/afaa224

PICO-analyse:

Population: Patienter ≥65 år på en bred vifte af sengeafsnit, akutafdelinger og plejehjem uden delirium tremens.
Intervention: 4AT delirscreeningsværktøjet
Comparison: Guldstandarden diagnostiske standard kriterier (DSM-4/5) eller valideret screeningsværktøj (CAM)
Outcomes: Delir

Metoder:

Meta-analyse der sammenligner 4AT med DSM-kriterier eller valideret screeningsværktøj (CAM)
17 studier (3702 patienter) inkluderet fra akutafdelinger, medicinske og geriatriske afdelinger - heraf 13 prospektive og 4 retrospektive studier
Kun 2 af de 17 studier var baserede udelukkende i akutafdelingen, men inkluderede 669 (18%) ud af de 3702 patienter og begge studier var prospektive

Resultater:

Den samlede prævalens af delir var 24,2% (896 ud af de 3702 inkluderede patienter)

Sensitivitet for 4AT: 88% (CI 80%-93%)
Specificitet for 4AT: 88% (CI 82%-92%)
Likelihood Ratios (ikke udregnet i studiet): LR+ 7,33 LR- 0,14

Moderat risiko for bias i inkluderede studier, men sensitivitetsanalyser bekræftede resultater ved eksklusion af hhv. studier med moderat til høj risiko for bias, retrospektive studier samt studier i højspecialiseret setting (stroke enheder)

Hvad betyder det?

Selve meta-analysen er veludført og de inkluderede studier var generelt af moderat til god kvalitet. Når de samlede resultater på både sensitivitet og specificitet på 88% fastholdes ved sensitivitetsanalyser øges vores tiltro til at resultaterne er robuste - på den brede befolkning af patienter fra medicinske, geriatriske og kirurgiske afdelinger samt akutafdelinger.

*Den danske oversættelse fra 4AT hjemmesiden www.the4at.com*

4AT-værktøjet er specifikt udviklet til ikke at kræve oplæring og bliver i de fleste studier angivet til kun at tage ca 2 minutter at gennemføre. Såfremt sensitiviteten og specificiteten virkelig begge ligger omkring 88% har vi virkelig potentialet for et reelt anvendeligt delirscreeningsværktøj til akutafdelingen.

Studiet inkluderede desværre ikke en sensitivitets- eller subgruppeanalyse af de to studier udført udelukkende i akutafdelingen (Gagné og O'Sullivan), men ved nærmere læsning af hvert af studierne ses en fortsat høj sensitivitet på 84-93% og en specificitet imellem 74-91%. Studiet af O'Sullivan blev vurderet til lav risiko for bias, mens studiet af Gagné blev vurderet i moderat til høj risiko for bias, men var samtidig studiet der fandt den laveste sensitivitet og specificitet på hhv. 84% og 74%.

En af de eneste kritikpunkter ved meta-analysen er inklusionen af studier med referencestandard i form af enten DSM-V vurdering ved speciallæge eller valideret delir-screeningværktøj, som kun omfattede CAM-scoren. En sådan "kobber-standard" kan skævvride resultaterne i en uforudsigelig retning og trods at kun 6/17 studier anvendte CAM (herunder studiet fra akutafdelingen af Gagné med moderat til høj risiko for bias, mens O'Sullivan studiet anvendte DSM-V kriterier) blev der ikke udført sensitivitetsanalyse af resultaterne ved eksklusion af disse studier.

Sværvægterkampen: 4AT vs. CAM

Studie: Shenkin et al. “Delirium detection in older acute medical inpatients: a multicentre prospective comparative diagnostic test accuracy study of the 4AT and the confusion assessment method” BMC Medicine 2019

PubMed ID: 31337404 DOI: 10.1186/s12916-019-1367-9

PICTR-analyse:

Population: Nyindlagte medicinske ptt. >70 år på akutafdelinger eller medicinske sengeafsnit
Indekstest: 4AT
Comparison: CAM
Target condition: Delir
Referencestandard: Psykiatrisk vurdering ud fra DSM-IV

Metoder:

Prospektiv inklusion i hverdage 8-22 fra akutafdelinger og medicinske sengeafsnit på 3 matrikler
Patienter med livstruende tilstande eller koma ekskluderet
Randomiseret via central algoritme til enten 4AT eller CAM
Forskere blev oplært i delir og gennemgik specifik træning i CAM, men ikke i 4AT (intenderet lettilgængelig)
Alle ptt. vurderet med referencestandard

Resultater:

Ud af 785 patienter havde 12,1% delir ifølge referencestandarden. 14,3% af ptt. havde delir ifølge 4AT. 4,7% af ptt. havde delir ifølge CAM

4AT: AUC 0,9 (95% CI 0.84–0.96)
Sensitivitet 76% (95% CI 61–87%)
Specificitet 94% (95% CI 92–97%)
CAM:
Sensitivitet 40% (95% CI 26–57%)
Specificitet 100%(95% CI 98–100%)

Patienter med positiv 4AT score havde længere LOS (median 5 dage) og højere mortalitet efter 12 uger (16.1% vs 9.2%). Patienter med delirium kostede over 12 uger i gennemsnit mere end det dobbelte af patienter uden

Hvad betyder det?

Her har vi reelt et randomiseret studie over præcisionen af 4AT sammenlignet med CAM og sat op imod guldstandarden vurdering ved psykiater ud fra DSM-IV. Den primære kritik af studiet er bekvemmelighedsinklusionen af patienter i hverdage mellem kl. 8-22, men kohorten inkluderer patienter i akutafdelingen og metoderne er derudover helt acceptable. Da studiet er udført af det britiske National Institute of Health er der desuden inkluderet en vurdering af omkostningseffektiviteten ved indførelse af screeningsmetoden, som findes absolut favorabel.

Meget bedre evidens får vi formentligt ikke før der gennemføres et prospektivt og gerne randomiseret valideringsstudie i dansk sammenhæng (oplæg til akutmedicinsk forskningsinteresserede yngre læger?).

Resultaterne overrasker dog noget sammenholdt med de tidligere nævnte studier, da sensitiviteten for 4AT ses lavere end forventet på 76% mens specificiteten ryger helt til tops på 94%. Dertil kommer at den ellers tidligere anvendte "guldstandard", CAM-scoren, performer helt elendigt med en sensitivitet på 40%, trods at den fastholder en forventet tårnhøj specificitet på 100%.

Man kan ikke bebrejdes for at efterlades med et lidt forvirret indtryk af hvor evidensbyrden egentlig peger hen, men tager vi et skridt bagud og overvejer alle studierne træder der nok et billede frem af at b-CAM og CAM, som i alle studier performer afsindigt godt på specificiteten, formentligt er solide værktøjer til anvendelse i forskningsøjemed, hvor det er afgørende at være sikker på at patienten der f.eks. behandles med et potentielt lægemiddel mod delir, rent faktisk har delir. Derimod må det nok konkluderes at de to scorer formentligt ikke har en høj nok sensitivitet til at kunne anvendes på en omkostningseffektiv måde i akutafdelingens brogede population.

4AT værktøjet fremtræder bestemt heller ikke som ufejlbarligt. Da vi, som så ofte før, står overfor en problemstilling hvor vi aktuelt gør intet eller meget lidt for at identificere og behandle delir tidligt, kan værktøjets kombination af en formentligt helt acceptabel sensitivitet og specificitet omkring 80'erne sammen med dets tidseffektivitet og lette tilgængelighed, næsten afgjort gøre en stor forskel for gruppen af patienter med delir i akutafdelingen.

Den kliniske bundlinje

Delir er endnu en af de problemstillinger i akutafdelingen hvor vi nærmest kun kan gøre det bedre. Ligesom for gruppen af patienter med NSTEMI på EKG'et, men behandlingskrævende okklusion, der udgør op til 25% af NSTEMI-patienterne, bliver patienter med delir i akutafdelingen i høj grad overset og underbehandlet. Der foreligger vejledninger og bl.a. en nyligt opdateret National Klinisk Retningslinje fra Sundhedsstyrelsen med anvisninger om den bedst mulige behandling af disse patienter, men mange af disse er både ressourcekrævende og ofte svært gennemførlige i akutafdelingen samt på sengeafsnittene.

Det første skridt i forbedringen af situationen er derfor formentligt en bedre identificering af patienter der enten er i høj risiko for, eller allerede har udviklet delir i akutafdelingen. For at balancere behovet for at behandle dem der reelt har delir med de sparsomme ressourcer der er tilgængelige til at foretage de nødvendige behandlingstiltag må identifikationen have både en acceptabel sensitivitet samt en fornuftig specificitet.

Mange værktøjer er identificeret og i dansk sammenhæng er CAM og b-CAM de bedst kendte, men begge er prægede af en lav sensitivitet trods en tårnhøj specificitet og især CAM er tidskrævende. Ud fra ovenstående gennemgang af et udvalg af den tilgængelige litteratur synes 4AT at være det bedst egnede screeningsværktøj til akutafdelingens brogede patientpopulation, sparsomme informationstilgængelighed og hastige arbejdsgange.

Trods en vis variation imellem studierne peger de stærkeste af dem på at 4AT har en sensitivitet og specificitet der begge ligger et sted i 80'erne. Balancen imellem de to er altså umiddelbart lige i smørhullet, hvor vi kan identificere tilstrækkelige patienter med tilstanden, uden at oversvømme sengeafsnittene med potentielle delirkandidater. Samtidig kræver 4AT scoren ingen oplæring og angives til ikke at tage længere end 2 minutter at gennemgå. Scoren er desuden gradueret og inddeler patienter i høj risiko for delir, risiko for kognitivt svigt eller ingen delir. 4AT er desuden oversat til dansk.

Selvom delir fortsat vil synes som en abstrakt og besværlig tilstand både i akutafdelingen og på sengeafsnittene vil en øget opmærksomhed og bevidsthed omkring tilstanden afgjort kunne gøre en forskel for enkelte patienter. Samtidig vil der kunne oparbejdes data omkring tilstandens reelle prævalens og konsekvenser i det danske sundhedsvæsen, som på sigt vil kunne anvendes til at sikre de nødvendige omstændigheder og ressourcer til korrekt at håndtere og som minimum ikke forværre denne patientgruppes outcome i forbindelse med indlæggelser via akutafdelingen og på hospitalets sengeafsnit.

Blog

D3lir i aku7afd3ling3n – Kan vi korrekt forudsige hvem der får delir?

RESUS Quick-Review: Delir-scorer i akutafdelingen

Alle mod alle: Test af 6 delir-scorer

Hvad betyder det?

Titel forsvareren: b-CAM valideringsstudie

Hvad betyder det?

Udfordreren: 4AT meta-analyse

Hvad betyder det?

Sværvægterkampen: 4AT vs. CAM

Hvad betyder det?

Den kliniske bundlinje

Referencer og mere FOAMED om emnet:

Skriv et svar Annuller svar