← Alla artiklar Juni 2026 · 26 min · Statistik

Personliga referensintervall med parametrisk empirisk Bayes (PEB)

Hur en handfull tidigare provsvar kan göra labbsvaret personligt. En pedagogisk svensk genomgång av parametrisk empirisk Bayes (PEB) byggd kring ett enda räkneexempel: shrinkage-intuitionen, Normal–Normal-modellen, härledningen av shrinkagefaktorn, och hur RIpop, RCV och RIper blir tre specialfall av samma formel — med fallgropar och källkritik mot Røys et al. (2025).

Källa. Pedagogisk genomgång byggd kring Røys EÅ et al., A Parametric Empirical Bayes Approach to Personalized Reference Intervals and Reference Change Values, Clinical Chemistry 2025;71(11):1147–1157. Det genomgående räkneexemplet är didaktiskt (Normal–Normal på råskala med påhittade men realistiska tal) och är inte hämtat ur artikeln, som av princip inte publicerar per-individuella tal. Alla siffror i exemplet är numeriskt verifierade i kod. Den klassiska statistikteorin (Robbins, James–Stein, Efron–Morris) är stödstruktur, inte ämne.

1. Inledning och det kliniska problemet

Ett labbsvar tolkas nästan alltid mot ett populationsbaserat referensintervall (RIpop): det intervall som täcker de centrala 95 % av friska personer. Ligger värdet utanför, flaggas det. Problemet är att RIpop besvarar fel fråga. Det säger “är detta värde ovanligt i befolkningen?” när klinikern oftast vill veta “är detta värde ovanligt för just den här patienten?”. Många biomarkörer regleras nämligen kring en individuell homeostatisk set-point — en personlig nivå som hålls påfallande stabil över tid, ofta i decennier (Foy et al. 2025). En frisk person med naturligt hög set-point flaggas då gång på gång av RIpop, trots att inget är fel, medan en person med låg set-point kan hinna stiga rejält inom RIpop innan något upptäcks.

Vardagsanalogi. RIpop är som standardstorleken på en sko som passar den genomsnittliga foten. Den fungerar hyfsat för många, men sitter illa för alla med ovanligt stor eller liten fot. Ett personligt referensintervall (RIper) är den måttsydda skon: tröskeln centreras kring patientens egen normalnivå i stället för befolkningens. Måttsömnaden blir förstås inte perfekt på en gång — med få prov blir skon bara delvis anpassad, och passformen förbättras ju fler tidigare prov man har.

Den uppenbara invändningen är: för att skräddarsy behöver vi mycket data om individen, och i klinisk vardag har man ofta bara några få tidigare prover. Det är precis här parametrisk empirisk Bayes (PEB) kommer in. Metoden låter en handfull individuella mätningar “låna styrka” från populationen, så att man får en stabil personlig skattning även från lite data. Røys et al. (2025) visade hur detta kan räknas praktiskt för nio biomarkörer i klinisk kemi. Det fina är att en och samma formel då kan ge tre saker: RIpop, referensförändringsvärden (RCV) och RIper. Den här artikeln förklarar den beräkningen — och bygger upp den statistiska intuitionen den vilar på, steg för steg, kring ett enda genomgående räkneexempel.

Fokus är alltså beräkningen av personliga referensintervall i klinisk kemi. PEB, shrinkage och den klassiska teorin är stödstrukturen, inte målet.

2. Det genomgående exemplet

Vi följer en enda biomarkör genom hela artikeln. För att aritmetiken ska bli genomskinlig använder vi en biomarkör på en skala där normalfördelningen gäller direkt, med påhittade men realistiska tal. (I kapitel 7 visar vi hur verkliga, skeva labbdata transformeras så att samma matematik blir tillämplig.)

2.1 Populationen

Antag att biomarkören i en frisk population har

$\mu_{\text{pop}} = 100 \text{ enheter}, \qquad \sigma_{\text{pop}} = 15 \text{ enheter}.$

Här betyder $\mu$ (my) medelvärde och $\sigma$ (sigma) standardavvikelse; $\sigma^2$ är variansen, alltså standardavvikelsen i kvadrat. Standardavvikelsen mäts i samma enhet som analyten.

Den totala spridningen $\sigma_{\text{pop}}$ består av två oberoende delar:

Mellan-individuell variation $\sigma_G$ : att olika personers set-points skiljer sig åt.
Inom-individuell variation $\sigma_I$ : att samma persons mätningar varierar mellan tillfällen (biologiskt dag-till-dag-brus plus analytisk mätosäkerhet).

Vi sätter dessa så att

$\sigma_G = 12,\quad \sigma_I = 9,\qquad \sigma_{\text{pop}}^2 = \sigma_G^2 + \sigma_I^2 = 144 + 81 = 225 = 15^2.\ \checkmark$

Andelen av den totala variansen som beror på äkta skillnader mellan personer är

$B_1 = \frac{\sigma_G^2}{\sigma_G^2 + \sigma_I^2} = \frac{144}{225} = 0{,}64.$

Detta tal — intraklasskorrelationen — blir metodens nyckelparameter. Tolkat i ord: ungefär 64 % av all variation i mätvärdena beror på att personer faktiskt ligger på olika nivåer; resten (36 %) är brus inom samma person, från prov till prov. Värdet ligger nära albuminets verkliga $B_1 = 0{,}66$ i Røys-studien, så exemplet är inte orealistiskt.

2.2 Patient A och det frekventistiska svaret

Patient A är frisk men har en naturligt hög set-point. Hennes verkliga nivå ligger kring 131 enheter — långt över populationssnittet 100, men hon är fullständigt frisk. Vi följer fem serieprover: 134, 126, 132, 130, 133.

Det frekventistiska, populationsbaserade svaret är att jämföra varje prov mot RIpop:

$\text{RIpop} = \mu_{\text{pop}} \pm 1{,}96\,\sigma_{\text{pop}} = 100 \pm 29{,}4 = [70{,}6,\ 129{,}4].$

Här syns problemet direkt: fyra av A:s fem prover (134, 132, 130, 133) ligger över 129,4 och flaggas av RIpop. En frisk person flaggas alltså om och om igen, helt enkelt för att hennes set-point är hög och RIpop är fel måttstock. Resten av artikeln handlar om hur PEB rättar till detta — och varför det går att göra redan efter ett fåtal prov. Samma siffror återkommer i kapitel 6 och 7.

2.3 Beräkningskartan: det vi ska räkna fram

Innan vi dyker i bakgrunden, här är hela maskineriet på fyra rader. Du behöver inte förstå symbolerna än — kartan visar bara vilka fyra saker som ska hända. Allt i kapitel 3–6 finns för att motivera stegen; kapitel 7 omsätter dem till referensintervall och visar hur Røys gör motsvarande beräkning i verkliga labbdata.

Skaffa parametrarna $B_1$ , $\mu_{\text{pop}}$ , $\sigma_{\text{pop}}$ ur populationsdata (och, för riktiga skeva data, en transformationsparameter $\lambda$ ).
Beräkna shrinkagefaktorn $B_n$ utifrån antalet tidigare prover $n$ .
Beräkna den shrinkade set-point-skattningen $\hat Y = \mu_{\text{pop}} + B_n(\bar X_n - \mu_{\text{pop}})$ .
Beräkna tröskeln för nästa prov: $Z\sqrt{1 - B_1 B_n}\,\sigma_{\text{pop}}$ .

Behåll kartan i bakhuvudet. Kapitel 3–5 förklarar varför steg 2–3 ser ut som de gör; kapitel 6 härleder formlerna; kapitel 7 fyller i hur steg 1 görs ur verkliga labbdata.

3. Bakgrund: shrinkage-intuitionen

Innan formlerna: varför är det överhuvudtaget en bra idé att dra en individuell skattning mot populationsmedelvärdet? Svaret är en av 1900-talets mest kontraintuitiva statistiska upptäckter, men vi håller det kort — det är bakgrund, inte ämne.

3.1 Att låna styrka (Robbins, James–Stein)

Den historiska poängen kan sägas enkelt: när många liknande individer mäts bör man inte tolka varje persons få mätningar helt isolerat. Gruppen säger något om vad som är rimligt för individen, så en extrem tidig mätning bör dras en bit mot gruppens medel — särskilt när mätningen är brusig. Två klassiska resultat satte detta på matematisk grund. Herbert Robbins (1956) visade att man kan använda hela datamängden för att lära sig vad som är typiskt och låta varje enskild skattning dra nytta av det. James och Stein (1961) bevisade det skarpare: när man skattar tre eller fler medelvärden samtidigt ger en sådan indragning mot ett gemensamt centrum lägre totalt fel än att lita helt på varje observerat medelvärde för sig — oavsett vad de sanna värdena är. Det räcker att ta med sig den slutsatsen; vi behöver inte teorin bakom den för att räkna RIper.

3.2 Baseball och regression mot medelvärdet (Efron–Morris)

Efron och Morris (1973, 1975, 1977) gjorde idén konkret. De tog 18 baseballspelares slaggenomsnitt efter de första 45 slagen och försökte förutsäga resten av säsongen. En skattning som shrinkade varje spelares tidiga snitt mot gruppens medel slog det råa snittet för 16 av 18 spelare, med ungefär tre gånger lägre totalt fel.

Varför fungerar det? Tidiga extremvärden är till stor del slump. En spelare som slår .400 efter 45 slag är nästan säkert inte en sann .400-slagare — han har haft tur. Bästa gissningen om hans framtida nivå ligger mellan den heta starten och ligans medel.

Detta är regression mot medelvärdet: extrema observationer tenderar att följas av mindre extrema, inte för att något förändrats, utan för att tursfaktorn i genomsnitt försvinner. För labbläsaren är poängen inte baseball, utan att ett tidigt extremvärde nästan alltid innehåller två komponenter: en verkligt avvikande individuell nivå och ett tillfälligt brusbidrag. PEB försöker separera dem: ett enskilt högt labbvärde är delvis en hög dag, och bästa gissningen om patientens sanna nivå ligger mellan mätningen och populationen. Shrinkage är den matematiskt korrekta korrigeringen — och den korrektion som traditionella RCV saknar (kapitel 7.4).

3.3 När shrinkage hjälper — och när det skadar

Shrinkage är ingen gratislunch. Den byter lägre varians mot en viss bias: varje skattning dras mot centrum, vilket ger systematiskt fel för dem som verkligen ligger i ytterkanten, mot vinsten att brusiga skattningar stabiliseras.

Hjälper när mätningarna är brusiga ( $\sigma_I$ stor) relativt de äkta skillnaderna ( $\sigma_G$ ), och när man har få observationer per individ. Då är det observerade värdet otillförlitligt och centrum en bättre utgångspunkt.
Skadar när mätningarna redan är precisa ( $\sigma_I$ liten) eller individen verkligen är en äkta avvikare. En patient med genuint patologiskt värde ska inte få det “bortförklarat” mot populationen — en central fallgrop vi återkommer till i kapitel 9.

4. Bayes på det minimum som behövs

PEB är en variant av bayesiansk inferens, så vi behöver precis så mycket Bayes som krävs för att förstå shrinkageformeln — inte mer. Bayes betyder här bara att vi väger ihop två saker: vad vet vi om friska personer i allmänhet, och vad visar just den här patientens prover? Resultatet blir en uppdaterad bästa gissning om patientens egen normalnivå. I ord ser sambandet ut så här:

$\text{uppdaterad gissning om patientens nivå} \ \propto\ \text{hur väl proverna passar} \ \times\ \text{vad som är typiskt i populationen}.$

Samma idé med vanlig Bayes-notation, där tecknet $\propto$ betyder “proportionell mot”:

$\underbrace{p(\mu_I \mid \text{data})}_{\text{posterior}} \ \propto\ \underbrace{p(\text{data} \mid \mu_I)}_{\text{likelihood}} \times \underbrace{p(\mu_I)}_{\text{prior}}.$

Läs formeln från höger till vänster: först vad som är typiskt i populationen, sedan vad patientens prover visar, sedan den uppdaterade skattningen. Symbolerna: $p(\cdot)$ är en sannolikhetsmodell, $\mu_I$ är patientens sanna personliga nivå, och lodstrecket $\mid$ utläses “givet” eller “om vi vet”.

Priorn $p(\mu_I)$ är startgissningen om individens sanna set-point $\mu_I$ innan vi sett dennes prover. Här är den helt enkelt fördelningen av set-points i populationen: vet vi inget annat om en ny patient är det rimligt att tro att hen liknar en typisk person.
Likelihooden $p(\text{data} \mid \mu_I)$ svarar på frågan: om patientens sanna nivå vore ett visst tal, hur rimliga vore då de observerade proverna? Om den vore 120 — passar proverna? Om den vore 100 — passar de då? Den behöver du inte räkna ut för hand här.
Posteriorn är kompromissen: vår uppdaterade skattning av $\mu_I$ efter att ha vägt patientens egna prover mot vad som är typiskt.

Den centrala intuitionen för hela artikeln: posteriorns medelvärde blir en viktad kompromiss mellan patientens observerade snitt och populationsmedelvärdet. Hur tungt patientens egna data väger beror på hur många och hur precisa de är. Få och brusiga prover → vikten ligger mot populationen. Många och precisa prover → vikten ligger mot patienten. Den vikten är shrinkagefaktorn $B_n$ från beräkningskartan.

Analogi. Posteriorn är som att uppskatta restaurangkvalitet. Innan du varit där förlitar du dig på genomsnittsbetyget (priorn). Efter ett besök har du egna data: din måltid. Likelihooden motsvarar frågan hur väl den måltiden passar olika möjliga nivåer — var detta en medelmåttig krog med en bra kväll, eller en riktigt bra krog? En enda måltid ändrar inte din bild fullständigt; du landar mellan ditt intryck och genomsnittet. Efter tio besök litar du nästan helt på din egen erfarenhet.

5. Empirisk Bayes: att skatta priorn ur datat

I en fullständig bayesiansk analys måste man ange priorn själv: bestämma populationsmedelvärde och spridning i förväg. Men var ska de siffrorna komma ifrån? Empirisk Bayes ger ett pragmatiskt svar: skatta priorn direkt ur datat. Eftersom labbet redan har tusentals patientprover kan populationsfördelningen ( $\mu_{\text{pop}}$ , $\sigma_G$ , $\sigma_I$ ) skattas — och behöver inte gissas.

Analogi. Tänk på en erfaren labbläkare som tolkat tiotusentals provsvar. Innan hon ens ser en ny patients få mätningar har hennes uppfattning om “typiska nivåer och typisk spridning” formats av hela den strömmen av tidigare patienter. Den uppfattningen är priorn. Hon använder alltså inte den nya patientens prov för att bygga sin allmänna erfarenhet — den kommer från alla tidigare patienter. Den nya patientens egna prover kommer in först i nästa steg, som likelihood. Empirisk Bayes formaliserar exakt detta: populationen levererar priorn, individens prover levererar likelihooden, och de två hålls åtskilda.

Två ord i namnet bär hela metodens innebörd:

“Empirical” (empirisk): hyperparametrarna $\mu_{\text{pop}}, \sigma_G, \sigma_I$ skattas ur datat i stället för att antas kända. Det är skillnaden mot lärobokens Bayes.
“Parametric” (parametrisk): priorn antas ha en känd form — här en normalfördelning — med okända parametrar. Det är skillnaden mot icke-parametrisk empirisk Bayes (Robbins ursprungliga form), som inte antar någon särskild form alls. Antagandet om normalfördelad prior är vad som ger den eleganta slutna formeln (en formel som kan räknas direkt, utan numerisk simulering) i nästa kapitel.

5.1 Tre positioner, konkret

Ansats	Priorn	Patient A:s set-point-skattning från $X_1=134$
Ren frekventism	(ingen)	$\hat\mu_I = X_1 = 134$ (det observerade värdet, oförändrat)
Parametrisk empirisk Bayes	Normal, skattad ur labbdata	$\hat Y = 121{,}8$ (shrinkad — se kap. 6)
Fullständig (hierarkisk) Bayes	Normal, med egen prior på hyperparametrarna, integreras ut	ungefär samma centrum i detta exempel, men med extra osäkerhet eftersom även $\mu_{\text{pop}}, \sigma_G, \sigma_I$ behandlas som osäkra

Skillnaden mot fullständig hierarkisk Bayes är subtil men viktig, och kan sägas så här. Båda använder samma tvånivåmodell. PEB skattar populationens tre tal (i facktermer: hyperparametrarna) och använder dem sedan som fasta tal; Røys et al. beskriver själva det draget som “frekventistiskt”. Fullständig Bayes räknar i stället med att även dessa tre tal är osäkra, och låter den osäkerheten följa med hela vägen in i slutintervallet. Praktisk konsekvens: när labbet bygger priorn på 185 000 albuminprover är de tre talen så väl skattade att skillnaden är försumbar, och PEB:s formel är ett utmärkt närmevärde. När populationsunderlaget är litet blir PEB för säker, eftersom osäkerheten i populationstalen inte följer med in i intervallet, och fullständig Bayes är säkrare. Detta är en avvägning, inte ett fel — och en återkommande poäng i kapitel 9.

6. Normal–Normal-modellen och shrinkagefaktorn

Nu härleder vi shrinkageformeln steg för steg. Detta är statistikens kärna i metoden; kapitel 7 omsätter den till referensintervall.

6.1 Modellen

Vi gör två antaganden, först i ord:

Antagande 1: För en viss patient hoppar provsvaren lite upp och ned kring patientens egen normalnivå, som vi kallar $\mu_I$ . I exemplet är den inom-individuella standardavvikelsen 9 enheter.
Antagande 2: Olika patienters normalnivåer skiljer sig också åt och ligger utspridda kring populationsmedelvärdet $\mu_{\text{pop}}$ . I exemplet är det 100, med mellan-individuell standardavvikelse 12.

Formelraderna nedan säger bara dessa två saker med statistiknotation (Røys et al., formel 1):

$X_k \mid \mu_I \ \overset{\text{i.i.d.}}{\sim}\ N(\mu_I,\ \sigma_I^2) \qquad \text{(likelihood)}$ $\mu_I \ \sim\ N(\mu_{\text{pop}},\ \sigma_G^2) \qquad \text{(prior)}$

Läsnyckel: $N(a,\,b^2)$ utläses “normalfördelning med medelvärde $a$ och varians $b^2$ ”; $X_k \mid \mu_I$ betyder “prov nummer $k$ , givet att patientens sanna nivå är $\mu_I$ ”; och “i.i.d.” betyder att proverna antas oberoende och med samma spridning. Övre raden säger alltså: om patientens sanna nivå är $\mu_I$ varierar varje prov kring den med inom-individuell varians $\sigma_I^2$ (biologi + analys). Undre raden: patienternas nivåer varierar kring populationssnittet med mellan-individuell varians $\sigma_G^2$ .

6.2 Posteriorns medelvärde (härledning)

För normalfördelad prior och likelihood är posteriorn också normal, och dess medelvärde är ett precisionsviktat snitt. “Precision” = 1/varians; ju mindre varians, desto mer vikt. Grundtanken: den informationskälla som är säkrast får störst tyngd.

Med exempeltalen och ett enda prov ( $n=1$ ) är priorns precision $1/\sigma_G^2 = 1/144$ och provets precision $1/\sigma_I^2 = 1/81$ . Provet är alltså precisare än priorn, men inte oändligt mycket — det får viss tyngd, inte full. Det är därför värdet 134 inte används rakt av, utan dras en bit ned mot 100.

Priorns precision: $\dfrac{1}{\sigma_G^2}$ .
Datats precision för medelvärdet av $n$ prover: $\dfrac{n}{\sigma_I^2}$ (mer data → högre precision).

Posteriorns medelvärde är snittet av prior och data, viktat med respektive precision:

$\hat Y \;=\; \frac{\dfrac{1}{\sigma_G^2}\,\mu_{\text{pop}} \;+\; \dfrac{n}{\sigma_I^2}\,\bar X_n}{\dfrac{1}{\sigma_G^2} + \dfrac{n}{\sigma_I^2}}.$

Skriv om detta som populationsmedelvärdet plus en justering mot patientens avvikelse:

$\hat Y \;=\; \mu_{\text{pop}} + (\bar X_n - \mu_{\text{pop}})\cdot \underbrace{\frac{\,n/\sigma_I^2\,}{\,1/\sigma_G^2 + n/\sigma_I^2\,}}_{=\,B_n}.$

Förenkla bråket $B_n$ i två steg — först multiplicera täljare och nämnare med $\sigma_G^2\sigma_I^2$ , sedan med $1/n$ :

$B_n \;=\; \frac{n/\sigma_I^2}{1/\sigma_G^2 + n/\sigma_I^2} \;=\; \frac{n\,\sigma_G^2}{\sigma_I^2 + n\,\sigma_G^2} \;=\; \frac{\sigma_G^2}{\sigma_G^2 + \sigma_I^2/n}.$

Detta är shrinkagefaktorn (Røys et al., formel 3). Vi har därmed härlett

$\boxed{\ \hat Y \;=\; \mu_{\text{pop}} + B_n\,(\bar X_n - \mu_{\text{pop}}),\qquad B_n = \frac{\sigma_G^2}{\sigma_G^2 + \sigma_I^2/n}\ }$

Symbolerna: $\hat Y$ är vår skattning av patientens set-point, $\bar X_n$ medelvärdet av patientens hittillsvarande prover, $n$ antalet prover, $\sigma_G^2$ spridningen mellan personer och $\sigma_I^2$ bruset inom samma person.

6.3 Att läsa formeln

$B_n$ ligger alltid mellan 0 och 1 och är vikten på patientens egna data:

$B_n \to 0$ : $\hat Y \to \mu_{\text{pop}}$ . Lita på populationen. Inträffar när $\sigma_I^2$ är stor (brusiga prover) eller $n$ litet.
$B_n \to 1$ : $\hat Y \to \bar X_n$ . Lita på patienten. Inträffar när $\sigma_I^2$ är liten eller $n$ stort.

Patientens nivå dras alltså mot populationen med faktorn $(1-B_n)$ — det är “shrinkage” (svensk stödöversättning: indragning) i ordets bokstavliga mening. I vardagsord: är $B_n$ högt betyder patientens egna prover mycket för den personliga skattningen; är $B_n$ lågt säger de mindre, eftersom mycket av variationen då är prov-till-prov-brus. (Notera: vissa klassiska texter, t.ex. Efron–Morris, kallar tvärtom komplementet $(1-B_n)$ för shrinkagefaktorn. Vi följer Røys notation genomgående: $B_n$ = vikt på individen.)

6.4 En enda parameter: intraklasskorrelationen

Vid $n=1$ blir $B_1 = \dfrac{\sigma_G^2}{\sigma_G^2+\sigma_I^2} = \dfrac{\sigma_G^2}{\sigma_{\text{pop}}^2}$ — andelen av total varians som är äkta mellan-individuell variation, dvs. intraklasskorrelationen. Det långa namnet ska inte avskräcka: det betyder helt enkelt hur stor del av variationen som beror på äkta skillnader mellan personer snarare än på prov-till-prov-brus. Det fina är att $B_n$ för alla $n$ kan uttryckas genom enbart $B_1$ (Røys et al., formel 5):

$B_n \;=\; \frac{B_1\,n}{B_1\,n + (1 - B_1)}.$

Detta är algebraiskt identiskt med formeln i 6.2 (sätt in $B_1=\sigma_G^2/\sigma_{\text{pop}}^2$ och förenkla). Poängen är praktisk: i den normaliserade modellen behöver labbet bara skatta tre tal — $B_1$ , $\mu_{\text{pop}}$ och $\sigma_{\text{pop}}$ . (I LIS-spåret tillkommer transformationsparametern $\lambda$ , eftersom verkliga data först måste rätas ut till normalfördelning; se 7.5.) Hur de skattas ur rådata visas i kapitel 7.

6.5 Exemplet, räknat

Med $\mu_{\text{pop}}=100$ , $B_1 = 0{,}64$ och patient A:s prover. Kumulativt medel $\bar X_n$ , shrinkagefaktor $B_n$ och shrinkad set-point-skattning $\hat Y$ :

$n$	Prover hittills	$\bar X_n$	$B_n$	$\hat Y = 100 + B_n(\bar X_n-100)$
1	134	134,0	0,640	121,8
2	134, 126	130,0	0,781	123,4
3	134, 126, 132	130,7	0,842	125,8
4	134, 126, 132, 130	130,5	0,877	126,7
5	134, 126, 132, 130, 133	131,0	0,899	127,9

Räkneexempel för $n=1$ : $B_1 = 144/(144+81/1) = 0{,}640$ , alltså $\hat Y = 100 + 0{,}640\cdot(134-100) = 100 + 21{,}8 = 121{,}8$ . För $n=2$ : $B_2 = 144/(144 + 81/2) = 144/184{,}5 = 0{,}781$ , och $\hat Y = 100 + 0{,}781\cdot(130-100) = 123{,}4$ .

Tolkning. Med ett enda prov drar PEB ned A:s skattade set-point från 134 till 121,8 — den höga avläsningen behandlas delvis som en hög dag. När fler prover kommer in stiger $\hat Y$ mot patientens verkliga snitt (≈131) men når aldrig ända fram: kvarvarande mätbrus gör att vi alltid behåller lite förtroende för populationen. Beroendet av $n$ och brusförhållandet $\sigma_I^2/\sigma_G^2$ syns direkt i $B_n$ -kolumnen — mer data och mindre brus ger $B_n$ närmare 1.

7. Från formel till referensintervall — Røys metod

Här är artikelns egentliga bidrag. Shrinkageformeln ger en punktskattning $\hat Y$ av patientens set-point. För att tolka ett nästa prov $X_{n+1}$ behöver vi ett intervall kring $\hat Y$ . McIntosh och Urban (2003) härledde det, och Røys et al. visar att RIpop, RCV och RIper då blir specialfall av samma uttryck.

7.1 PEB-prediktionsintervallet

Ett kommande värde $X_{n+1}$ — alltså nästa prov, efter de $n$ man redan har — bedöms med en enkel kontroll: hur långt ligger det nya provet från patientens förväntade nivå, och är det avståndet större än vad som rimligen får tillåtas? I symboler (Røys et al., formel 4):

$\underbrace{\bigl|\,X_{n+1} - \hat Y\,\bigr|}_{\text{avstånd från patientens nivå}} \;>\; \underbrace{Z\,\sqrt{1 - B_1 B_n}\;\sigma_{\text{pop}}}_{\text{tillåten halvbredd}}.$

Vänster sida är avståndet; absolutbeloppet $|\cdot|$ betyder att vi bryr oss om hur stor skillnaden är, inte om provet är högre eller lägre. Höger sida är gränsen för hur stort det avståndet får vara innan vi flaggar. Symbolerna: $Z = 1{,}96$ ger 95 %-nivån (hur strängt vi vill ha det), $\sigma_{\text{pop}} = \sqrt{\sigma_G^2 + \sigma_I^2}$ är populationens standardavvikelse, och $\hat Y$ är patientens förväntade nivå efter de tidigare proverna.

Faktorn $\sqrt{1 - B_1 B_n}$ är det avgörande. Eftersom både $B_1$ och $B_n$ ligger i $(0,1)$ är produkten $B_1 B_n < 1$ , så faktorn är alltid mindre än 1 för varje $n \ge 1$ : på modellskalan är ett PEB-intervall alltid smalare än RIpop. Det är den matematiska orsaken till att intervallet kan bli smalare. (Att “smalare” gäller den transformerade modellskalan, inte nödvändigtvis råenheter, återkommer vi till i 7.5 och kapitel 9.)

7.2 Ett uttryck — tre välkända verktyg

Det eleganta är vad formeln blir vid olika $n$ :

$n$	$B_n$	Centrum $\hat Y$	Tröskel blir	Motsvarar
$0$	$0$	$\mu_{\text{pop}}$	$\lvert X_1 - \mu_{\text{pop}}\rvert > Z\sigma_{\text{pop}}$	RIpop (alla delar samma tröskel)
$1$	$B_1$	shrinkad mot $\mu_{\text{pop}}$	smalare band kring $\hat Y$	RCV (förändring mellan två prov)
$>1$	$\to 1$	$\to \bar X_n$	$\to \lvert X_{n+1}-\bar X_n\rvert > Z\sigma_I$	RIper (individcentrerat)

Vid $n=0$ finns ingen individdata; alla får samma populationströskel. När $n\to\infty$ går $B_n\to1$ , $\hat Y\to\bar X_n$ , och bandets halvbredd går mot $Z\sigma_I$ — tröskeln blir helt centrerad på individens eget snitt och styrs bara av inom-individuellt brus. RIpop övergår alltså glidande i RIper allt eftersom individuell data ackumuleras. Det är konceptuellt nytt: tidigare behandlades RIpop, RCV och RIper som separata metoder.

7.3 Exemplet, med intervall

Patient A:s 95-procentiga intervall för nästa prov, beräknat ur $\hat Y$ och halvbredden $Z\sqrt{1-B_1B_n}\,\sigma_{\text{pop}}$ . Halvbredd betyder avståndet från intervallets mitt till en av gränserna: är centrum 121,8 och halvbredden 22,6, blir intervallet $121{,}8 \pm 22{,}6$ , alltså [99,2, 144,4].

$n$ (prover bakom)	$\hat Y$	Halvbredd	Intervall för $X_{n+1}$	Bredd
0 (RIpop)	100,0	29,4	[70,6, 129,4]	58,8
1	121,8	22,6	[99,2, 144,4]	45,2
2	123,4	20,8	[102,6, 144,2]	41,6
3	125,8	20,0	[105,9, 145,8]	39,9
4	126,7	19,5	[107,3, 146,2]	39,0

Räkneexempel för $n=1$ : halvbredd $= 1{,}96\cdot\sqrt{1 - 0{,}64\cdot0{,}64}\cdot15 = 1{,}96\cdot\sqrt{0{,}590}\cdot15 = 1{,}96\cdot0{,}768\cdot15 = 22{,}6$ .

Hur tabellen ska läsas — och en fälla att undvika. Varje rad bygger ett intervall för det nästa, ännu osedda provet utifrån de $n$ prover man redan har. Man får alltså inte använda ett prov för att bedöma sig självt. Patient A:s första prov $X_1=134$ bedömdes vid $n=0$ , dvs. mot RIpop [70,6, 129,4] — och flaggades, eftersom $134 > 129{,}4$ . Efter det provet kan vi bygga ett prediktionsintervall för prov 2: [99,2, 144,4]. Det observerade $X_2 = 126$ ligger väl inom detta, vilket stöder tolkningen att det höga första värdet var förenligt med en hög individuell nivå plus slumpvariation — inte patologi.

Följer vi A:s serie framåt, prov för prov, ligger varje nytt prov inom intervallet som byggts av de föregående: $X_2{=}126 \in [99{,}2,144{,}4]$ , $X_3{=}132 \in [102{,}6,144{,}2]$ , $X_4{=}130 \in [105{,}9,145{,}8]$ , $X_5{=}133 \in [107{,}3,146{,}2]$ . PEB flaggar alltså inget av uppföljningsproven $X_2$ – $X_5$ när vart och ett bedöms mot intervallet som byggts av tidigare prover; $X_1$ bedömdes däremot vid $n=0$ (RIpop) och flaggades. RIpop flaggade fyra av fem. Skillnaden mellan ett individcentrerat och ett populationscentrerat referensintervall, i siffror.

Två saker händer samtidigt när data ackumuleras: intervallet flyttar sig (centrum 100 → ~128, mot patientens egen nivå) och krymper (bredd 58,8 → mot gränsvärdet $2Z\sigma_I = 35{,}3$ ).

Figur 1. Shrinkage-tratten (jfr. Røys et al. Fig. 3). De streckade vågräta linjerna är det fasta RIpop (70,6 och 129,4). Det skrafferade bandet är de PEB-baserade RIper-gränserna: vid $n=0$ sammanfaller de med RIpop, men förskjuts uppåt mot patientens egen nivå och smalnar med fler prov tills bandet stabiliseras kring ≈128. Patient A:s fem prover (134, 126, 132, 130, 133) ligger inom RIper-bandet från och med andra provet — fyra av fem ligger däremot över övre RIpop-gränsen, och bara det första provet, som bedöms vid $n=0$ , hamnar utanför.

7.4 Regression mot medelvärdet, kvantifierat (RCV-fallet)

Traditionella RCV korrigerar inte för regression mot medelvärdet (Jones et al. 2024). En klassisk RCV för förändring från baslinjen $X_1=134$ bygger ett band centrerat på 134 självt, med halvbredd $Z\sqrt{2}\,\sigma_I = 1{,}96\cdot1{,}414\cdot9 = 24{,}9$ , alltså [109,1, 158,9]. (Faktorn $\sqrt{2}$ dyker upp för att en förändring mellan två prov innehåller brus från två mättillfällen, inte ett.)

PEB (formel 4 vid $n=1$ ) centrerar i stället på den shrinkade förväntningen $\hat Y = 121{,}8$ , med halvbredd 22,6 → [99,2, 144,4]. Skillnaden är dubbel: PEB-bandet är smalare (bredd 45,2 mot 49,9) och rätt centrerat (på dit nästa värde faktiskt väntas dra, inte på det höga första värdet). I detta additiva råskaleexempel ger alltså traditionell RCV ett bredare och felcentrerat jämförelseband; ett sådant band har, rent statistiskt, lägre styrka att fånga en äkta förändring. Det illustrerar mekanismen bakom Røys observation att PEB gav smalare RCV-trösklar än traditionella RCV-modeller, mest uttalat för analyter med hög inom-individuell variation (CVI). (Røys jämförde flaggningsandelar i friska serieprover mot lognormal-formel och LIS-baserade kvotmått — de testade inte klinisk detektion av sjukdom som utfallsstudie.)

7.5 Hur parametrarna skattas ur verkliga data

I exemplet hade vi redan tre rena tal: $\mu_{\text{pop}}$ , $\sigma_{\text{pop}}$ och $B_1$ . I verkliga labbdata måste labbet först ta fram dem, vilket är svårare av två skäl: rutindata innehåller sjuka patienter och extremvärden, och många analyter är skevt fördelade snarare än normalfördelade på råskalan. Røys et al. löser därför fyra praktiska uppgifter — hitta den friska mitten i rutindata, göra skalan mer normalfördelad, skatta hur stabila patienters nivåer är över tid, och räkna PEB-intervallet på den nya skalan och översätta tillbaka. Det görs i två spår:

Ur rutindata (LIS). Tusentals patientprover körs genom refineR (ett verktyg som hittar den friska “centraltoppen” i rutindata), filtrerar bort värden utanför de centrala 99 %, och skattar $\mu_{\text{pop}}$ , $\sigma_{\text{pop}}$ samt en Box-Cox-transformation ( $\lambda$ ) som rätar ut skevheten — där $\lambda$ är inställningen som styr hur stark uträtningen ska vara. $B_1$ skattas sedan som regressionslutningen mellan på varandra följande provpar ( $X_n$ mot $X_{n+1}$ , minst 24 h isär) — en direkt empirisk motsvarighet till intraklasskorrelationen — med en regressionsmetod som dämpar inflytandet från avvikande värden (robust regression, “lmrob”).
Ur en biologisk variationsstudie (BV). En kontrollerad studie (här 30 friska, prover varje vecka i 10 veckor) ger två variationsmått via en variansanalys som delar upp variationen i en inom-person- och en mellan-person-del (nested ANOVA), varifrån $\sigma_I$ , $\sigma_G$ och $B_1$ följer.

Mininyckel för förkortningarna, som uttrycks som variationskoefficienter (CV = standardavvikelse delat med medelvärde): CVI = variation inom samma person, CVG = variation mellan personer, CVA = analytisk variation i själva metoden.

Bryggan mellan exemplet och verkligheten. Vårt exempel räknade på råskala för tydlighetens skull. I praktiken ersätts varje mätning $X$ av sitt transformerade värde $g_\lambda(X)$ , och alla formler ovan ( $\hat Y$ , $B_n$ , prediktionsintervallet) gäller då på den transformerade skalan. Först när övre och nedre gräns är beräknade transformeras de tillbaka till råenheter, var för sig. En konsekvens: efter backtransformering blir gränserna i allmänhet asymmetriska kring $\hat Y$ — det är därför “alltid smalare än RIpop” är en utsaga om modellskalan, inte en garanti i g/L eller nmol/L.

Box-Cox-analogi. Transformationen är som att böja en skev linjal rak innan man mäter: räkningarna förutsätter normalfördelning, så man transformerar data till en skala där det gäller, räknar där, och böjer tillbaka resultatet. Man ändrar inte patientens biologi — bara den skala beräkningen sker på, och när gränserna är klara byter man tillbaka till vanliga enheter. För BV-spåret räknar man på log-skala, eftersom biologisk variation ofta är proportionell (konstant CV) snarare än additiv.

Att $B_1$ är just regressionslutningen mellan provpar är värt att stanna vid: det knyter den abstrakta intraklasskorrelationen till något ett labb faktiskt kan mäta ur sin databas, utan en dyr BV-studie.

8. Resultat och tolkning

Innan siffrorna, en ram: detta är en kalibrerings- och genomförbarhetsutvärdering hos friska individer, inte en utfallsvalidering i sjukdomskohort. Røys et al. mätte hur ofta välkalibrerade intervall flaggar prover från friska (förväntat ~5 %), inte om metoden förbättrar diagnostik av sjukdom — och de efterlyser själva större kliniska studier före implementering. “Fungerar” nedan betyder alltså “är väl kalibrerat hos friska”, inte mer. Utvärderingen omfattade serieprover från 30 friska individer för nio biomarkörer.

8.1 Huvudfynd

PEB-baserade RIper var genomgående smalare än RIpop, samtidigt som andelen flaggade resultat oftast bibehölls eller minskade. Ett urval (LIS-parametrar, andel flaggade):

Biomarkör	RIpop	RIper (LIS)	Kommentar
Albumin	4,7 %	0,3 %	Se diskussion nedan
Fosfat	5,4 %	3,7 %	Minskning
Kortison	7,1 %	3,9 %	Minskning
17-OHP	0,0 %	5,5 %	Ökning mot förväntade 5 %

Albumin illustrerar precis patient A:s situation, men kräver nyans. Poängen med RIpop:s 4,7 % är inte att totalandelen är för hög — den ligger nära den nominella 5 %-nivån — utan vilka som flaggas: RIpop träffar upprepat samma friska individer med naturligt hög eller låg set-point, medan RIper flyttar tröskeln till individens egen nivå och fördelar flaggningen jämnare. Den mycket låga LIS-baserade RIper-siffran 0,3 % bör dock inte läsas som en ren vinst: den är snarare misstänkt låg och pekar mot underflaggning (för vida intervall), vilket hänger ihop med kalibreringsfrågan i 8.2. Ett talande kontrastexempel ur samma tabell: för albumin gav BV-baserad RIper 5,0 % — mitt i prick — medan LIS-baserad RIper gav 0,3 %. Samma markör, olika parameterkälla, helt olika kalibrering. Att 17-OHP i stället ökar från 0,0 % till 5,5 % är därför ingen försämring utan en korrektion mot rätt nivå: RIpop var här för slappt.

8.2 Källkritik

Tre saker bör läsas nyktert:

Kalibrering går fel åt två håll. Underskattad varians ger för smala intervall och därmed för många falska flaggor bland friska (låg specificitet); överskattad varians ger för vida intervall och för få flaggor (låg sensitivitet). Att flera LIS-baserade RIper hamnade under 5 % (t.ex. testosteron 2,4 %, albumin 0,3 %) talar för för vida intervall — sannolikt för att LIS-data har större total spridning än den hårt kontrollerade BV-studien.
Intern validering. BV-parametrarna utvärderades på samma dataset de härleddes ur. Det riskerar att överskatta prestandan — att validera på egen data gör i regel skattningen för optimistisk — vilket författarna själva anger som en begränsning och därför efterlyser extern validering.
Modellen kan svika — och siffrorna måste läsas kolumnvis. Med BV-parametrar visade kortisol förhöjd RIper-flaggning (16,4 %). För 17-OHP är bilden mer nyanserad och värd en varning om källkritik: artikelns brödtext (s. 1153) nämner 16,4 % och 11,5 % tillsammans som om båda vore RIper, men i tabell 2 är 17-OHP:s BV-baserade RIper 9,4 %, medan 11,5 % är dess BV-baserade PEB-RCV — två olika kolumner. Text och tabell är alltså inbördes inkonsekventa för 17-OHP. Oavsett vilken siffra man väljer ligger 17-OHP över målet, vilket leder till nästa kapitel.

9. Begränsningar, fallgropar och när metoden INTE bör användas

PEB:s styrka — att låna styrka från en gemensam populationsmodell — är också dess främsta svaghet, eftersom den vilar på antaganden som inte alltid håller.

9.1 Antagandet om gemensam inom-individuell variation

Modellen antar att alla individer har samma $\sigma_I$ (samma CVI). När det inte stämmer — när vissa personer har mycket större prov-till-prov-variation än andra, vad man kallar heteroskedasticitet — riskerar kalibreringen att brista. Författarna misstänker att detta var mekanismen bakom kortisolets höga flaggning: de noterar att CVI-heteroskedasticitet sannolikt bidrog, och att 7 av 14 män måste uteslutas ur BV-studien innan CVI-homogenitet uppnåddes — en exklusion som i sig införde selektionsbias. Lärdomen, formulerad försiktigt som artikeln gör det: PEB i sin enkla form passar dåligt för biomarkörer där den inom-individuella variationen själv varierar kraftigt mellan personer, och då kan en mer robust bayesiansk modellering av heterogen CVI behövas — Røys hänvisar till att deras tidigare arbete hanterade just detta för kortisol och 17-OHP med en mer robust bayesiansk modell.

9.2 Patologiska baslinjevärden

Eftersom $\hat Y$ shrinkar mot populationen kan ett genuint patologiskt värde “dras in” mot det normala om det felaktigt används som baslinje. Baslinjeprover måste väljas från friska perioder. Att bygga ett personligt intervall på ett värde taget under sjukdom kan dölja just det metoden ska upptäcka. Detta är den kliniska motsvarigheten till kapitel 3:s varning: shrinkage skadar för äkta avvikare.

9.3 Underskattad osäkerhet

Som kapitel 5 noterade behandlar PEB de skattade hyperparametrarna som exakta. Vid litet populationsunderlag underskattas den totala osäkerheten, och intervallen blir för smala på fel grunder. Røys et al. rekommenderar därför stora dataset (≥5000 prover) med en patologisk andel under 30 %.

9.4 Övriga fallgropar

Bristande normalisering. Om Box-Cox- eller log-transformationen inte lyckas göra data normalfördelat blir intervallen fel.
Autokorrelation. Prover tagna tätt i tid är inte oberoende; författarna krävde ≥24 h mellan prover.
Begränsad generaliserbarhet. Steroidresultaten gäller bara män; könsspecifika CVI/CVG kan ändra $B_1$ . Inga barn ingick.

Sammanfattande regel: PEB bör inte användas okritiskt för biomarkörer med starkt heteroskedastisk inom-individuell variation, när baslinjedata kan vara patologisk, eller utan lokal validering. Författarnas egen rekommendation är att validera RIper lokalt, precis som man redan gör för RIpop.

10. Praktisk tillämpning och sammanfattning

10.1 Hur ett labb kommer igång

De tre PEB-parametrarna $B_1$ , $\mu_{\text{pop}}$ , $\sigma_{\text{pop}}$ kan tas fram på två sätt:

LIS-spåret. Kör refineR på rutindata för $\mu_{\text{pop}}$ , $\sigma_{\text{pop}}$ och Box-Cox- $\lambda$ , och skatta $B_1$ som robust regressionslutning mellan provpar. Fångar lokal pre-analytisk och analytisk variation, men kräver stora, någorlunda rena dataset.
BV-spåret. Hämta CVI och CVG från publicerade BV-data (t.ex. EFLM-databasen) och kombinera med labbets egen analytiska variation (CVA) — det ger variationsstrukturen och därmed $B_1$ . Men CV-baserade BV-data är dimensionslösa: populationsnivån $\mu_{\text{pop}}$ måste hämtas separat, från lokalt RIpop, refineR eller annan lokal populationsskattning (Røys återanvände refineR-värdet). Beräkningen görs på log-skala när variationen behandlas som proportionell.

Sedan, för varje nytt prov: transformera till rätt modellskala (Box-Cox i LIS-spåret, log i BV-spåret), beräkna $\hat Y$ och tröskeln med $n$ tidigare prover på den skalan, och backtransformera gränserna var för sig. Vid $n=1$ är föregående prov baslinje (RCV-läge); vid $n>1$ används snittet av tidigare prover (RIper-läge).

10.2 Sammanfattning

Det kliniska problemet är att RIpop är fel måttstock för individen och upprepat flaggar friska personer med extrema set-points. PEB löser det genom att shrinka varje patients skattade nivå mot populationsmedelvärdet med en faktor $B_n$ som beror på hur mycket individuell data som finns och hur brusig den är. Den centrala formeln,

$\hat Y = \mu_{\text{pop}} + B_n(\bar X_n - \mu_{\text{pop}}), \qquad B_n = \frac{B_1 n}{B_1 n + (1-B_1)},$

i ord: börja vid populationsmedelvärdet och flytta dig en $B_n$ -andel av vägen mot patientens eget provsnitt. Detta ger ett prediktionsintervall som på den transformerade modellskalan alltid är smalare än RIpop för $n \ge 1$ , och som glidande övergår från RIpop ( $n{=}0$ ) via RCV ( $n{=}1$ ) till ett helt individcentrerat RIper ( $n$ stort). Efter backtransformering till råenheter blir gränserna asymmetriska; den praktiskt relevanta poängen är att tröskeln blir individcentrerad och mindre osäker. Røys et al. visade att metoden är praktiskt genomförbar och ofta rimligt kalibrerad hos friska, men att kalibreringen varierade tydligt med analyt och parameterkälla: LIS-parametrar gav ofta underflaggning, medan BV-parametrar gav överflaggning för kortisol och 17-OHP. Metoden korrigerar dessutom för regression mot medelvärdet, vilket traditionella RCV inte gör.

Begränsningarna är reella: antagandet om gemensam inom-individuell variation, risken att shrinka in äkta patologi, och underskattad osäkerhet vid litet underlag. Använd metoden där biomarkören har stabil set-point och homogen inom-individuell variation, välj baslinjeprover med omsorg, och validera lokalt. Då är PEB ett ovanligt praktiskt sätt att göra labbsvar personliga redan från en handfull prover.

Noter om härledningar, siffror och källor.

Räkneexemplets konsistens: Alla tal i kapitel 2, 5, 6 och 7 är beräknade ur samma uppsättning ( $\mu_{\text{pop}}=100$ , $\sigma_G=12$ , $\sigma_I=9$ , $B_1=0{,}64$ ) och numeriskt verifierade i kod. Identiteten $\sigma_G^2+\sigma_I^2=\sigma_{\text{pop}}^2=225$ , gränsvärdet halvbredd $\to Z\sigma_I=17{,}64$ vid $n\to\infty$ , RIpop-halvbredden $29{,}4$ , samt att prediktionsintervallen avser $X_{n+1}$ (inte det prov de byggts av) stämmer alla. Exemplet är didaktiskt (Normal–Normal på råskala), inte hämtat ur artikeln, eftersom artikeln av princip inte publicerar per-individuella tal.
2025-artikeln korrekt återgiven: Formler 1–5, de två parameterspåren (LIS/BV), refineR, flaggningssiffrorna i tabell 2 och de redovisade begränsningarna är kontrollerade mot artikeltexten. En inbördes inkonsekvens i artikeln själv (17-OHP: brödtext 11,5 % vs. tabell 2:s RIper 9,4 % / RCV 11,5 %) är uttryckligen redovisad i 8.2 i stället för att tyst slätas över.
Referenser: De klassiska källorna anges i standardbibliografisk form; sidnummer och volymuppgifter bör kontrolleras mot respektive primärkälla vid slutlig publicering.

Referenser

Røys EÅ, Viste K, Farrell C-J, Kellmann R, Alaour B, Sylte MS, Torsvik J, Strand H, Marber M, Omland T, Theodorsson E, Jones GRD, Aakre KM. A Parametric Empirical Bayes Approach to Personalized Reference Intervals and Reference Change Values. Clinical Chemistry 2025;71(11):1147–1157. DOI: 10.1093/clinchem/hvaf092.
Foy BH, Petherbridge R, Roth MT, et al. Haematological setpoints are a stable and patient-specific deep phenotype. Nature 2025;637:430–438.
McIntosh MW, Urban N. A parametric empirical Bayes method for cancer screening using longitudinal observations of a biomarker. Biostatistics 2003;4(1):27–40.
Jones GRD, Aarsand AK, Carobene A, Coskun A, Fernandez-Calle P, Bartlett B, et al. A new concept for reference change values—regression to the population mean. Clinical Chemistry 2024;70(8):1076–1084.
Robbins H. An empirical Bayes approach to statistics. I: Proceedings of the Third Berkeley Symposium on Mathematical Statistics and Probability, Vol. I. Berkeley: University of California Press, 1956:157–163.
James W, Stein C. Estimation with quadratic loss. I: Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability, Vol. I. Berkeley: University of California Press, 1961:361–379.
Efron B, Morris C. Stein’s estimation rule and its competitors—an empirical Bayes approach. Journal of the American Statistical Association 1973;68:117–130.
Efron B, Morris C. Data analysis using Stein’s estimator and its generalizations. Journal of the American Statistical Association 1975;70(350):311–319.
Efron B, Morris C. Stein’s paradox in statistics. Scientific American 1977;236(5):119–127.
Barnett AG, van der Pols JC, Dobson AJ. Regression to the mean: what it is and how to deal with it. International Journal of Epidemiology 2005;34(1):215–220.
Morris CN. Parametric empirical Bayes inference: theory and applications. Journal of the American Statistical Association 1983;78(381):47–55.
Casella G. An introduction to empirical Bayes data analysis. The American Statistician 1985;39(2):83–87.
Efron B. Large-Scale Inference: Empirical Bayes Methods for Estimation, Testing, and Prediction. Cambridge University Press, 2010.
Lindley DV, Smith AFM. Bayes estimates for the linear model. Journal of the Royal Statistical Society, Series B 1972;34(1):1–18.
Gelman A, Carlin JB, Stern HS, Dunson DB, Vehtari A, Rubin DB. Bayesian Data Analysis, 3:e uppl. Boca Raton: Chapman & Hall/CRC, 2013.
Fraser CG. Biological Variation: From Principles to Practice. AACC Press, 2001.
Ammer T, Schützenmeister A, Prokosch H-U, Rauh M, Rank CM, Zierk J. RefineR: a novel algorithm for reference interval estimation from real-world data. Scientific Reports 2021;11:16023.
Box GEP, Cox DR. An analysis of transformations. Journal of the Royal Statistical Society, Series B 1964;26(2):211–243.
Aarsand AK, Fernandez-Calle P, Webster C, et al. The EFLM Biological Variation Database. https://biologicalvariation.eu/ (åtkomst 2026).
Aarsand AK, Røraas T, Fernandez-Calle P, et al. The biological variation data critical appraisal checklist. Clinical Chemistry 2018;64(3):501–514.
Tate JR, Yen T, Jones GRD. Transference and validation of reference intervals. Clinical Chemistry 2015;61(8):1012–1015.

Detta är en pedagogisk svensk genomgång av Røys et al. (2025) med tillagda härledningar, analogier och ett didaktiskt räkneexempel. För fullständig metodik hänvisas till originalartikeln.