DEMO: Faktorji tveganja in logistična regresija z ROC analizo

STATA.si

30 december, 2021

Opis podatkovne zbirke

V tej analizi smo uporabili podatke španske študije PREDIMED, ki se je začela izvajati v letu 2003 in se je nadaljevala do leta 2010. Namen študije je bil raziskati vpliv mediteranske diete na zdravje ljudi. V tej analizi smo iz študije izbrali 6324 udeležencev, kar predstavlja 85% celotne zbirke. Osnovni namen študije je bil pokazati, ali mediteranska dieta zmanjša pojav srčno-žilnih bolezni. V ta namen so razdelili udeležence na tri skupine: kontrolno skupino ter dve skupini z različnima tipoma mediteranske diete.

V tej analizi uporabljamo te podatke za iskanje faktorjev tveganja za pojav srčno-žilnih bolezni. To bomo izvedli najprej z določanjem osnovnih statistik faktorjev tveganja za bolezen (relativno tveganje), kasneje z uporabo logistične regresije za določanje posamičnih faktorjev tveganja (univariatna analiza) in nato z uporabo multiple logistične regresije, kjer bomo uspešnost analize ocenili z ROC krivuljo.

Metodologija

Pri faktorjih tveganja za srčno-žilne bolezni izračunamo osnovne opisne statistike, ki so ločene glede na prisotnost srčno-žilne bolezni ali ne. Opisna statistika je podana v obliki frekvenc in deležev pri kategorijskih spremenljivkah, pri skalarnih pa v obliki mediane in medkvartilne razdalje. Za vsak faktor je izračunano relativno tveganje (RR) za srčno-žilne bolezni. Podana je ocenjena vrednost RR z intervali zaupanja v to oceno. Če intervali zaupanja vključujejo 1.0, to pomeni, da niso statistično značilni, kar se pokaže tudi z izračunom p-vrednosti.

V nadaljevanju je izvedena univariatna logistična regresija za vsak faktor posebej pri odzivni spremenljivki srčno-žilna bolezen. Rezultati logistične regresije niso prikazani, saj so razmerja obetov posameznih spremenljivk identična z RR-ji teh spremenljivk. Univariatna logistična regresija je bila izvedena za to, da smo določili spremenljivke, ki so primerne za model multivariatne logistične regresije. SPremenljivke, ki smo vzeli v model, so spr., kjer smo z univariatno regresijo ugotovili statistično značilnost s p < 0.1.

Multipla logistična regresija je bila izvedena po koračni metodi, kjer smo faktorje izločali ali sprejemali v model po kriteriju AIC. Minimalna vrednost kriterija AIC je določala končni model. Pri končnem modelu prikazujemo bistvene statistike multiple logistične regresije: razmerje obetov za bolezen (exp(Est)) z intervali zaupanja in p-vrednostjo. Izrisali smo tudi OR za posamezne faktorje tveganja.

Vrednotenje modela logistične regresije je izvedeno z ROC analizo, kjer računamo AUC kot končno mero uspešnosti modela z izračunanima senzitivnostjo in specifičnostjo ob pragu verjetnosti, ki smo ga določili po metodi Youdna.

Izračun statistik za faktorje tveganja

Izračunano je relativno tveganje za srčno-žilne bolezni pri vseh obravnavanih spremenljivkah.

Relativno tveganje obravnavanih faktorjev za srčno-žilne bolezni
skupaj ne da RR p.RR
N=6324 N=6072 N=252
skupina:
norm. dieta 2042 (32.3%) 1945 (32.0%) 97 (38.5%) Ref. Ref.
medit. dieta 1 2100 (33.2%) 2030 (33.4%) 70 (27.8%) 0.69 [0.50;0.95] 0.021
medit. dieta 2 2182 (34.5%) 2097 (34.5%) 85 (33.7%) 0.81 [0.60;1.09] 0.173
spol:
Ž 2679 (42.4%) 2528 (41.6%) 151 (59.9%) Ref. Ref.
M 3645 (57.6%) 3544 (58.4%) 101 (40.1%) 0.48 [0.37;0.62] <0.001
starost 67.0 [62.0;72.0] 67.0 [62.0;72.0] 70.0 [64.0;75.0] 1.07 [1.04;1.09] <0.001
kajenje:
nekadilec 3892 (61.5%) 3778 (62.2%) 114 (45.2%) Ref. Ref.
kadilec 858 (13.6%) 809 (13.3%) 49 (19.4%) 2.01 [1.41;2.82] <0.001
bivši kadilec 1574 (24.9%) 1485 (24.5%) 89 (35.3%) 1.99 [1.49;2.64] <0.001
ITM 29.8 [27.2;32.5] 29.8 [27.2;32.5] 29.4 [26.9;32.1] 0.98 [0.95;1.02] 0.365
obseg pasu 100 [93.0;107] 100 [93.0;107] 102 [95.0;108] 1.01 [1.00;1.03] 0.016
razmerje obseg pasu-višina 0.63 [0.58;0.67] 0.63 [0.58;0.67] 0.63 [0.59;0.68] 3.64 [0.55;23.9] 0.178
visok krvni tlak:
ne 1089 (17.2%) 1047 (17.2%) 42 (16.7%) Ref. Ref.
da 5235 (82.8%) 5025 (82.8%) 210 (83.3%) 1.04 [0.75;1.48] 0.826
diabetes:
ne 3322 (52.5%) 3231 (53.2%) 91 (36.1%) Ref. Ref.
da 3002 (47.5%) 2841 (46.8%) 161 (63.9%) 2.01 [1.55;2.62] <0.001
dislipidemija:
ne 1746 (27.6%) 1645 (27.1%) 101 (40.1%) Ref. Ref.
da 4578 (72.4%) 4427 (72.9%) 151 (59.9%) 0.56 [0.43;0.72] <0.001
družinska zgodovina CHD:
ne 4895 (77.4%) 4694 (77.3%) 201 (79.8%) Ref. Ref.
da 1429 (22.6%) 1378 (22.7%) 51 (20.2%) 0.87 [0.63;1.18] 0.363
hormonska terapija:
ne 5564 (98.3%) 5341 (98.2%) 223 (99.6%) Ref. Ref.
da 97 (1.71%) 96 (1.77%) 1 (0.45%) 0.29 [0.01;1.27] 0.117
dietni indeks 9.00 [7.00;10.0] 9.00 [7.00;10.0] 8.00 [7.00;10.0] 0.89 [0.84;0.95] <0.001

Za faktorje tveganja je izračunano relativno tveganje (RR) za srčno-žilne bolezni. Podana je ocenjena vrednost RR z intervali zaupanja v to oceno. Če intervali zaupanja vključujejo 1.0, to pomeni, da niso statistično značilni, kar se pokaže tudi z izračunom p-vrednosti (p.RR) za te faktorje. Pri faktorjih tveganja je vedno prva kategorija referenčna (označeno ref.), na katero se potem nanašajo izračuni RR.

Logistična regresija: vsak faktor posebej

VarName Miss OR CI95 pval
starost 0 1.067 [1.045, 1.089] 0.000
spol 0 0.477 [0.369, 0.617] 0.000
diabetes 0 2.012 [1.548, 2.615] 0.000
dislipidemija 0 0.556 [0.429, 0.719] 0.000
kajenje 0 2.007 [1.424, 2.829] 0.000
dietni indeks 0 0.890 [0.836, 0.948] 0.000
obseg pasu 0 1.014 [1.003, 1.026] 0.016
skupina 0 0.691 [0.505, 0.946] 0.021
hormonska terapija 663 0.249 [0.035, 1.797] 0.168
razmerje obseg pasu-višina 0 3.641 [0.555, 23.901] 0.178
družinska zgodovina CHD 0 0.864 [0.632, 1.182] 0.361
ITM 0 0.985 [0.952, 1.018] 0.365
visok krvni tlak 0 1.042 [0.743, 1.461] 0.812

Rezultati logističnih regresij vsakega faktorja posebej se morajo ujemati z relativnimi tveganji (RR) iz prejšnje tabele.

Multipla logistična regresija

Izbrali smo tiste faktorje, kjer smo z posamično regresijo ugotovili statistično značilnost s p < 0.1.

Koračna metoda

V koračni metodi izločamo ali sprejemamo faktorje v model multiple logistične regresije po kriteriju AIC. Minimalna vrednost kriterija AIC določa končni model.

Končni model

Končni model je določen v koračni metod. Tu se izvede statistična analiza končnega modela.

VarName OR CI95 pval
starost 1.073 [1.051, 1.096] 0.000
spol_M 0.645 [0.459, 0.906] 0.011
diab_da 1.667 [1.265, 2.198] 0.000
dietni_indeks 0.886 [0.832, 0.945] 0.000
kajenje_kadilec 1.976 [1.309, 2.984] 0.001
kajenje_bivši kadilec 1.622 [1.132, 2.325] 0.008
dislip_da 0.743 [0.566, 0.976] 0.033

Vrednotenje modela logistične regresije

ROC analiza

ROC analiza na podatkih DATA (N = 6324):

AUC = 0.568, 95%-CI: [0.533, 0.602],
Youden cut-off: 0.036, Sens = 0.746, Spec = 0.360

ROC krivulja

Rezultati analiz

V tem primeru smo želeli pokazati, kako se izvede analizo faktorjev tveganja za neko bolezen ali dogodek, ne ukvarjamo pa se z zaključki raziskave na podlagi pridobljenih rezultatov.