Opis podatkovne zbirke
V tej analizi smo uporabili podatke španske študije PREDIMED, ki se je začela izvajati v letu 2003 in se je nadaljevala do leta 2010. Namen študije je bil raziskati vpliv mediteranske diete na zdravje ljudi. V tej analizi smo iz študije izbrali 6324 udeležencev, kar predstavlja 85% celotne zbirke. Osnovni namen študije je bil pokazati, ali mediteranska dieta zmanjša pojav srčno-žilnih bolezni. V ta namen so razdelili udeležence na tri skupine: kontrolno skupino ter dve skupini z različnima tipoma mediteranske diete.
V tej analizi uporabljamo te podatke za iskanje faktorjev tveganja za pojav srčno-žilnih bolezni. To bomo izvedli najprej z določanjem osnovnih statistik faktorjev tveganja za bolezen (relativno tveganje), kasneje z uporabo logistične regresije za določanje posamičnih faktorjev tveganja (univariatna analiza) in nato z uporabo multiple logistične regresije, kjer bomo uspešnost analize ocenili z ROC krivuljo.
Metodologija
Pri faktorjih tveganja za srčno-žilne bolezni izračunamo osnovne opisne statistike, ki so ločene glede na prisotnost srčno-žilne bolezni ali ne. Opisna statistika je podana v obliki frekvenc in deležev pri kategorijskih spremenljivkah, pri skalarnih pa v obliki mediane in medkvartilne razdalje. Za vsak faktor je izračunano relativno tveganje (RR) za srčno-žilne bolezni. Podana je ocenjena vrednost RR z intervali zaupanja v to oceno. Če intervali zaupanja vključujejo 1.0, to pomeni, da niso statistično značilni, kar se pokaže tudi z izračunom p-vrednosti.
V nadaljevanju je izvedena univariatna logistična regresija za vsak faktor posebej pri odzivni spremenljivki srčno-žilna bolezen. Rezultati logistične regresije niso prikazani, saj so razmerja obetov posameznih spremenljivk identična z RR-ji teh spremenljivk. Univariatna logistična regresija je bila izvedena za to, da smo določili spremenljivke, ki so primerne za model multivariatne logistične regresije. SPremenljivke, ki smo vzeli v model, so spr., kjer smo z univariatno regresijo ugotovili statistično značilnost s p < 0.1.
Multipla logistična regresija je bila izvedena po koračni metodi, kjer smo faktorje izločali ali sprejemali v model po kriteriju AIC. Minimalna vrednost kriterija AIC je določala končni model. Pri končnem modelu prikazujemo bistvene statistike multiple logistične regresije: razmerje obetov za bolezen (exp(Est)) z intervali zaupanja in p-vrednostjo. Izrisali smo tudi OR za posamezne faktorje tveganja.
Vrednotenje modela logistične regresije je izvedeno z ROC analizo, kjer računamo AUC kot končno mero uspešnosti modela z izračunanima senzitivnostjo in specifičnostjo ob pragu verjetnosti, ki smo ga določili po metodi Youdna.
Izračun statistik za faktorje tveganja
Izračunano je relativno tveganje za srčno-žilne bolezni pri vseh obravnavanih spremenljivkah.
skupaj | ne | da | RR | p.RR | |
---|---|---|---|---|---|
N=6324 | N=6072 | N=252 | |||
skupina: | |||||
norm. dieta | 2042 (32.3%) | 1945 (32.0%) | 97 (38.5%) | Ref. | Ref. |
medit. dieta 1 | 2100 (33.2%) | 2030 (33.4%) | 70 (27.8%) | 0.69 [0.50;0.95] | 0.021 |
medit. dieta 2 | 2182 (34.5%) | 2097 (34.5%) | 85 (33.7%) | 0.81 [0.60;1.09] | 0.173 |
spol: | |||||
Ž | 2679 (42.4%) | 2528 (41.6%) | 151 (59.9%) | Ref. | Ref. |
M | 3645 (57.6%) | 3544 (58.4%) | 101 (40.1%) | 0.48 [0.37;0.62] | <0.001 |
starost | 67.0 [62.0;72.0] | 67.0 [62.0;72.0] | 70.0 [64.0;75.0] | 1.07 [1.04;1.09] | <0.001 |
kajenje: | |||||
nekadilec | 3892 (61.5%) | 3778 (62.2%) | 114 (45.2%) | Ref. | Ref. |
kadilec | 858 (13.6%) | 809 (13.3%) | 49 (19.4%) | 2.01 [1.41;2.82] | <0.001 |
bivši kadilec | 1574 (24.9%) | 1485 (24.5%) | 89 (35.3%) | 1.99 [1.49;2.64] | <0.001 |
ITM | 29.8 [27.2;32.5] | 29.8 [27.2;32.5] | 29.4 [26.9;32.1] | 0.98 [0.95;1.02] | 0.365 |
obseg pasu | 100 [93.0;107] | 100 [93.0;107] | 102 [95.0;108] | 1.01 [1.00;1.03] | 0.016 |
razmerje obseg pasu-višina | 0.63 [0.58;0.67] | 0.63 [0.58;0.67] | 0.63 [0.59;0.68] | 3.64 [0.55;23.9] | 0.178 |
visok krvni tlak: | |||||
ne | 1089 (17.2%) | 1047 (17.2%) | 42 (16.7%) | Ref. | Ref. |
da | 5235 (82.8%) | 5025 (82.8%) | 210 (83.3%) | 1.04 [0.75;1.48] | 0.826 |
diabetes: | |||||
ne | 3322 (52.5%) | 3231 (53.2%) | 91 (36.1%) | Ref. | Ref. |
da | 3002 (47.5%) | 2841 (46.8%) | 161 (63.9%) | 2.01 [1.55;2.62] | <0.001 |
dislipidemija: | |||||
ne | 1746 (27.6%) | 1645 (27.1%) | 101 (40.1%) | Ref. | Ref. |
da | 4578 (72.4%) | 4427 (72.9%) | 151 (59.9%) | 0.56 [0.43;0.72] | <0.001 |
družinska zgodovina CHD: | |||||
ne | 4895 (77.4%) | 4694 (77.3%) | 201 (79.8%) | Ref. | Ref. |
da | 1429 (22.6%) | 1378 (22.7%) | 51 (20.2%) | 0.87 [0.63;1.18] | 0.363 |
hormonska terapija: | |||||
ne | 5564 (98.3%) | 5341 (98.2%) | 223 (99.6%) | Ref. | Ref. |
da | 97 (1.71%) | 96 (1.77%) | 1 (0.45%) | 0.29 [0.01;1.27] | 0.117 |
dietni indeks | 9.00 [7.00;10.0] | 9.00 [7.00;10.0] | 8.00 [7.00;10.0] | 0.89 [0.84;0.95] | <0.001 |
Za faktorje tveganja je izračunano relativno tveganje (RR) za srčno-žilne bolezni. Podana je ocenjena vrednost RR z intervali zaupanja v to oceno. Če intervali zaupanja vključujejo 1.0, to pomeni, da niso statistično značilni, kar se pokaže tudi z izračunom p-vrednosti (p.RR) za te faktorje. Pri faktorjih tveganja je vedno prva kategorija referenčna (označeno ref.), na katero se potem nanašajo izračuni RR.
Logistična regresija: vsak faktor posebej
VarName | Miss | OR | CI95 | pval |
---|---|---|---|---|
starost | 0 | 1.067 | [1.045, 1.089] | 0.000 |
spol | 0 | 0.477 | [0.369, 0.617] | 0.000 |
diabetes | 0 | 2.012 | [1.548, 2.615] | 0.000 |
dislipidemija | 0 | 0.556 | [0.429, 0.719] | 0.000 |
kajenje | 0 | 2.007 | [1.424, 2.829] | 0.000 |
dietni indeks | 0 | 0.890 | [0.836, 0.948] | 0.000 |
obseg pasu | 0 | 1.014 | [1.003, 1.026] | 0.016 |
skupina | 0 | 0.691 | [0.505, 0.946] | 0.021 |
hormonska terapija | 663 | 0.249 | [0.035, 1.797] | 0.168 |
razmerje obseg pasu-višina | 0 | 3.641 | [0.555, 23.901] | 0.178 |
družinska zgodovina CHD | 0 | 0.864 | [0.632, 1.182] | 0.361 |
ITM | 0 | 0.985 | [0.952, 1.018] | 0.365 |
visok krvni tlak | 0 | 1.042 | [0.743, 1.461] | 0.812 |
Rezultati logističnih regresij vsakega faktorja posebej se morajo ujemati z relativnimi tveganji (RR) iz prejšnje tabele.
Multipla logistična regresija
Izbrali smo tiste faktorje, kjer smo z posamično regresijo ugotovili statistično značilnost s p < 0.1.
Koračna metoda
V koračni metodi izločamo ali sprejemamo faktorje v model multiple logistične regresije po kriteriju AIC. Minimalna vrednost kriterija AIC določa končni model.
Končni model
Končni model je določen v koračni metod. Tu se izvede statistična analiza končnega modela.
VarName | OR | CI95 | pval |
---|---|---|---|
starost | 1.073 | [1.051, 1.096] | 0.000 |
spol_M | 0.645 | [0.459, 0.906] | 0.011 |
diab_da | 1.667 | [1.265, 2.198] | 0.000 |
dietni_indeks | 0.886 | [0.832, 0.945] | 0.000 |
kajenje_kadilec | 1.976 | [1.309, 2.984] | 0.001 |
kajenje_bivši kadilec | 1.622 | [1.132, 2.325] | 0.008 |
dislip_da | 0.743 | [0.566, 0.976] | 0.033 |
Vrednotenje modela logistične regresije
ROC analiza
ROC analiza na podatkih DATA (N = 6324):
AUC = 0.568, 95%-CI: [0.533, 0.602],
Youden cut-off: 0.036, Sens = 0.746, Spec = 0.360
ROC krivulja
Rezultati analiz
V tem primeru smo želeli pokazati, kako se izvede analizo faktorjev tveganja za neko bolezen ali dogodek, ne ukvarjamo pa se z zaključki raziskave na podlagi pridobljenih rezultatov.