DEMO: Statistične analize dveh ali več skupin

STATA.si

07 december, 2021

Opis podatkovne zbirke

V tej analizi smo uporabili podatke španske študije PREDIMED, ki se je začela izvajati v letu 2003 in se je nadaljevala do leta 2010. Namen študije je bil raziskati vpliv mediteranske diete na zdravje ljudi. V tej analizi smo iz študije izbrali 6324 udeležencev, kar predstavlja 85% celotne zbirke. Osnovni namen študije je bil pokazati, ali mediteranska dieta zmanjša pojav srčno-žilnih bolezni. V ta namen so razdelili udeležence na tri skupine: kontrolno skupino ter dve skupini z različnima tipoma mediteranske diete.

V naši analizi uporabljamo te podatke za demonstracijo osnovnih opisnih statistik in statistične analize razlik med skupinami.

Metodologija

Izdelana je statistična analiza za ugotavljanje statistično značilnih razlik med obravnavanimi skupinami. Opisna statistika skalarnih spremenljivk je podana v obliki povprečij in standardnih odklonov v primeru normalno porazdeljenih podatkov oziroma v obliki mediane in med-kvartilne razdalje, ki je podana kot interval med 1. in 3. kvartilom v oglatih oklepajih v primeru ne-normalno porazdeljenih podatkov. Če je opisna statistika skalarne spremenljivke prikazana kot povprečje (std) je normalno porazdeljena, v primeru prikaza mediana [1.kvartil, 3.kvartil] pa gre za ne-normalno porazdeljeno skalarno spremenljivko. Kategorijske spremenljivke so predstavljene v obliki frekvenc in relativnih deležev.

Uporabljeni so bili naslednji statistični testi za ugotavljanje razlik med kontrolno in testno skupino. V primeru analize dveh vzorcev smo v primeru normalno porazdeljenih spremenljivk uporabili T-test neodvisnih vzorcev, v primeru ne-normalno porazdeljenih spremenljivk pa Mann-Whitney-jev U-test. Za ugotavljanje, ali so podatki normalno porazdeljeni ali ne, uporabljamo Shapiro-Wilkov test. Pri analizi treh skupin v primeru skalarnih spremenljivk uporabljamo analizo variance ANOVA v primeru normalno porazdeljenih spremenljivk ali pa Kruskal-Wallisov test v primeru podatkov, ki niso normalno porazdeljeni. V primeru kategorijskih spremenljivk uporabljamo chi2-test. Meja za statistično značilnost je postavljena pri p < 0.05.

Analiza dveh skupin

Opisna statistika z osnovnimi statističnimi testi glede na obravnavane skupine.
skupaj kontrolna skupina medit. dieta p
N=6324 N=2042 N=4282
spol: 0.004
Ž 2679 (42.4%) 812 (39.8%) 1867 (43.6%)
M 3645 (57.6%) 1230 (60.2%) 2415 (56.4%)
starost 67.0 [62.0;72.0] 67.0 [62.0;72.0] 66.0 [62.0;71.0] 0.003
kajenje: 0.371
nekadilec 3892 (61.5%) 1282 (62.8%) 2610 (61.0%)
kadilec 858 (13.6%) 270 (13.2%) 588 (13.7%)
bivši kadilec 1574 (24.9%) 490 (24.0%) 1084 (25.3%)
ITM 29.8 [27.2;32.5] 30.0 [27.5;32.8] 29.6 [27.1;32.3] <0.001
obseg pasu 100 [93.0;107] 101 [94.0;108] 100 [93.0;107] 0.028
razmerje obseg pasu-višina 0.63 [0.58;0.67] 0.63 [0.59;0.68] 0.62 [0.58;0.67] <0.001
visok krvni tlak: 0.152
ne 1089 (17.2%) 331 (16.2%) 758 (17.7%)
da 5235 (82.8%) 1711 (83.8%) 3524 (82.3%)
diabetes: 0.993
ne 3322 (52.5%) 1072 (52.5%) 2250 (52.5%)
da 3002 (47.5%) 970 (47.5%) 2032 (47.5%)
dislipidemija: 0.987
ne 1746 (27.6%) 563 (27.6%) 1183 (27.6%)
da 4578 (72.4%) 1479 (72.4%) 3099 (72.4%)
družinska zgodovina CHD: 0.996
ne 4895 (77.4%) 1580 (77.4%) 3315 (77.4%)
da 1429 (22.6%) 462 (22.6%) 967 (22.6%)
hormonska terapija: 0.989
ne 5564 (98.3%) 1811 (98.3%) 3753 (98.3%)
da 97 (1.71%) 31 (1.68%) 66 (1.73%)
dietni indeks 9.00 [7.00;10.0] 8.00 [7.00;10.0] 9.00 [8.00;10.0] <0.001
čas do dogodka (v letih) 4.79 [2.86;5.79] 4.16 [2.72;5.62] 4.90 [2.97;5.83] <0.001
srčni infarkt, kap, drugo: 0.038
ne 6072 (96.0%) 1945 (95.2%) 4127 (96.4%)
da 252 (3.98%) 97 (4.75%) 155 (3.62%)

Analiza treh skupin

Opisna statistika z osnovnimi statističnimi testi glede na obravnavane skupine.
skupaj kontrolna skupina medit. dieta 1 medit. dieta 2 p
N=6324 N=2042 N=2100 N=2182
spol: <0.001
Ž 2679 (42.4%) 812 (39.8%) 968 (46.1%) 899 (41.2%)
M 3645 (57.6%) 1230 (60.2%) 1132 (53.9%) 1283 (58.8%)
starost 67.0 [62.0;72.0] 67.0 [62.0;72.0] 66.0 [62.0;71.0] 67.0 [62.0;72.0] 0.003
kajenje: 0.444
nekadilec 3892 (61.5%) 1282 (62.8%) 1259 (60.0%) 1351 (61.9%)
kadilec 858 (13.6%) 270 (13.2%) 296 (14.1%) 292 (13.4%)
bivši kadilec 1574 (24.9%) 490 (24.0%) 545 (26.0%) 539 (24.7%)
ITM 29.8 [27.2;32.5] 30.0 [27.5;32.8] 29.5 [27.0;32.2] 29.7 [27.2;32.4] <0.001
obseg pasu 100 [93.0;107] 101 [94.0;108] 100 [93.0;107] 100 [93.0;107] 0.085
razmerje obseg pasu-višina 0.63 [0.58;0.67] 0.63 [0.59;0.68] 0.62 [0.58;0.66] 0.62 [0.58;0.67] <0.001
visok krvni tlak: 0.249
ne 1089 (17.2%) 331 (16.2%) 362 (17.2%) 396 (18.1%)
da 5235 (82.8%) 1711 (83.8%) 1738 (82.8%) 1786 (81.9%)
diabetes: 0.017
ne 3322 (52.5%) 1072 (52.5%) 1150 (54.8%) 1100 (50.4%)
da 3002 (47.5%) 970 (47.5%) 950 (45.2%) 1082 (49.6%)
dislipidemija: 0.423
ne 1746 (27.6%) 563 (27.6%) 561 (26.7%) 622 (28.5%)
da 4578 (72.4%) 1479 (72.4%) 1539 (73.3%) 1560 (71.5%)
družinska zgodovina CHD: 0.581
ne 4895 (77.4%) 1580 (77.4%) 1640 (78.1%) 1675 (76.8%)
da 1429 (22.6%) 462 (22.6%) 460 (21.9%) 507 (23.2%)
hormonska terapija: 0.850
ne 5564 (98.3%) 1811 (98.3%) 1835 (98.4%) 1918 (98.2%)
da 97 (1.71%) 31 (1.68%) 30 (1.61%) 36 (1.84%)
dietni indeks 9.00 [7.00;10.0] 8.00 [7.00;10.0] 9.00 [8.00;10.0] 9.00 [8.00;10.0] <0.001
čas do dogodka (v letih) 4.79 [2.86;5.79] 4.16 [2.72;5.62] 4.72 [2.80;5.76] 5.02 [3.41;5.88] <0.001
srčni infarkt, kap, drugo: 0.064
ne 6072 (96.0%) 1945 (95.2%) 2030 (96.7%) 2097 (96.1%)
da 252 (3.98%) 97 (4.75%) 70 (3.33%) 85 (3.90%)

Rezultati analiz

V tem primeru smo želeli pokazati, kako se izvede primerjalno statistično analizo dveh ali več skupin, ne ukvarjamo pa se z zaključki raziskave na podlagi pridobljenih rezultatov.