Zadání úkolů AKD II. v ZS 2013

Zpět na hlavní stránku

1. úkol (1/10/13) Kontingenční tabulka - třídění 2. stupně   Data: ISSP 2007 
a) Odlišují se ti, kdo by chtěli nebo nechtěli mít za souseda Roma podle věku? [q28_l vekkat]
b) Souvisí pocit uspěchanosti ve volném čase s místem bydliště? [q5a_b S21]
c) Souvisí čtení knih s věkem? [q1_d vekkat]

2. úkol (8/10/13) Výpočet směrodatné odchylky (v celé populaci)  Data: Věková struktura studentů AKD2 v LS2013 
Spočítejte ručně(!) průměr a směrodatnou odchylku pro věk studentů Denního studia a Kombinovaného studia. Výsledky (průměr a StD) těchto dvou skupin porovnejte a interpretujte.
Výpočet bude dokumentován ve wordu, tj. jak jste dosazovali hodnoty do vzorce.
Nápověda - vzoreček pro výpočet StD naleznete v presentaci AKD1 Základní popisné statistiky a explorační analýza. Poznámka: zde se jedná o populační směrodatnou odchylku (nikoliv výběrovou, o té později), proto vzoreček ve jmenovateli obsahuje jenom "n" (nikoliv "n-1").

3. úkol (13/10/13) Výpočet standardní chyby průměru (v různých výběrech)  Data: Věková struktura studentů AKD2 v LS2013 
Spočítejte pomocí Excelu standardní chybu průměru věku v různých 4 náhodných výběrech z populace studentů AKD Kombinovaného studia (pro Denní studium jsme to dělali na hodině), z hodiny k tomu máte průměr a směrodatnou odchylku pro věk. Výsledky porovnejte a interpretujte - jaký výběr je "nejlepší"?
Výpočet bude dokumentován v Excelu, tj. jak jste definovali vzorce v buňce a výsledek ověřte také pomocí SPSS (do Excelu musíte data nejprve buď jednoduše překopírovat (sloupce) a nebo otevřít v SPSS data jako formát xls a uložit jako sav).

4. úkol (22/10/13) Výpočet intervalu spolehlivosti průměru - CI
1. část:   Data: Věková struktura studentů AKD2 v LS2013 Spočítejte pomocí Excelu interval spolehlivosti průměru věku v různých 4 náhodných výběrech z populace studentů AKD Kombinovaného studia, sloupce výběr1komvýběr4kom a to 1. pro 95 % CI (C=1,96) a 2. pro 99 % CI (C=2,576). Ze seminářů/úkolu k tomu máte průměr, směrodatnou odchylku a standardní chybu pro věk (pro Denní studium jsme to dělali na hodině + nově doplněno pro 99% CI). Výsledky porovnejte a interpretujte, opět jaký výběr je "nejlepší"?
Výpočet bude dokumentován v Excelu, tj. jak jste definovali vzorce v buňce a výsledek ověřte také pomocí SPSS (do Excelu musíte data nejprve buď jednoduše překopírovat (sloupce) a nebo otevřít v SPSS data jako formát xls a uložit jako sav).
K výpočtu lze použít například příkaz EXAMNE, viz Syntax 22/10/2013.
2. část:  Data: ISSP 2007  Intervaly spolehlivosti průměru v podskupinách (pouze pomocí SPSS)     
Zjistěte s využitím výpočtu intervalu spolehlivosti (95 %), zda se Politické zařazení na škále Levice-pravice [q37] liší podle:
a) věkových kategorií [vekkat]
b) rodinného stavu [s10]  
Mezi kterými kategoriemi nalezneme rozdíly? Výsledky interpretujte. A při znalosti případných rozdílů podle věku (a také věku podle rodinného stavu), jak můžeme (či nemůžeme) interpretovat případné rozdíly podle rodinného stavu?.
Použijte příkaz Examine/Explore a grafické znázornění pomocí ErrorBar. Vše potřebné naleznete v syntaxu ze 13/10/13  a v prezentaci 3. Intervaly spolehlivosti, standardní (směrodatná) chyba (cca od snímku 30).

5. úkol (29/10/13) Intervalový odhad podílu občanů hlásících se ke křesťanskému náboženství [s28]   Data: ISSP 2007
Postup: Nejprve rekódujte proměnnou s28 na dichotomii "krestan" a to tak, že spojíte kategorie 1, 2, 3, 4 (do kategorie 1 = křesťané) oproti 5, 6 (do kategorie 0 = ostatní).
Spočítejte 95% interval spolehlivosti pro podíl křesťanů a to:
a) ručně dosazením do vzorečku - návod naleznete v prezentaci 3. Intervaly spolehlivosti, standardní (směrodatná) chyba (snímky cca 36-39) a také ověřte výsledek
b) pomocí SPSS s využitím skriptu Large-Sample Confidence Interval for a Single Population Proportion, který již předvybraný a s českým komentářem naleznete také v Syntaxu 29/10/2013
c) Liší se (na 95% hladině statistické významnosti) podíl voličů [q34] ve skupině s/bez křesťanským vyznáním? Pozor závislá proměnná je zde Ne/volil [q34] zatímco Krestan/ostatní je nezávislá. (toto jsme sice zatím na hodině nedělali, ale poradíte si tříděním 2. stupně jednoduše např. pomocí CROSSTABS a dosazením podílu voličů zvlášť ve skupině křesťanů a ostatních např. do skriptu Large-Sample Confidence Interval).

6. úkol (5/11/13) Intervaly spolehlivosti pro pravděpodobnost/procento - porovnání s výsledky z dřívějšího výzkumu   Data: ISSP 2007 
V roce 1991 byla v ČR ve výzkumu EVS zjištěna tato míra participace, tj. členství v:
1. Náboženské/církevní organizaci 5,4 %
2. Politické strany/hnutí 5,0 %
3. Organizace pro Sport nebo zábavu 17,8 %
4. Kulturní, umělecké organizace 5,6 %
Velikost souboru byla N = 2109.
Porovnejte tyto výsledky z roku 1991 s výsledky z výzkumu ISSP 2007, kdy členství - participaci v organizacích reprezentují tyto proměnné:
Církev nebo jiná náboženská organizace [q13_c], Politická strana nebo sdružení [q13_e], Sportovní klub nebo sdružení [q13_a] a Kulturní sdružení [q13_b].
Členství indikujete jako součet odpovědí 1 (1xtýdně) až 4 (1-2x) a nečlenství kategorií 5 (ani jednou).
Zjistěte s využitím výpočtu intervalu spolehlivosti (pro pravděpodobnost), zda, a případně u kterých organizací, se změnila míra participace v naší společnosti za posledních 26 let.

7. úkol (12/11/13, zadáno později) Šance (Odds ratio)    Data: ISSP 2007 
Jaká je šance, že muži, v porovnání s ženami (s30), budou číst Lidové noviny (q25_5) resp. deník Sport (q25_8)? Spočítejte Odds Ratio: 1. ručně dosazením do vzorce (výpočet dokumentujte - jak jste dosadili do vzorce; vstupní data získáte z absolutních četností v kontingenční tabulce) a to samé pak i v SPSS (taktéž příkaz CROSSTAB ale vylepšený o statistiku CMH), kde navíc spočtete i interval spolehlivosti pro OR. Výsledky interpretujte a to včetně intervalu spolehlivosti.

8. úkol (19/11/13, zadáno později) úvod do testování hypotéz   
Přečíst:
Statisticky významný neznamená důležitý. Soukup, P. 2007. Socioweb 6/2007. a vybrané pasáže (na s. 78-88)
Nesprávná užívání statistické významnosti a jejich možná řešení. Soukup, P. 2010. Data a výzkum - SDA Info 4 (2): 77–104.

9. úkol (26/11/13) Statistická souvislost dvou kategorizovaných znaků (Chíkvadrát test) a znamenkové schéma (adjustovaná residua)   Data: ISSP 2007
Liší se podíl voličů [q34] ve skupině s/bez křesťanským vyznáním [krestan z s28] (na hladine statistické významnosti Alfa = 5 %)?
Je tento případný vztah stejný ve všech věkových kategoriích [vek3]?
Nejprve rekódujte proměnnou s28 na dichotomii "krestan" (viz úkol 5) a to tak, že spojíte kategorie 1, 2, 3, 4 (do kategorie 1 = křesťané) oproti 5, 6 (do kategorie 0 = ostatní). Dále spočítáte Chíkvadrát test pro třídění 2. stupně a 3 stupně (odděleně pro věkové kategorie). Nakonec spočítáte adjustovaná residua a podle z-hodnot přidělíte znaménka pro statiscikou významnot odchylek v jednotlivých polích tabulky (hranice znamének jsou: 1,96; 2,58 a 3,29).

10. úkol (3/12/13) Statistická významnost proměny (Jednodimenzionální Chíkvadrát test)   Data: ISSP 2007 (agregováno)
Máme tabelární data o třídní struktuře mužů ze dvou reprezenativních výzkumů (náhodné výběry). Lze tvrdit, že se třídní struktura mezi lety 1967 (ČSR) a 2007 (ČR) proměnila?
rok 1967: nemanuální prac. 35,4 % manuální prac. 50,5 % zemědělci 14,1 %
rok 2007: nemanuální prac. 38,4 (168) manuální prac. 58,4 (255) zemědělci 3,2 (14); celkem 100 % (n 437).
Nápověda: Použijte jednodim. Chikvadrát test dobré shody (na hladine statistické významnosti Alfa = 5 %), kdy jako očekávané četnosti dosadíte podíl za rok 1967 (tj. nejprve "přerozdělíte absolutní četnosti roku 2007 podle podílů z roku 1967", tj. násobíte podíly za rok 1967 celkovou četnost z roku 2007). Viz Chí-kvadrát test pro homogenitu kategorií uvnitř jednoho znaku v presentaci  4. Testování hypotéz a asociace v kontingenčních tabulkách (1) (snímky cca 33-36), v úkolu ale nejde o rovnoměrné zastoupení četností kategorií, ale očekávané četnosti jsou dány strukturou z roku 1967.


Úkol č. 11 (z 10/12/13, zadáno až 26/1/2014)   Elaborace: kontingenční tabulka - třídění 3. st. a standardizace, parciální korelace   Data: ISSP 2007 
Existuje vztah mezi dosaženým vzděláním a frekvencí kouření? Promění se souvislost mezi kouřením a vzděláním při kontrole vlivu věku?
1. Zjistěte jaká je souvislost mezi kouřením a vzděláním v kontingenčních tabulkách. Nejprve rekódujete - dichotomizujete proměnnou frekvence kouření q18 na Kurak (hodnoty: Kuřák = 1+2=méně než jednu krabičku denně; resp. Nekuřák = max 3 Ano, ale jen příležitostně) a věk vek sloučíte do tří kategorií vek3kat (18-35; 36-59; 60+), vzdělání vzd3 v datech již je. Homogenitu četností – vztahy uvnitř věkových kategorií posuďte pomocí adekvátních koeficientů asociace. Vztahy v tabulce interpretujte.
2. V tabulce proveďte přímou standardizaci podle věku (jako kdyby všichni uvnitř vzdělanostních kategorií byli stejného věku). Jak se změní vztah mezi kouřením a vzděláním po kontrole vlivu věku?
3. (Navíc nepovinná část): Analyzujte to samé ale pomocí korelací pro původní původní kardinální/ordinální proměnné [q18 S3 vek]. Zjistěte nejprve jaká je korelace nultého řádu mezi kouřením a vzděláním, dále spočtěte parciální korelaci s kontrolou věku. Jaký je rozdíl v podílu vysvětlené variance ve frekvenci kouření pomocí vzdělání bez a po kontrole věku?

Zpět na hlavní stránku