Zadání úkolů AKD II. v ZS 2014

Zpět na hlavní stránku

1. úkol (18/10/2014) Výpočet standardní chyby průměru a intervalu spolehlivosti ve 4 různých výběrech pro věk studentů AKD Kombinovaného studia (pomocí Excelu).   
Data: Věková struktura studentů AKD2 v LS2013
 
a) Nejprve spočítejte v Excelu průměr a směrodatnou odchylku. (Tento úkol jste již dělali v AKD1, nyní stačí jen zadat funkce do buněk v Excelu, kde je to vše pěkně naznačeno. Poznámka: rozlišujeme směrodatnou odchylku populační (pro celý základní soubor), kdy vzoreček ve jmenovateli obsahuje jenom "n" a výběrovou, kdy je ve jmenovateli "n-1".
b) Ze směrodat. odch. spočítejte standardní chybu průměru a 95% a 99% interval spolehlivosti věku studentů kombi-studia v jednotlivých 4 výběrech (pro Denní studium to je již hotovo).
Výsledky porovnejte a interpretujte - jaký výběr je "nejlepší"?
Výpočet bude dokumentován ve Wordu s komentářem, také přiložte Excelový soubor, tj. jak jste postupovali (jak jste definovali vzorce v buňce). Výsledky si ověřte také pomocí SPSS např. pomocí EXPLORE/EXAMINE nebo ONEWAY (z Excelu musíte data do SPSS nejprve buď jednoduše překopírovat (sloupce) a nebo otevřít v SPSS data jako formát xls a uložit jako *.sav).
Nápověda je přímo v Excelovském souboru, pro lepší pochopení vzorečky naleznete v presentaci 3a. Standardní chyba a interval spolehlivosti (1.) – úvod do principů inferenční statistiky, výpočet pro numerické/kardinální znaky (průměr)  (verze v pdf)    (pro výpočet StD viz také AKD1 Základní popisné statistiky a explorační analýza)


2. úkol (22/10/2014) Intervaly spolehlivosti průměru v podskupinách (pomocí SPSS)
Data: ISSP 2007       
Zjistěte s využitím výpočtu intervalu spolehlivosti (95 %), zda se Politické zařazení na škále Levice-pravice [q37] liší podle:
a) věkových kategorií [vekkat]
b) rodinného stavu [s10]  
Mezi kterými skupinami nalezneme rozdíly? Výsledky interpretujte. A při znalosti případných rozdílů podle věku (a také věku podle rodinného stavu), jak můžeme (či nemůžeme) interpretovat případné rozdíly podle rodinného stavu?.
Použijte příkaz Examine/Explore a zároveň grafické znázornění pomocí ErrorBar. Vše potřebné naleznete v Syntaxu 22/10/2013 (základy výpočtu intervalu spolehlivosti pro průměr)   a v aktualizované prezentaci 3a. Standardní chyba a interval spolehlivosti (1.) – úvod do principů inferenční statistiky, výpočet pro numerické/kardinální znaky (průměr)  (verze v pdf)  (cca od snímku 31).
3. úkol (29/11/2014) byl spojen s úkolem č. 8 (viz níže)
4. úkol (5/11/2014) Intervalový odhad podílu občanů hlásících se ke křesťanskému náboženství [s28]   Data: ISSP 2007
Postup: Nejprve rekódujte proměnnou s28 na dichotomii "krestan" a to tak, že spojíte kategorie 1, 2, 3, 4 (do kategorie 1 = křesťané) oproti 5, 6 (do kategorie 0 = ostatní).
Spočítejte 95% interval spolehlivosti pro podíl křesťanů a to:
a) ručně dosazením do vzorečku - návod naleznete v prezentaci 3b. Standardní chyba a interval spolehlivosti (2.) – pro nominální znaky (podíl, procenta) (snímky cca 13-25) a také ověřte výsledek
b) pomocí SPSS s využitím skriptu Large-Sample Confidence Interval for a Single Population Proportion, který již předvybraný a s českým komentářem naleznete také v Syntaxu 29/10/2013
c) Liší se (na 5% hladině statistické významnosti) podíl voličů [q34] ve skupině s/bez křesťanským vyznáním? Pozor závislá proměnná je zde Ne/volil [q34] zatímco Krestan/ostatní je nezávislá. (toto jsme sice zatím na hodině nedělali, ale poradíte si tříděním 2. stupně jednoduše např. pomocí CROSSTABS a dosazením podílu voličů zvlášť ve skupině křesťanů a ostatních např. do skriptu Large-Sample Confidence Interval).
5. úkol (12/11/2014) (zadáno 16/11) Intervaly spolehlivosti pro pravděpodobnost/procento - porovnání výsledků z vlastních dat s výsledky z dřívějšího výzkumu   Data: ISSP 2007 a výsledky z EVS (European Values Study) z roku 1991.
V roce 1991 byla v ČR ve výzkumu EVS zjištěna tato míra participace, tj. členství v:
1. Náboženské/církevní organizaci 5,4 %
2. Politické strany/hnutí 5,0 %
3. Organizace pro Sport nebo zábavu 17,8 %
4. Kulturní, umělecké organizace 5,6 %
Velikost souboru EVS 1991 byla N = 2109.
Porovnejte tyto výsledky z roku 1991 s výsledky z výzkumu ISSP 2007, kdy členství - participaci v organizacích reprezentují tyto proměnné:
Církev nebo jiná náboženská organizace [q13_c], Politická strana nebo sdružení [q13_e], Sportovní klub nebo sdružení [q13_a] a Kulturní sdružení [q13_b].
Členství indikujete jako součet odpovědí 1 (1xtýdně) až 4 (1-2x) a nečlenství kategorií 5 (ani jednou).
Zjistěte s využitím výpočtu intervalu spolehlivosti (pro pravděpodobnost), zda, a případně u kterých organizací, se změnila míra participace v naší společnosti za posledních 16 let.
Nápověda: pro data z roku 2007 spočítáte nejprve příslušné tabulky třídění 1. stupně (Frequencies) a k nim pak intervaly spolehlivosti, které spočítáte rovněž pro dřívější výsledky z EVS 1991. K tomu lze využít buď skriptu Large-Sample Confidence Interval for a Single Population Proportion (pozor, je to až ten druhý test), který již předvybraný a s českým komentářem naleznete také v Syntaxu 29/10/2013* a nebo internetovou aplikaci   Confidence Interval of a Proportion případně jednoduchý výpočet pomocí vzorečku, viz prezentaci 3b. Standardní chyba a interval spolehlivosti (2.) – pro nominální znaky (podíl, procenta). (snímky 13-31). Buď spočítáte a porovnáte CI pro danou proměnnou v obou letech a nebo spočítáte CI pro % rozdíl mezi 1991 a 2007.
6. úkol (z 19/11/2014) byl spojen s úkolem č. 10 (viz níže)
7. úkol (z 26/11/2014) bude zadán později na Intervaly spolehlivosti procent v podskupinách s tříděním 2. stupně
Data: ISSP 2007  
8.(+3.) úkol (3/12/14) Úvod do testování hypotéz (testování průměrů u kardinálních znaků)    Data: ISSP 2007     Tento úkol byl spojen s úkolem č. 3.
1. Přečíst:
  a) Statisticky významný neznamená důležitý. Soukup, P. 2007. Socioweb 6/2007. Jde o stručný výtah z článku, který pro zájemce nepovinně doporučuji Soukup, Rabušic. 2007. Několik poznámek k jedné obsesi českých sociálních věd – statistické významnosti.
  b) Nesprávná užívání statistické významnosti a jejich možná řešení. Soukup, P. 2010. Data a výzkum - SDA Info 4 (2): 77–104. Stačí přečíst pouze vybrané - označené pasáže na s. 78-88.

2. Test pro průměry. Pomocí T-testu a jednoduché analýzy rozptylu (F-test) zjistěte, zda se Politické zařazení na škále Levice-pravice [q37] liší:
 a) mezi muži a ženami [s30] - jsou pravicovější ženy nebo muži? Nápověda: Zde použijete dvouvýběrový T-test (T-TEST GROUPS)
 a) podle věkových kategorií [vekkat] Nápověda: Zde použijete jednoduchou analýzu rozptylu (T-TEST GROUPS). Pokuste se také dále zjistit pomocí Post-Hoc testů (např. Bonferroni), které věkové kategorie se případně odlišují od ostatních. Roste pravicovost s věkem?
V obou případech kromě statistického testu zobrazte výsledky v grafu s průměrnými hodnotami L/P orientace podle kategorií nezávislých proměnných (pohlaví, věk) s intervaly 95% spolehlivosti (ERRORBAR). Jde o stejný problém-otázku jako jste řešili v úkolu 2. (22/10/14).
Vše potřebné naleznete v Syntaxu 3/12/2014 (T-testy pro průměr a Oneway ANOVA)  a v aktualizované prezentaci 4.a Testování hypotéz (1) - Princip a testy pro číselné/kardinální znaky  (verze v pdf)  (na snímcích cca 29-38).


9. úkol (10/12/14, zadáno dopředu) Statistická souvislost dvou kategorizovaných znaků v kontingenčnít tabulce (Chíkvadrát test) a znamenkové schéma (adjustovaná residua)   Data: ISSP 2007
Liší se podíl voličů [q34] ve skupině s/bez křesťanským vyznáním [krestan z s28] (na hladine statistické významnosti Alfa = 5 %)?
Je tento případný vztah stejný ve všech věkových kategoriích [vek3]?
Nejprve rekódujte proměnnou s28 na dichotomii "krestan" (viz úkol 5) a to tak, že spojíte kategorie 1, 2, 3, 4 (do kategorie 1 = křesťané) oproti 5, 6 (do kategorie 0 = ostatní). Dále spočítáte Chíkvadrát test pro třídění 2. stupně a 3 stupně (odděleně pro věkové kategorie). Nakonec spočítáte adjustovaná residua a podle z-hodnot přidělíte znaménka pro statistickou významnot odchylek v jednotlivých polích tabulky (hranice znamének jsou: 1,96; 2,58 a 3,29).   Viz Chí-kvadrát test pro asociaci dvou znaků v kontingenční tabulce v presentaci  4.b Testování hypotéz (2) - Kategoriální znaky: Testy dobré shody (Chíkvadrát) (snímky cca 30-39 + 46-49)
10.(+6.) úkol (??/12/14, zadáno dopředu) Statistická významnost proměny (Jednodimenzionální Chíkvadrát test)   Data: ISSP 2007 (agregováno) a výsledky z výzkumu Šetření sociální diferenciace a Mobility 1967 [viz Machonin a kol. 1969]
Máme tabelární data o třídní struktuře mužů ze dvou reprezenativních výzkumů (náhodné výběry). Lze tvrdit, že se třídní struktura mezi lety 1967 (ČSR) a 2007 (ČR) proměnila?
rok 1967: nemanuální prac. 35,4 % manuální prac. 50,5 % zemědělci 14,1 %
rok 2007: nemanuální prac. 38,4 (168) manuální prac. 58,4 (255) zemědělci 3,2 (14); celkem 100 % (n 437).
Nápověda: Použijte jednodim. Chikvadrát test dobré shody (na hladine statistické významnosti Alfa = 5 %), kdy jako očekávané četnosti dosadíte podíl za rok 1967 (tj. nejprve "přerozdělíte absolutní četnosti roku 2007 podle podílů z roku 1967", tj. násobíte podíly za rok 1967 celkovou četnost z roku 2007). Viz Chí-kvadrát test pro homogenitu kategorií uvnitř jednoho znaku v presentaci  4.b Testování hypotéz (2) - Kategoriální znaky: Testy dobré shody (Chíkvadrát) (snímky cca 22-29 + 54-68), v úkolu ale nejde o rovnoměrné zastoupení četností kategorií, ale očekávané četnosti jsou dány strukturou z roku 1967.
11. úkol (??/12/14, zadáno dopředu)   Elaborace: kontingenční tabulka - třídění 3. st. a standardizace, parciální korelace   Data: ISSP 2007 
Existuje vztah mezi dosaženým vzděláním a frekvencí kouření? Promění se souvislost mezi kouřením a vzděláním při kontrole vlivu věku?
1. Zjistěte jaká je souvislost mezi kouřením a vzděláním v kontingenčních tabulkách. Nejprve rekódujete - dichotomizujete proměnnou frekvence kouření q18 na Kurak (hodnoty: Kuřák = 1+2=méně než jednu krabičku denně; resp. Nekuřák = max 3 Ano, ale jen příležitostně) a věk vek sloučíte do tří kategorií vek3kat (18-35; 36-59; 60+), vzdělání vzd3 v datech již je. Homogenitu četností – vztahy uvnitř věkových kategorií posuďte pomocí adekvátních koeficientů asociace. Vztahy v tabulce interpretujte.
2. V tabulce proveďte přímou standardizaci podle věku (jako kdyby všichni uvnitř vzdělanostních kategorií byli stejného věku). Jak se změní vztah mezi kouřením a vzděláním po kontrole vlivu věku?
3. (Navíc nepovinná část): Analyzujte to samé ale pomocí korelací pro původní původní kardinální/ordinální proměnné [q18 S3 vek]. Zjistěte nejprve jaká je korelace nultého řádu mezi kouřením a vzděláním, dále spočtěte parciální korelaci s kontrolou věku. Jaký je rozdíl v podílu vysvětlené variance ve frekvenci kouření pomocí vzdělání bez a po kontrole věku?
12. úkol (??/12/14, zadáno dopředu)  Poměry šancí (Odds ratio)    Data: ISSP 2007 
Jaká je šance, že muži, v porovnání s ženami (s30), budou číst Lidové noviny (q25_5) resp. deník Sport (q25_8)? Spočítejte Odds Ratio: 1. ručně dosazením do vzorce (výpočet dokumentujte - jak jste dosadili do vzorce; vstupní data získáte z absolutních četností v kontingenční tabulce) a to samé pak i v SPSS (taktéž příkaz CROSSTAB ale vylepšený o statistiku CMH), kde navíc spočtete i interval spolehlivosti pro OR. Výsledky interpretujte a to včetně intervalu spolehlivosti.

Zpět na hlavní stránku