en nulhypotese er en præcis erklæring om en befolkning, som vi forsøger at afvise med prøvedata.Vi tror normalt ikke, at vores nulhypotese (eller H0) er sand. Vi har dog brug for en præcis erklæring som udgangspunkt for statistisk signifikansprøvning.
Null-Hypotese Eksempler
Ofte -men ikke altid – null-hypotese, der er ingen sammenhæng eller forskel mellem variabler eller delpopulationer., Gerne så, at nogle typiske null hypoteser er:
- korrelationen mellem frustration og aggression er nul (korrelation-analyse);
- den gennemsnitlige indkomst for mænd er den samme som for kvinder (independent samples t-test);
- Nationalitet er (helt), der ikke er relateret til musik præference (chi-square uafhængighed-test).
- den gennemsnitlige befolkning, indkomst var lige over 2012 til og med 2016 (gentagne målinger ANOVA).
“Null” betyder ikke “nul”
en almindelig misforståelse er, at “null” indebærer “nul”. Dette er ofte, men ikke altid tilfældet., For eksempel kan en nulhypotese også angive detkorrelationen mellem frustration og aggression er 0.5.No nul involveret her og – selvom det er noget usædvanligt-helt gyldigt.
“null” i “null hypothesis” stammer fra “nullify”5: nullhypotesen er udsagnet om, at vi forsøger at afvise, uanset om det (ikke) angiver en nuleffekt.
Null hypotese test-Hvordan virker det?
Jeg vil gerne vide, om lykke er relateret til rigdom blandt hollandske folk. En tilgang til at finde ud af dette er at formulere en nulhypotese., Da “relateret til” ikke er præcis, vælger vi den modsatte udsagn som vores nulhypotese:sammenhængen mellem rigdom og lykke er nul blandt alle hollandske folk.Vi vil nu forsøge at tilbagevise denne hypotese for at demonstrere, at lykke og rigdom er relateret i orden.
nu kan vi ikke med rimelighed spørge alle 17.142.066 hollandske folk, hvor glade de generelt føler.
så vi spørger en prøve (siger 100 mennesker) om deres rigdom og deres lykke. Sammenhængen mellem lykke og rigdom viser sig at være 0,25 i vores prøve., Nu har vi et problem: prøveresultater har en tendens til at afvige noget fra befolkningsresultater. Så hvis korrelationen virkelig er nul i vores befolkning, Vi kan finde en ikke nul korrelation i vores prøve. For at illustrere dette vigtige punkt, tag et kig på scatterplot nedenfor. Det visualiserer en nul sammenhæng mellem lykke og rigdom for en hel befolkning på N = 200.
nu tegner vi en tilfældig prøve af n = 20 fra denne population (de røde prikker i vores tidligere scatterplot). Selvom vores befolkningskorrelation er nul, vi fandt en svimlende 0.,82 korrelation i vores prøve. Figuren nedenfor illustrerer dette ved at udelade alle ikke-samplede enheder fra vores tidligere scatterplot.
Dette rejser spørgsmålet om, hvordan vi nogensinde kan sige noget om vores befolkning, hvis vi kun har en lille prøve fra det. Det grundlæggende svar: Vi kan sjældent sige noget med 100% sikkerhed. Vi kan dog sige meget med 99%, 95% eller 90% sikkerhed.
Sandsynlighed
så hvordan virker det? Nå, dybest set er nogle prøveresultater meget usandsynlige i betragtning af vores nulhypotese., Som sådan viser figuren nedenfor sandsynlighederne for forskellige prøvekorrelationer (n = 100), hvis befolkningskorrelationen virkelig er nul.
En computer, vil let beregne disse sandsynligheder. Det kræver dog en prøvestørrelse (100 i vores tilfælde) og en formodet befolkningskorrelation ρ (0 i vores tilfælde). Så derfor har vi brug for en nulhypotese.
Hvis vi ser nøje på denne prøveudtagningsfordeling, ser vi, at prøvekorrelationer omkring 0 er mest sandsynlige: der er en 0.68 Sandsynlighed for at finde en sammenhæng mellem -0.1 og 0.1. Hvad betyder det?, Husk, at sandsynligheder kan ses som relative frekvenser. Så forestil dig, at vi ville tegne 1.000 prøver i stedet for den, vi har. Dette ville resultere i 1.000 korrelationskoefficienter og nogle 680 af dem-en relativ frekvens på 0,68 – ville være i området -0,1 til 0,1. Ligeledes er der en 0.95 (eller 95%) sandsynlighed for at finde en prøvekorrelation mellem -0.2 og 0.2.
P-værdier
Vi fandt en prøvekorrelation på 0,25. Hvor sandsynligt er det, hvis befolkningskorrelationen er nul?, Svaret er kendt som p-værdien (forkortelse for sandsynlighedsværdi):en p-værdi er sandsynligheden for at finde noget prøveresultat eller en mere ekstrem, hvis nulhypotesen er sand.I betragtning af vores 0.25 korrelation betyder “mere ekstrem” normalt større end 0.25 eller mindre end -0.25. Vi kan ikke fortælle fra vores graf, men den underliggende tabel fortæller os, at p 0 0.012. Hvis nulhypotesen er sand, er der en 1,2% Sandsynlighed for at finde vores prøvekorrelation.
konklusion?
Hvis vores befolkningskorrelation virkelig er nul, kan vi finde en prøvekorrelation på 0, 25 i en prøve på N = 100., Sandsynligheden for, at dette sker, er kun 0.012, så det er meget usandsynligt. En rimelig konklusion er, at vores befolkningskorrelation ikke var nul.
konklusion: vi afviser nulhypotesen. I betragtning af vores prøveresultat tror vi ikke længere, at lykke og rigdom ikke er relateret. Vi kan dog stadig ikke sige dette med sikkerhed.
Nulhypotese – begrænsninger
indtil videre konkluderede vi kun, at befolkningskorrelationen sandsynligvis ikke er nul. Det er den eneste konklusion fra vores nulhypotes tilgang, og det er ikke rigtig så interessant.,
det, vi virkelig ønsker at vide, er befolkningskorrelationen. Vores prøvekorrelation på 0,25 synes et rimeligt skøn. Vi kalder et sådant enkelt tal et punktestimat.
nu kan en ny prøve komme med en anden sammenhæng. Et interessant spørgsmål er, hvor meget vores prøvekorrelationer ville svinge over prøver, hvis vi ville tegne mange af dem. Figuren nedenfor viser netop det, idet vi antager vores stikprøvestørrelse på N = 100 og vores (punkt) estimat på 0,25 for befolkningskorrelationen.,
konfidensintervaller
Vores stikprøve resultat tyder på, at omkring 95% af de mange prøver, der skal komme op med en korrelation mellem 0,06 og 0.43. Dette interval er kendt som et konfidensinterval. Selvom det ikke er nøjagtigt korrekt, er det lettest dog som den båndbredde, der sandsynligvis vil omslutte befolkningskorrelationen.
En ting at bemærke er, at concidence intervallet er ret bredt. Det indeholder næsten en nulkorrelation, præcis den nulhypotese, vi afviste tidligere.,
En anden ting at bemærke er, at vores sampling distribution og konfidensinterval er lidt asymmetrisk. De er symmetriske for de fleste andre statistikker (såsom midler eller beta koefficienter), men ikke korrelationer.