Statistical Significance (Istotność statystyczna) i wartość p dla Growth Hackerów
Jeśli czytasz tego bloga już od jakiegoś czasu i przeprowadzasz eksperymenty, to istota statystyczna powinna już Ci się kojarzyć.
Istota statystyczna to rodzaj metryki, który pozwala Ci zdecydować, że eksperyment, który przeprowadzasz oraz jego wyniki można traktować jako "prawdziwe". Cudzysłów nie jest tu przypadkiem. Spójrz na poniższy przykład:
Mamy tutaj bardzo prosty test. To co nas interesuje, to treść po prawej stronie oraz zdanie " I am 97% certain, that the changes in Test "B" will improve your conversion rate".
Kalkulator jest w 97% pewien, że opcja B jest lepsza.
ALE.
Mamy tu kilka problemów. Przede wszystkim istota statystyczna nie mówi nam o tym, że coś jest w jakimkolwiek stopniu lepsze od czegoś innego. Czyli twierdzenie kalkulatora jest błędne. Samo korzystanie z tego typu narzędzi jest jak najbardziej w porządku, jednak musisz uwazać na komunikację, która tam często panuje, bo to może wprowadzić Cię w błąd. Są ok, to obliczeń. Nie są ok do przepisywania wniosków.
Wracając, spójrz na ten przykład:
Kalkulator mówi nam, że jest w 78% pewien, że zmiaby w opcji B są właściwe, jednak ostatnie zdanie mówi nam, że wynik nie jest Istotny statystycznie. Wynika to z tego, że wynik jest istotny statystycznie, jeśli jego wynik istoty wyniesie 95%. Poniżej tego, nie ma istotności.
Ok, jednak 78% to nie jest tak mało, prawda? To może Ci zasugerować, że właściwie eksperyment był ok, i warto go wdrożyć. To jest kolejna pułapka, tego typu kalkulatorów. Mówią tylko o istocie statystycznej. Jednak kiedy sprawdzimy prace statystyków, niezależnie od dziedziny, którą badają. Od testów A/B czy ekonomii, odnoszą się oni nie do istoty statystycznej, a do wartości p (p-value).
I teraz będę przewrotny, bo w istocie statystycznej chodzi właśnie o p-value. Spójrz na definicję:
Wartość p jest prawdopodobieństwem uzyskania wyników co najmniej tak skrajnych, jak wyniki rzeczywiście obserwowane, przy założeniu, że hipoteza zerowa jest poprawna.
Nieźle prawda?
Spoko, ja też nie kumam tej definicji. Więc zerknij na poniższy obrazek i dalej pokażę Ci o co chodzi:
I teraz wyjaśniam na przykładzie:
Wyobraź sobie, że wracasz do domu, i widzisz że Twój ulubiony kwiatek, będący na parapecie leży teraz na podłodze, dookoła wszędzie jest ziemia, na ziemi kilka śladów kocich łapek, obok Twój kot. Jak nigdy nic, oblizuje sobie łapkę, jednak nie zdążył wyczyścić nosa od ziemii. Zanim wyciągniesz konsekwencje od futrzaka, warto byłoby poddać go sądowi i wywnioskować czy jest on winny, czy też nie?
To, od czego musisz zacząć to hipoteza zerowa. Hipoteza zerowa, to hipoteza zerowa w skrócie oznacza, że czegoś nie ma, że coś się nie wydarzyło.
Czyli w naszym przypadku, hipoteza zerowa = Kot nie strącił kwiatka z parapetu.
Jednak na podstawie dowodów, które zebraliśmy, dochodzimy do hipotezy alternatywnej, czyli przeciwieństwo zerowej. W naszym przypadku = ten futrzak z premedytacją strącił kwiatka, bo kupiłem mu inną karmę, która mu nie smakuje.
I teraz. Wartość p to obliczenie prawdopodobieństwa, że hipoteza zerowa jest prawdziwa.
Czyli wartość p powie nam jakie są szanse na to, że kot nie strącił tego kwiatka, ponieważ zadziało się coś zupełnie alternatywnego. Np. kwiatek sam postanowił spaść, lub niewielkie ruchy tektoniczne spowodowały, że kwiatek się przesunął? To należy zbadać.
I teraz, jeśli jest małe prawdopodobieństwo, że hipoteza zerowa jest prawdziwa, czyl w języku styatstycznym:
p < 0,05
Wtedy odrzucamy hipotezę zerową i przyjmujemy hipotezę alternatywną. Czyli kot jest winny.
Dlatego wracając do naszego przykłądu kalkulatora. To, że osiągnęliśmy wynik 78% oznacza, że istnieje 22% szansa, że taki wynik mógłbym osiągnąć również za pomogą hipotezy zerowej.
To bardzo dużo. To również wiele zmienia, prawda?
Więc pamiętaj proszę, żeby obserwować swoją wartość p, trzymaj się reguły, żeby wartość p nie przekraczała 5%, wtedy masz pewność, że Twoja hipoteza alternatywna faktycznie powinna zostać wdrożona.