Czy sondaże powinny być interpretowane dosłownie?

Data publikacji: cze 28, 2020

Sławomir Zabawa

Lean Six Sigma Master Black Belt z ponad 8 letnim doświadczeniem w zakresie zarządzania i optymalizacji procesów FMCG dla światowych liderów rynku spożywczego i opakowań szklanych.



Komentarze:0

Kampania wyborcza weszła w decydujący okres. Codziennie jesteśmy zasypywani nowymi sondażami wyborczymi. Dlaczego w czasie wyborów robi się tyle sondaży? Dlaczego różnią się od siebie? Jak interpretować te informacje? Dlaczego niektórzy kandydaci używają tzw. „Wozu z orkiestrą”? Odpowiedzi na te pytania znajdziecie w tekście poniżej.

Zanim zaczniemy odpowiadać na pytania, cofniemy się pięć lat wstecz i prześledzimy dwie informacje:

78% Amerykanów uważało, że wybory prezydenckie w 2015 roku wygra Hilary Clinton a Donald Trump nie będzie miał szans na wygraną,
To samo zjawisko zaobserwowaliśmy też w naszym kraju – 52% Polaków deklarowało poparcie dla Bronisława Komorowskiego, a tylko 15% dla Andrzeja Dudy.

Te dwie informacje mają jeden wspólny mianownik. Jest nim wygrana kandydatów, którzy nie mieli szans w sondażach. To zjawisko zmotywowało mnie do przyjrzenia się bliżej, jak wygląda opracowywanie sondaży. Jak to możliwe, że w plebiscycie na tak prestiżowy urząd przewidywania były tak bardzo chybione?

By zrozumieć genezę błędu, musimy dowiedzieć się czym jest estymacja.

W tym celu posłużymy się poniższym przykładem. W 2002 roku przeprowadzono badanie, podczas którego zadano ankietowanym pytanie dotyczące udziału w wyborach parlamentarnych i prezydenckich.

Poniżej widzimy dokładnie zadane pytania:

Czy brałeś udział w wyborach prezydenckich w 2000 roku?
Czy brałeś udział w wyborach parlamentarnych w 2001 roku?

W ankiecie wzięły udział 2473 osoby dorosłe. Wyniki pokazały, że 73,9% ankietowanych potwierdziło udział w wyborach prezydenckich, a 60,7% osób potwierdziło udział w wyborach parlamentarnych. Do badania przystąpiło blisko 2500 osób, co powinno wskazywać, że jest to próba reprezentatywna. Ponadto możemy uznać, że te liczby odzwierciedlają realne nastroje społeczne w wyżej wymienionej sprawie. Czy tak powinniśmy to interpretować w rzeczywistości?

Wielkość próby jest duża nawet jak na badania społeczne. Z pewnością robi na Tobie wrażenie. Gdybyś to Ty miał przeprowadzić podobne badanie, pewnie udałoby Ci się zapytać o zdanie 50, no może maks 100 osób. Widzisz więc, że twój zbiór wyników byłby co najmniej 25 razy mniejszy. Twój pierwszy nasuwający się wniosek będzie pewnie brzmiał:

„Wnioski płynące z moich wyników nie są reprezentatywne dla całej populacji”.

By potwierdzić, że odpowiedź nie jest tak oczywista, porównajmy wyniki odpowiedzi grupy 2473 i 100 osobowej. Zauważymy wtedy, że wyniki nie różnią się pomiędzy sobą znacząco. (60,7%-59%=1,7%). Czy wobec tego jest potrzeba ankietowania tak dużej liczby osób?

Przy kolejnym zmniejszeniu próby do 50 osób różnica wyniosła 3,3%,a przy zmniejszeniu do 30 osób 17,4%. Dodatkowo sprawdzono wynik dla 10 badanych i różnica wyniosła 10,7%. Powstaje więc pytanie, jak duży wpływ na dokładność szacunków ma liczebność próbki?

Patrząc na powyższe informacje należy przyjąć, że wraz z malejącą wielkością próby otrzymane szacunki będą coraz bardziej mniej precyzyjne. Wniosek? Zanim zaczniemy interpretować dane, należy zapytać o wielkość próby. Wynika to z ,,prawa małych liczb”, a tak naprawdę prawidłowego nazwania pierwszego typu błędu estymacji wyników. Zgodnie z tą zasadą popełniamy często błąd, gdyż zakładamy że prawidłowości statystyczne dla dużej grupy powinny ujawnić się również w małej próbie, oczywiście przy założeniu, że mała próba pochodzi z losowo pobranych wyników z próby dużej.

Brak alternatywnego tekstu dla tego zdjęcia

Pójdźmy dalej z prawem małych liczb. Jeśli z całej próby 2473 osób wylosujemy 10 wyników. Dowiemy się tylko o preferencji tych osób, a nie całej grupy. Widać to bardzo wyraźnie na wykresie obok. Możemy potwierdzić sobie jak złudne potrafią być wnioski przy małej sile próby.

Prawo wielkich liczb Jakuba Bernoulliego

Jeśli myślimy o lepszym szacowaniu wyników, powinniśmy poznać podstawową zasadę rachunku prawdopodobieństwa.

,,Jeżeli z dowolnej populacji X wylosujemy wiele zestawów próbek o tej samej liczebności n – elementowej i wyliczymy dla nich średnią arytmetyczną, to prawdopodobieństwo, że średnia arytmetyczna z tych średnich będzie taka sama jak średnia populacji X i zbliża się do 1 wraz z wzrostem liczebności tych próbek.

Tłumacząc na nasz język, im większa wielkość zestawów próbek (50,100,200,500), tym większa pewność że średnia ze średnich obliczonych dla wszystkich próbek będzie taka sama jak średnia dla całej populacji.

Jak widzimy, pierwszą zasadą przy dobrym szacowaniu jest dobranie właściwej ilości próbek, które zapewnią nas że uzyskany wynik prezentuje realne oczekiwania społeczne. Do uzyskania tego celu należy kierować się wcześniej wspomnianą zasadą. Czy to jednak wystarczy na precyzyjną odpowiedź na pytanie, który kandydat ma największe zaufanie w społeczeństwie?

Strategia próbkowania podstawą dobrych estymacji

Załóżmy że sondaż dotyczący wyborów będzie obejmował grupę 3000 osób i będzie pokazywał tendencje wyborcze względem 6 kandydatów. Dane zostały zebrane we Wrocławiu. Wyniki wyglądają następująco:

Kandydat A – 42%
Kandydat B – 31%
Kandydat C – 12%
Kandydat D – 6%
Kandydat E – 3%
Kandydat F – 3%

Czego dowiedzieliśmy się z takiego wyniku sondażu? Wiemy, że kandydat A cieszy się w badanym regionie największą popularnością. Czy możemy przełożyć to w skali całego kraju? Zastanówmy się, jak wyglądałyby wyniki kolejnych trzech sondaży, gdyby odbyły się one z osobna w Gdańsku, Krakowie i Olsztynie. Czy wyniki sondaży byłyby jednakowe ? Odpowiedź brzmi nie. Jak wiemy z poprzednich artykułów, analiza danych bez szerszego kontekstu nie wnosi nic wartościowego. Ta sama zasada jest istotna w kwestii planu próbkowania i przeprowadzania sondaży. Przy planowaniu próbkowania należy zadać sobie pytanie, jakie charakterystyki są istotne w procesie wyborczym. Jak będą wyglądały preferencje ze względu na wiek, płeć, region, grupę społeczną, kolor skóry czy nawet miejsce bądź formę zbierania danych.

To właśnie najprawdopodobniej zła strategia zbierania danych w 2015 roku wpłynęła decydująco na wygraną kandydatów z drugiego miejsca. Zespoły realizujące badanie nie brały pod uwagę wszystkich grup z cechami powyżej. Zła strategia próbkowania oraz obniżenie poziomu ufności spowodowało, że błędy szacunkowe były nie do zaakceptowania. Efektywność próbkowania zawsze będzie kwestią oczekiwanych korzyści do zainwestowanych zasobów. Ryzykowne obniżenie wielkości próby, czy uproszczenie strategi próbkowania prowadzi do tego typu błędów.

Dlaczego wobec powyższego sondaże stosowane są tak chętnie w polityce?

Odpowiedzią na to pytanie jest znajomość przez kandydatów jednego z ważniejszych efektów społecznych. Mówimy o efekcie ,,Bandwagon – wóz z orkiestrą„. Termin ten określa zjawisko mody w procesach wyboru. Mówiąc wprost, zdecydowana większość głosujących przy oddaniu głosu kieruje się zasadą ,,Zagłosuję na tego, który i tak ma największe szanse na wygraną”. Ta zasada pójścia za tłumem jest najczęściej stosowana właśnie w polityce. Pozwala na tworzenie samowzmacniających się cykli, w których wybrani kandydaci zyskują przewagę.

Sama metoda jest z zasady racjonalna. Jesteśmy ludźmi i dokonujemy wyborów, które są najczęściej popularne. Istnieje duża szansa, że nasze preferencje będą podobne do preferencji całej grupy i dlatego, jeśli nie ma innych, istotnych czynników – należy wybrać bardziej popularną opcję. Jednak ludzie z reguły są skłonni ignorować inne czynniki i dokonywać wyborów wyłącznie na podstawie ,,mody”. Ponadto efekt ten staje się silniejszy wraz ze wzrostem popularności jednego wyboru. Tłumaczy to, dlaczego tak chętnie sondaże stosowane są w ostatnich tygodniach wyborów.

Skąd wiemy, że ten efekt działa.

Badania w tej sprawie przeprowadzono w ramach jednego z wielu eksperymentów społecznych. W jednej ze szkół, poproszono o fikcyjny wybór kandydata w procesie wyborów. Przed rozpoczęciem głosowania przedstawiono fikcyjny kontekst, w którym jeden z kandydatów lepiej wypadał w sondażu. Efekt? uczniowie znacząco chętniej zagłosowali na promowanego kandydata.

Czym wobec tego należałoby się kierować?

Wybór kandydatów powinien przebiegać w oparciu o zgodność programu kandydata z naszymi przekonaniami,
Rewizji doświadczenia oraz zaplecza politycznego kandydata,
Traktowanie sondaży jako dodatkowego ale subiektywnego źródła informacji,
Przed rozpoczęciem interpretacji sondaży należałoby dowiedzieć się w jaki sposób została skonstruowana metoda próbkowania,
Interpretacja wyników dla sondaży z wyższym niż 5% przedziałem ufności, może nas wprowadzać w błąd.

Moją intencją było zwrócenie Waszej uwagi na sposób prezentowania i interpretowania danych sondażowych. Szczególnie tych, które mogą mieć kluczowe znaczenie. Nie twierdzę, że sondaże są złe. Jestem zdania, że jest to jedno z najlepszych narzędzi do prognozowania. Ważne by pamiętać o wcześniej wspominanych zasadach przy zbieraniu danych.

W artykule brakuje informacji o innych, istotnych charakterystykach takich jak: poziom ufności, estymacja przedziałowa i estymacja punktowa. Jeśli jesteście zainteresowani rozwinięciem tych terminów, potwierdźcie proszę zostawiając swój komentarz.

Za chwilę każdy z będzie mógł zagłosować. Podzielcie się proszę, czym się sugerujecie przy wyborze kandydata?

Źródła:

Piotr Francuz, Robert Mackiewicz. ,,Liczby nie wiedzą, skąd pochodzą” Lublin 2007,
https://www.investopedia.com/terms/b/bandwagon-effect.asp

Powrót do strony głównej

0 komentarzy

Wyślij komentarz Anuluj pisanie odpowiedzi

Witryna wykorzystuje Akismet, aby ograniczyć spam. Dowiedz się więcej jak przetwarzane są dane komentarzy.