De p-waarde (p-value) zal iedereen bekend voorkomen, die wel eens met statistiek te maken heeft. Vaak wordt gezegd: Als p<0,05 is een onderzochte variabele significant. Oftewel: p<0,05 wordt gezien als een bewijs van effect. Waarom mag dat zo niet gezien worden? En wat betekent p<0,05 in de praktijk dan wel?
(hierin staat p voor probability, ofwel kans)
Als we een variabele onderzocht hebben op zijn effect, dan is de p-waarde de kans dat het gevonden effect puur toeval geweest is. Dat wil zeggen: door de ruis (toevalsspreiding), die nu eenmaal onderdeel is van experimenteren, kan het toevallig lijken dat er een effect is, hoewel de oorzaak daarvan ligt in de ruis, en niet in de onderzochte variabele.
Dat betekent dus dat de kans dat het in ons experiment gevonden effect puur toeval is, gelijk is aan 0,1% (1 op 1000). Er is dus maar een hele kleine kans dat het door ons gevonden effect tot stand gekomen is door puur toeval. Als de kans op puur toeval heel klein is, dan ligt het voor de hand om aan te nemen dat dit effect geen toeval is, en inderdaad veroorzaakt werd door onze onderzochte variabele. We zeggen dan dat de onderzochte variabele een significant effect heeft.
Dat betekent dan dat de kans dat het in ons experiment gevonden effect puur toeval is, gelijk is aan 50%. Omdat de kans behoorlijk groot is dat het gevonden effect veroorzaakt werd door toeval, zullen we ons niet comfortabel voelen bij de stelling dat het gevonden effect veroorzaakt werd door de onderzochte variabele. We zeggen dan dat de onderzochte variabele geen significant effect heeft.
Dat betekent dus dat de kans dat het in ons experiment gevonden effect puur toeval is, gelijk is aan 4% (1 op 25). Er is dus maar een vrij kleine kans dat het door ons gevonden effect tot stand gekomen is door puur toeval. Als de kans op puur toeval vrij klein is, dan ligt het meer voor de hand om aan te nemen dat dit effect geen toeval is, en inderdaad veroorzaakt werd door onze onderzochte variabele. We zeggen dan dat de onderzochte variabele een significant effect heeft. De grens voor significantie die erg vaak gekozen wordt, ligt bij p<0,05.
Een p-waarde van 0,05 of minder, wordt bestempeld als bewijs voor significantie van een onderzochte variabele. Het gaat mis bij de omzetting van de kans p<0,05 naar “bewijs”. Waarom? Een kans van 0,05 (zijnde 5%, 1 op 20) betekent dat als ik 20 mogelijke variabelen onderzoek in experimenten, ik gemiddeld genomen één variabele als “significant” ga beschouwen. In de praktijk betekent dit dat ik waarschijnlijk nul, één of twee variabelen van die 20 ten onrechte ga beschouwen als significant, terwijl het gevonden effect wellicht puur toeval was. Dat is heel gevaarlijk, want het gevolg zal zijn dat conclusies, vervolgwerk of vervolgexperimenten zullen uitgaan van dit “bewijs”. En daarmee zullen verkeerde richtingen ingeslagen worden en resources verspild worden. Onbegrepen resultaten zullen waarschijnlijk volgen, die weer zullen leiden tot nog meer verspilling van resources.
Een p-waarde die in de buurt ligt van 0,05 (grofweg tussen 0,1 en 0,01), dient opgevat te worden als een uitnodiging tot verder onderzoek. Althans, als de kosten/baten van het verdere onderzoek dat logisch maken. Feitelijk kun je stellen dat de al verzamelde hoeveelheid data voldoende geweest is om interesse te wekken, maar niet voldoende om een harde conclusie te trekken dat de onderzochte variabele echt effect heeft. Eén manier van verder onderzoek kan dus zijn om eenvoudigweg (behoorlijk wat) meer data te verzamelen onder gelijke condities als voorheen. Indien de onderzochte variabele werkelijk effect heeft, zal dat gaan blijken uit een lagere p-waarde. Indien de onderzochte variabele geen werkelijk effect heeft (de eerder gevonden p-waarde in de buurt van 0,05 was gewoon toeval), dan zal de nieuwe p-waarde waarschijnlijk hoger uitvallen.
Bovenstaande eenvoudige handelwijze kan dus veel tijd en resources besparen. Bovendien is het altijd prettiger om logica te zien, dan om een regeltje blind toe te passen.
Natuurlijk valt er meer te zeggen over p-waardes, of over strategieën om daar goed mee om te gaan. Denk aan power-berekeningen of aan andere vervolgstrategieën (anders dan gewoon meer data verzamelen onder gelijke condities).
In alle cursussen van Quality Target komen deze aspecten uitgebreider aan bod. Afhankelijk van uw werkveld, kunnen die cursussen wel verschillen. Denk aan productieafdelingen, R&D afdelingen of laboratoria, met onderwerpen als data-analyse, design of experiments of validaties. Naast begrip van wat p-waardes zijn, werken we ook met software als Excel of Minitab als manier om snel tot antwoorden te komen. De trainingen zijn te volgen via open-inschrijving en/of via in-company.
Kijk eens op https://quality-target.nl/cursussen.
Of neem even contact op voor snel en kort maatwerk. Dat kan bij Quality Target veel makkelijker en goedkoper dan u gewend bent.
Neem contact op