Rule of Sturges Uitleg, toepassingen en voorbeelden



de Sturges regel is een criterium dat wordt gebruikt om het aantal klassen of intervallen te bepalen dat nodig is om een ​​set statistische gegevens grafisch weer te geven. Deze regel werd in 1926 afgekondigd door de Duitse wiskundige Herbert Sturges.

Sturges stelde een eenvoudige methode voor, gebaseerd op het aantal monsters x dat het vinden van het aantal klassen en hun bereikamplitude mogelijk maakte. De Sturges-regel wordt veel gebruikt, met name op het gebied van statistiek, met name om frequentiehistogrammen te bouwen.

index

  • 1 Toelichting
  • 2 toepassingen
  • 3 Voorbeeld
  • 4 Referenties

toelichting

De Sturges-regel is een empirische methode die veel wordt gebruikt in beschrijvende statistieken om het aantal klassen te bepalen dat moet bestaan ​​in een frequentiehistogram, om een ​​reeks gegevens te classificeren die een steekproef of populatie vertegenwoordigen.

In principe bepaalt deze regel de breedte van de grafische containers, de frequentiehistogrammen.

Om zijn regel vast te stellen, beschouwt Herbert Sturges een ideaal frequentiediagram, dat uit K-intervallen bestaat, waarbij het i-de interval een bepaald aantal monsters bevat (i = 0, ... k - 1), weergegeven als:

Dat aantal monsters wordt gegeven door het aantal manieren waarop een subset van een set kan worden geëxtraheerd; dat wil zeggen, met de binomiale coëfficiënt, uitgedrukt als volgt:

Om de uitdrukking te vereenvoudigen, paste hij de eigenschappen van de logaritmen toe in beide delen van de vergelijking:

Sturges stelde dus vast dat het optimale aantal intervallen k wordt gegeven door de uitdrukking:

Het kan ook worden uitgedrukt als:

In deze uitdrukking:

- k is het aantal klassen.

- N is het totale aantal waarnemingen van het monster.

- Log is de gemeenschappelijke logaritme van base 10.

Als u bijvoorbeeld een frequentiehistogram wilt maken dat een willekeurig monster van de hoogte van 142 kinderen weergeeft, is het aantal intervallen of klassen dat de verdeling zal hebben:

k = 1 + 3,322 * logboek10 (N)

k = 1 + 3,322* log (142)

k = 1 + 3,322* 2,1523

k = 8,14 ≈ 8

De verdeling zal dus in 8 intervallen zijn.

Het aantal intervallen moet altijd worden weergegeven door gehele getallen. In gevallen waarin de waarde decimaal is, moet een benadering van het dichtstbijzijnde gehele getal worden gemaakt.

toepassingen

De regel van Sturges wordt voornamelijk toegepast in statistieken, omdat het een verdeling van frequenties mogelijk maakt door de berekening van het aantal klassen (k), evenals de lengte van elk van deze, ook bekend als amplitude.

De amplitude is het verschil tussen de boven- en ondergrenzen van de klasse, gedeeld door het aantal klassen, en wordt uitgedrukt:

Er zijn veel empirische regels die een frequentieverdeling mogelijk maken. De Sturges-regel wordt echter vaak gebruikt omdat deze het aantal klassen benadert, dat in het algemeen varieert van 5 tot 15.

Overweeg op deze manier een waarde die een steekproef of populatie adequaat weergeeft; dat wil zeggen, de benadering vertegenwoordigt geen extreme groeperingen, en werkt ook niet met een buitensporig aantal klassen die het samenvatten van het monster niet toestaan.

voorbeeld

Het is noodzakelijk om een ​​frequentiehistogram uit te voeren volgens de gegeven gegevens, overeenkomend met leeftijd verkregen in een onderzoek van mannen die oefeningen doen in een lokale sportschool.

Om de intervallen te bepalen, moet u weten wat de omvang van het monster of het aantal waarnemingen is; in dit geval heb je 30.

Dan is de Sturges-regel van toepassing:

k = 1 + 3,322 * logboek10 (N)

k = 1 + 3,322* log (30)

k = 1 + 3,322* 1,4771

k = 5,90 ≈ 6 intervallen.

Uit het aantal intervallen kan de amplitude worden berekend die deze zullen hebben; dat wil zeggen, de breedte van elke balk weergegeven in het frequentiehistogram:

De ondergrens wordt beschouwd als de laagste waarde van de gegevens en de bovengrens is de hoogste waarde. Het verschil tussen de boven- en ondergrens wordt het bereik of pad van de variabele (R) genoemd.

Van de tafel hebben we dat de bovenlimiet 46 is en de onderste limiet 13; op die manier zal de amplitude van elke klasse zijn:

De intervallen zullen bestaan ​​uit een boven- en onderlimiet. Om deze intervallen te bepalen, begint u te tellen vanaf de onderste limiet, en voegt u de amplitude als bepaald door regel (6) als volgt toe:

Vervolgens wordt de absolute frequentie berekend om het aantal mannen te bepalen dat overeenkomt met elk interval; in dit geval is het:

- Interval 1: 13 - 18 = 9

- Interval 2: 19 - 24 = 9

- Interval 3: 25 - 30 = 5

- Interval 4: 31 - 36 = 2

- Interval 5: 37 - 42 = 2

- Interval 6: 43 - 48 = 3

Bij het optellen van de absolute frequentie van elke klasse, moet deze gelijk zijn aan het totale aantal van de steekproef; in dit geval 30.

Vervolgens wordt de relatieve frequentie van elk interval berekend, waarbij de absolute frequentie van dit interval wordt gedeeld door het totale aantal waarnemingen:

- Interval 1: fi = 9 ÷ 30 = 0,30

- Interval 2: fi = 9 ÷ 30 = 0,30

- Interval 3: fi = 5 ÷ 30 = 0,1666

- Interval 4: fi = 2 ÷ 30 = 0.0666

- Interval 5: fi = 2 ÷ 30 = 0.0666

- Interval 4: fi = 3 ÷ 30 = 0,10

Vervolgens kunt u een tabel maken die de gegevens weergeeft, en ook het diagram van de relatieve frequentie in relatie tot de verkregen intervallen, zoals te zien is in de volgende afbeeldingen:

Op deze manier kunt u met de Sturges-regel het aantal klassen of intervallen bepalen waarin een steekproef kan worden opgesplitst om een ​​steekproef van gegevens samen te vatten door tabellen en grafieken voor te bereiden..

referenties

  1. Alfonso Urquía, M.V. (2013). Modellering en simulatie van discrete gebeurtenissen. UNED,.
  2. Altman Naomi, M.K. (2015). "Simple Linear Regression." Nature Methods .
  3. Antúnez, R. J. (2014). Statistieken in het onderwijs. Digitale UNID.
  4. Fox, J. (1997.). Toegepaste regressieanalyse, lineaire modellen en gerelateerde methoden. SAGE-publicaties.
  5. Humberto Llinás Solano, C. R. (2005). Beschrijvende statistiek en kansverdelingen. Universiteit van het noorden.
  6. Panteleeva, O. V. (2005). Fundamentals of Probability and Statistics.
  7. O. Kuehl, M. O. (2001). Design of Experiments: Statistical Principles of Design and Research Analysis. Thomson Editors.