What is a chi square test?

Testul Chi-Pătrat de Adecvare a Potrivirii

29/12/2021

Rating: 4.79 (14819 votes)

În lumea complexă a datelor și a cercetării, capacitatea de a determina dacă un set de observații se potrivește cu o distribuție teoretică așteptată este fundamentală. Aici intervine Testul Chi-Pătrat de Adecvare a Potrivirii, un instrument statistic puternic și versatil, esențial pentru orice analist de date, cercetător sau pur și simplu pentru oricine dorește să înțeleagă mai bine fenomenele din jurul său. Acest test ne permite să evaluăm dacă diferențele dintre ceea ce observăm într-un eșantion și ceea ce ne-am aștepta să vedem pe baza unei ipoteze specifice sunt semnificative din punct de vedere statistic sau pur și simplu rezultatul întâmplării.

What is a chi square test?
It is also referred to as the Chi-Square test for uniformity, the Chi-Square test of independence or the Chi-Square test for goodness of fit. The test compares the observed data with the expected data and determines whether the differences between them are statistically significant.

De la verificarea conformității producției într-o fabrică până la analiza distribuției genetice într-o populație, aplicabilitatea acestui test este vastă. În esență, testul Chi-Pătrat de Adecvare a Potrivirii (cunoscut și sub denumirea de Chi-Pătrat de uniformitate sau Chi-Pătrat de independență în anumite contexte, deși cel mai precis este primul) compară frecvențele observate dintr-un eșantion cu frecvențele așteptate, derivate dintr-o anumită ipoteză sau distribuție teoretică. Scopul final este de a decide dacă eșantionul nostru provine dintr-o populație care respectă distribuția teoretică specificată. Să explorăm în detaliu când și cum se utilizează acest test crucial.

Cuprins

Când se utilizează Testul Chi-Pătrat de Adecvare a Potrivirii?

Testul Chi-Pătrat de Adecvare a Potrivirii este potrivit în anumite condiții specifice, care asigură validitatea rezultatelor sale. Este crucial să înțelegem aceste condiții înainte de a aplica testul:

  • Variabilă Categorică Unică: Testul este aplicat atunci când aveți o singură variabilă categorică dintr-o singură populație. Această variabilă trebuie să aibă mai mult de două niveluri (categorii). Dacă există exact două categorii, un test Z pentru o singură proporție ar putea fi mai adecvat.
  • Eșantionare Aleatoare Simplă: Metoda de eșantionare trebuie să fie eșantionare aleatoare simplă. Aceasta înseamnă că fiecare membru al populației are o șansă egală și independentă de a fi selectat în eșantion.
  • Dimensiunea Populației (N) vs. Dimensiunea Eșantionului (n): Dimensiunea populației (N) ar trebui să fie de cel puțin 10 ori mai mare decât dimensiunea eșantionului (n). Această condiție ajută la asigurarea independenței observațiilor și la validitatea aproximării distribuției Chi-Pătrat.
  • Datele sunt Numărări, nu Medii sau Procente: Datele sub studiu trebuie să fie frecvențe sau numărări brute ale observațiilor în fiecare categorie, nu medii sau procente.
  • Frecvența Așteptată în Fiecare Categorie: Valoarea așteptată (frecvența teoretică) a numărului de observații în ecare nivel al variabilei trebuie să fie de cel puțin 5. Dacă orice frecvență așteptată este mai mică de 5, rezultatele testului Chi-Pătrat pot fi nesigure, și ar trebui considerate metode alternative, cum ar fi testele de randomizare.

Respectarea acestor condiții este esențială pentru a obține concluzii valide și fiabile din aplicarea Testului Chi-Pătrat de Adecvare a Potrivirii.

Pașii Generali ai Testării Ipotezelor

Indiferent de testul statistic implicat, procedura generală de testare a ipotezelor urmează de obicei cinci pași fundamentali. Această abordare structurată asigură rigoare și claritate în procesul de luare a deciziilor statistice. Să aplicăm acești pași specific Testului Chi-Pătrat de Adecvare a Potrivirii.

1. Formularea Ipotezelor

Fiecare test de ipoteză necesită formularea unei ipoteze nule (H0) și a unei ipoteze alternative (Ha). Acestea sunt formulate astfel încât să fie reciproc exclusive: dacă una este adevărată, cealaltă trebuie să fie falsă. Pentru un test Chi-Pătrat de Adecvare a Potrivirii, ipotezele iau următoarea formă:

  • Ipoteza Nulă (H0): Datele sunt consistente cu o distribuție specificată. Aceasta afirmă că nu există o diferență semnificativă între frecvențele observate și cele așteptate.
  • Ipoteza Alternativă (Ha): Datele nu sunt consistente cu o distribuție specificată. Aceasta sugerează că cel puțin una dintre proporțiile specificate în ipoteza nulă este falsă, adică există o diferență semnificativă.

De obicei, ipoteza nulă (H0) specifică proporția observațiilor la fiecare nivel al variabilei categorice.

2. Alegerea Nivelului de Semnificație (α)

Nivelul de semnificație (α) este probabilitatea de a respinge ipoteza nulă atunci când aceasta este de fapt adevărată (o eroare de Tip I). Este o valoare predefinită de cercetător înainte de a începe analiza. Cele mai comune niveluri de semnificație sunt 0.01, 0.05 sau 0.10. Un α de 0.05 înseamnă că suntem dispuși să acceptăm o șansă de 5% de a face o eroare de Tip I.

3. Calculul Statisticii Testului

Testul Chi-Pătrat de Adecvare a Potrivirii necesită calcularea gradelor de libertate (df) pentru statistica testului, a frecvențelor așteptate pentru fiecare categorie a variabilei și a statisticii testului Chi-Pătrat în sine. Formulele necesare sunt:

  • Grade de libertate (df): df = k - 1, unde k este numărul de niveluri (categorii) ale variabilei categorice.
  • Frecvențe așteptate (Ei): Ei = n * pi, unde Ei este frecvența așteptată pentru a i-a categorie, n este dimensiunea totală a eșantionului, iar pi este proporția ipotetizată din ipoteza nulă pentru a i-a categorie.
  • Statistica Testului Chi-Pătrat (χ²): χ² = Σ [ (Oi - Ei)² / Ei ], unde Oi este frecvența observată pentru a i-a categorie, iar Ei este frecvența așteptată pentru a i-a categorie. Această formulă măsoară discrepanța dintre frecvențele observate și cele așteptate. Un χ² mare indică o diferență semnificativă.

Formula pentru χ² este un indicator al cât de mult diferă datele observate de cele așteptate. Cu cât această valoare este mai mare, cu atât este mai puțin probabil ca diferențele să fie datorate întâmplării.

What is a chi square test?

4. Găsirea Valorii P

Valoarea P este probabilitatea de a observa o statistică a eșantionului la fel de extremă sau mai extremă decât statistica testului calculată, presupunând că ipoteza nulă este adevărată. Pentru a găsi valoarea P pentru o statistică Chi-Pătrat cu grade de libertate egale cu df, se utilizează un tabel de distribuție Chi-Pătrat sau un software statistic. O valoare P mică sugerează că rezultatele observate sunt improbabile sub ipoteza nulă.

5. Interpretarea Rezultatelor

Ultimul pas este interpretarea rezultatelor. Dacă constatările eșantionului sunt improbabile, având în vedere ipoteza nulă, cercetătorul respinge ipoteza nulă. Aceasta implică compararea valorii P cu nivelul de semnificație (α). Regula de decizie este simplă:

  • Dacă Valoarea P < α: Respingeți ipoteza nulă. Există dovezi suficiente pentru a concluziona că datele observate nu sunt consistente cu distribuția specificată.
  • Dacă Valoarea P ≥ α: Nu respingeți ipoteza nulă. Nu există suficiente dovezi pentru a concluziona că datele observate nu sunt consistente cu distribuția specificată. Aceasta nu înseamnă că ipoteza nulă este adevărată, ci doar că nu avem dovezi suficiente pentru a o respinge.

Este, de asemenea, important să rețineți contextul și condițiile de aplicabilitate ale testului atunci când interpretați rezultatele.

Exemple Practice de Aplicare

Pentru a înțelege mai bine cum funcționează Testul Chi-Pătrat de Adecvare a Potrivirii, să analizăm câteva exemple practice.

Exemplul 1: Cărți de Baseball

Compania Acme Toy produce cărți de baseball și susține că 30% dintre cărțile sale sunt pentru începători (rookies), 60% sunt veterani dar nu All-Stars, și 10% sunt veterani All-Stars. Să presupunem că un eșantion aleatoriu de 100 de cărți conține 50 de începători, 45 de veterani și 5 All-Stars. Este acest rezultat consistent cu afirmația Acme? Vom folosi un nivel de semnificație de 0.05.

Soluție:

  1. Formularea ipotezelor:
    • H0: Proporția de începători, veterani și All-Stars este de 30%, 60% și, respectiv, 10%.
    • Ha: Cel puțin una dintre proporțiile din ipoteza nulă este falsă.
  2. Alegerea nivelului de semnificație: α = 0.05.
  3. Calculul statisticii testului:
    • Grade de libertate (df): k - 1 = 3 - 1 = 2 (deoarece sunt 3 categorii: începători, veterani, All-Stars).
    • Frecvențe așteptate (Ei):
      • E1 (începători) = 100 * 0.30 = 30
      • E2 (veterani) = 100 * 0.60 = 60
      • E3 (All-Stars) = 100 * 0.10 = 10
    • Statistica Chi-Pătrat (χ²):

      χ² = [ (50 - 30)² / 30 ] + [ (45 - 60)² / 60 ] + [ (5 - 10)² / 10 ]

      χ² = (400 / 30) + (225 / 60) + (25 / 10)

      χ² = 13.33 + 3.75 + 2.50 = 19.58

  4. Găsirea valorii P: Pentru un χ² de 19.58 cu 2 grade de libertate, valoarea P este aproximativ 0.00006.
  5. Interpretarea rezultatelor: Deoarece valoarea P (0.00006) este mai mică decât nivelul de semnificație (0.05), respingem ipoteza nulă. Concluzionăm că rezultatul observat nu este consistent cu afirmația companiei Acme. Datele eșantionului diferă semnificativ de distribuția susținută de companie.

Exemplul 2: Culoarea Ochilor și Echilibrul Hardy-Weinberg

Un cercetător dorește să testeze dacă frecvențele observate ale culorii ochilor într-o populație urmează distribuția așteptată pe baza echilibrului Hardy-Weinberg. Într-un eșantion de 500 de indivizi, s-au înregistrat 200 cu ochi albaștri, 150 cu ochi verzi și 150 cu ochi căprui. Pe baza echilibrului Hardy-Weinberg, frecvențele așteptate sunt de 25% pentru ochi albaștri, 50% pentru ochi verzi și 25% pentru ochi căprui. Nivelul de semnificație este 0.05.

Soluție:

  1. Formularea ipotezelor:
    • H0: Frecvențele observate ale culorii ochilor în populație urmează distribuția așteptată pe baza echilibrului Hardy-Weinberg.
    • Ha: Frecvențele observate ale culorii ochilor nu urmează distribuția așteptată.
  2. Alegerea nivelului de semnificație: α = 0.05.
  3. Calculul statisticii testului:
    • Grade de libertate (df): k - 1 = 3 - 1 = 2.
    • Frecvențe așteptate (Ei):
      • E_albaștri = 500 * 0.25 = 125
      • E_verzi = 500 * 0.50 = 250
      • E_căprui = 500 * 0.25 = 125
    • Statistica Chi-Pătrat (χ²):

      χ² = [(200 - 125)² / 125] + [(150 - 250)² / 250] + [(150 - 125)² / 125]

      χ² = (75² / 125) + (-100² / 250) + (25² / 125)

      χ² = (5625 / 125) + (10000 / 250) + (625 / 125)

      χ² = 45 + 40 + 5 = 90

      Notă: Există o discrepanță în calculul χ² din textul sursă (37.6 vs 90). Voi folosi calculul corect pe baza datelor furnizate.

  4. Găsirea valorii P: Pentru un χ² de 90 cu 2 grade de libertate, valoarea P este extrem de mică (aproape 0).
  5. Interpretarea rezultatelor: Deoarece valoarea P (aproape 0) este mult mai mică decât nivelul de semnificație (0.05), respingem ipoteza nulă. Concluzionăm că frecvențele observate ale culorii ochilor în populație nu urmează distribuția așteptată pe baza echilibrului Hardy-Weinberg.

Exemplul 3: Distribuția Culorilor de Bomboane

O companie produce bomboane în patru culori diferite: Roșu, Verde, Albastru și Galben. Compania dorește să testeze dacă proporția fiecărei culori produse este consistentă cu proporțiile așteptate de 25% pentru fiecare culoare. Un eșantion aleatoriu a relevat următoarele frecvențe observate: Roșu: 140, Verde: 120, Albastru: 100, Galben: 140. Se va folosi un nivel de semnificație de 0.05.

Soluție:

  1. Formularea ipotezelor:
    • H0: Proporția fiecărei culori produse este consistentă cu proporțiile așteptate de 25% pentru fiecare culoare.
    • Ha: Proporția a cel puțin unei culori nu este consistentă cu proporția așteptată de 25%.
  2. Alegerea nivelului de semnificație: α = 0.05.
  3. Calculul statisticii testului:
    • Total bomboane = 140 + 120 + 100 + 140 = 500.
    • Frecvențe așteptate (Ei) pentru fiecare culoare = 500 * 0.25 = 125.
    • Grade de libertate (df): k - 1 = 4 - 1 = 3.
    • Statistica Chi-Pătrat (χ²):

      χ² = [(140 - 125)² / 125] + [(120 - 125)² / 125] + [(100 - 125)² / 125] + [(140 - 125)² / 125]

      χ² = (15² / 125) + (-5² / 125) + (-25² / 125) + (15² / 125)

      χ² = (225 / 125) + (25 / 125) + (625 / 125) + (225 / 125)

      χ² = 1.8 + 0.2 + 5.0 + 1.8 = 8.8

      Notă: Există o discrepanță în calculul χ² din textul sursă (4.48 vs 8.8). Voi folosi calculul corect pe baza datelor furnizate.

  4. Găsirea valorii P: Pentru un χ² de 8.8 cu 3 grade de libertate, valoarea P este aproximativ 0.032.
  5. Interpretarea rezultatelor: Deoarece valoarea P (0.032) este mai mică decât nivelul de semnificație (0.05), respingem ipoteza nulă. Există suficiente dovezi pentru a concluziona că proporția fiecărei culori produse nu este consistentă cu proporțiile așteptate de 25% pentru fiecare culoare. Se pare că distribuția culorilor nu este uniformă așa cum se pretinde.

Întrebări Frecvente (FAQ)

Ce este exact o „frecvență așteptată”?

Frecvența așteptată (Ei) este numărul de observații pe care ne-am aștepta să le vedem într-o anumită categorie dacă ipoteza nulă (adică, dacă datele se potrivesc cu distribuția teoretică) ar fi adevărată. Se calculează înmulțind dimensiunea totală a eșantionului cu proporția teoretică a acelei categorii conform ipotezei nule.

What is an example of goodness of fit?
For example, it demonstrates how closely manufactured products meet the standards. Good results indicate that the products meet the requirements. Goodness-of-fit is a statistical method for assessing how well a sample of data matches a given distribution as its population.

De ce trebuie ca frecvențele așteptate să fie de cel puțin 5?

Această condiție este o regulă empirică pentru a asigura că distribuția Chi-Pătrat este o aproximare adecvată pentru distribuția de eșantionare a statisticii testului. Când frecvențele așteptate sunt prea mici, forma distribuției Chi-Pătrat poate să nu se potrivească bine cu distribuția reală a statisticii testului, ceea ce ar putea duce la rezultate incorecte (de exemplu, o valoare P eronată).

Ce înseamnă "grade de libertate" în contextul acestui test?

Gradele de libertate (df) se referă la numărul de valori dintr-un calcul final care sunt libere să varieze. Pentru Testul Chi-Pătrat de Adecvare a Potrivirii, df = k - 1, unde k este numărul de categorii. Acest lucru se datorează faptului că, odată ce cunoaștem numărul total de observații și frecvențele observate pentru k-1 categorii, frecvența pentru ultima categorie este determinată automat (nu este liberă să varieze).

Pot folosi Testul Chi-Pătrat de Adecvare a Potrivirii pentru variabile continue?

Nu, acest test este conceput exclusiv pentru variabile categorice. Dacă aveți o variabilă continuă, ar trebui să o transformați în categorii (de exemplu, intervale) pentru a aplica testul, dar în acest caz, s-ar pierde o parte din informația originală a datelor. Există alte teste statistice specifice pentru variabile continue.

Ce se întâmplă dacă P-valoarea este exact egală cu nivelul de semnificație?

În practică, acest lucru este rar. Dacă se întâmplă, convenția standard este să nu respingeți ipoteza nulă. Totuși, unii ar putea considera situația marginală și ar putea dori să colecteze mai multe date sau să efectueze teste suplimentare pentru a clarifica rezultatul.

Diferența dintre Testul Chi-Pătrat de Adecvare a Potrivirii și Testul Chi-Pătrat General

Este important să facem o distincție clară între Testul Chi-Pătrat de Adecvare a Potrivirii și alte tipuri de teste Chi-Pătrat, în special Testul Chi-Pătrat de Independență (adesea denumit "Testul Chi-Pătrat general"). Ambele utilizează distribuția Chi-Pătrat și formula similară a statisticii Chi-Pătrat, dar scopurile lor sunt fundamental diferite:

  • Testul Chi-Pătrat de Adecvare a Potrivirii: Acesta este utilizat pentru a determina dacă un set de date observate se potrivește cu o anumită distribuție teoretică predefinită. Se compară frecvențele observate pentru o singură variabilă categorică cu frecvențele așteptate pe baza unei ipoteze despre distribuția populației. Întrebarea la care răspunde este: "Sunt datele eșantionului meu reprezentative pentru o anumită distribuție a populației?"
  • Testul Chi-Pătrat de Independență: Acest test este utilizat pentru a determina dacă există o asociere semnificativă între două variabile categorice. Se compară frecvențele observate ale combinațiilor celor două variabile cu frecvențele așteptate, presupunând că nu există nicio asociere între ele (adică, variabilele sunt independente). Întrebarea la care răspunde este: "Există o relație între aceste două variabile categorice?"

Pe scurt, Testul Chi-Pătrat de Adecvare a Potrivirii se concentrează pe o singură variabilă și o distribuție teoretică, în timp ce Testul Chi-Pătrat de Independență examinează relația dintre două variabile categorice.

Concluzie

Testul Chi-Pătrat de Adecvare a Potrivirii este un instrument statistic indispensabil, oferind o metodă riguroasă pentru a evalua dacă datele noastre observate se aliniază cu o distribuție teoretică propusă. Prin înțelegerea condițiilor sale de aplicare, a pașilor de calcul și a interpretării rezultatelor, putem lua decizii informate și bazate pe dovezi solide în diverse domenii, de la cercetarea științifică la controlul calității și analiza socială. Capacitatea de a valida ipoteze despre distribuții populaționale este o piatră de temelie a analizei datelor, iar acest test ne oferă claritatea necesară pentru a merge mai departe cu încredere în concluziile noastre.

Dacă vrei să descoperi și alte articole similare cu Testul Chi-Pătrat de Adecvare a Potrivirii, poți vizita categoria Fitness.

Go up