Calculați valorile pentru Grubbs

În statistici, un outlier este un punct de măsurare care diferă numeric de celelalte măsurători din seriile de măsurare. Excedentele adesea indică nereguli într-o serie de date observate sau pot descoperi erori în măsurători. Atunci când sunt neglijate valorile excepționale, pot apărea adesea schimbări semnificative în evaluarea rezultatelor studiului. Pentru o înțelegere corectă a datelor, este important să știi cum să calculezi și să evaluezi valorile excesive. Acest lucru vă va permite să trageți concluzii mai precise din datele dvs. statistice.

metodă

Imaginea intitulată Calculați performanții Pasul 1
1
Aflați cum să recunoașteți posibilitățile de depășire. Înainte de a putea decide dacă puteți neglija o valoare neobișnuită într-un anumit set de date, trebuie mai întâi să identificați valorile potențiale. În general vorbind, valorile extreme sunt puncte de date care deviază semnificativ de la tendința altor valori într-o serie - cu alte cuvinte, ele lacrimă. Ele sunt de obicei destul de ușor de identificat în tabele sau (mai ales) în grafice. Dacă seria de date este afișată într-un grafic, există valori exagerate departe de la celelalte valori. Dacă de ex. Dacă majoritatea punctelor dintr-o serie de date se află pe o linie dreaptă, valorile negative nu pot contribui în mod rezonabil la acea linie.
  • Să presupunem, de exemplu, că aveți o înregistrare a temperaturii de 12 diferite obiecte într-o cameră. Dacă 11 obiecte au o temperatură în jur de 70 de grade Celsius, dar a douăsprezecea obiect (probabil un cuptor) are o temperatură de 300 grade Celsius, o examinare superficială poate indica faptul că temperatura cuptorului este un outlier probabil.
  • Imaginea intitulată
    2
    Aranjați punctele de date de la cea mai mică la cea mai mare valoare. Primul pas în calcularea valorii de valori dintr-un set de date este de a găsi meridianul (media) al setului de date. Această sarcină este mult mai ușoară dacă puneți valorile în ordine de la cea mai mică la cea mai mare valoare. Deci, înainte de a continua, aranjați valorile seriei de date în acest fel.
  • Pentru a respecta exemplul de mai sus, presupunem că următorul set de date reprezintă temperatura fiecărui obiect: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Înregistrările trebuie sortate după cum urmează: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  • Imaginea intitulată
    3
    Calculați valoarea mediană a setului de date. Mediana este punctul de date din seria de date în care jumătate dintre punctele de date sunt sub și o jumătate deasupra ei - deci este exact în mijlocul seriei de date. Dacă setul de date are un număr impar de puncte, este ușor de găsit - este punctul care are cât mai multe puncte pe care le are în sine. Cu toate acestea, dacă o serie de date are un număr par de puncte, deoarece nu există un centru real, trebuie să se formeze media celor două puncte medii de date. Atunci când se calculează valori extreme, meridianului i se atribuie adesea variabila Q2 - deoarece se află între Q1 și Q3, quartila inferioară și superioară, pe care o vom defini mai târziu.
  • Nu lăsa să vă confunde o serie de puncte de număr egal - media celor două puncte medii va fi adesea un punct care nu apare nici măcar în setul de date - și asta este bine. Desigur, dacă cele două centre au același număr, media lor va fi din nou acel număr, ceea ce este bine.
  • În exemplul nostru avem 12 puncte. Cele două medii sunt puncte 6 și 7 și respectiv 70 și 71. Mediana seriei de date este, prin urmare, media celor două puncte: (70 + 71) / 2) 70,5.
  • Imaginea intitulată Calculați exponenții Pasul 4
    4
    Calculați cartilajul inferior. Acest punct, numit Q1, este punctul de date sub care se află 25% (sau un sfert) din lecturi. Cu alte cuvinte, jumătate din suprafața punctelor tale de mai jos meridianul. Dacă aveți un număr par de valori sub meridian, va trebui să redimensionați media celor două valori medii pentru a găsi Q1, la fel ca în cazul calculării meridianului în sine.
  • În exemplul nostru, 6 puncte sunt sub meridian. Deci, din nou, trebuie să se formeze media a 2 puncte de date pentru a găsi cartilajul inferior. Punctele 3 și 4 ale celei mai mici 6 sunt ambele egale cu 70. Calculați media cu ((70 + 70) / 2), deci obțineți Q1 ca rezultat 70.
  • Imaginea intitulată
    5
    Calculați cartilajul superior. Acest punct, numit Q3, reprezintă punctul de date deasupra căruia se află 25% din citiri. Puteți găsi Q3 la fel cum ați găsit Q1, cu excepția faptului că acum aveți punctele despre trebuie să folosească meridianul, nu cele de mai jos.
  • În exemplul nostru, cele două puncte medii, care sunt 6 puncte deasupra meridianului, sunt punctele 71 și 72. Calculați media acestor două puncte și obțineți ((71 + 72) / 2), = 71.5. Q3 este 71.5.
  • Imaginea intitulată
    6


    Calculați intervalul interquartilat. După definirea Q1 și Q3, trebuie să calculam distanța dintre aceste două variabile. Distanța de la Q1 la Q3 se calculează scăzând Q1 de la Q3. Valoarea pentru spațierea intercuartilă este importantă pentru determinarea limitelor pentru non-outliers din seriile de date.
  • În exemplul nostru, valorile pentru Q1 și Q3 sunt 70 și 71,5. Pentru intervalul interquartilat scădem Q3 - Q1 = 71,5 - 70 = 1.5.
  • Notă: Aceasta funcționează chiar dacă Q1 și Q3 sunt numere negative. Dacă de ex. ar corespunde valorii noastre Q1 -70, intervalul nostru interquartil ar fi 71,5 - (-70) = 141,5. Care ar fi corect.
  • Imaginea intitulată Calculate valorile exacte Pasul 7
    7
    Găsiți gard interior seria de date. Rezultatele sunt identificate examinând dacă acestea se află în anumite limite numerice interior și exterior Garduri. Un punct în afara gardului interior este numit "outlier ușor", în timp ce punctele din afara gardului exterior sunt numite "extreme outliers". Pentru a găsi gardul interior al seriei de date, trebuie mai întâi să multiplicați intervalul interquartilat cu 1,5. Apoi, adăugați rezultatul la Q3 și scade-l din Q1. Cele două valori rezultate sunt limitele gardului interior al seriilor dvs. de date.
  • În exemplul nostru, distanța dintre quartile (71,5 - 70), adică 1,5 - înmulțită cu 1,5, este de 2,25. Se adaugă această valoare la Q3 și se scade din Q1 pentru a găsi gardul interior:
  • 71,5 + 2,25 = 73,75
  • 70-2,25 = 67,75
  • Acestea sunt limitele gardului nostru interior 67,65 și 73,75.
  • În seria noastră de date este doar temperatura cuptorului - 300 de grade - în afara acestui interval și ar trebui, prin urmare, să fie o ușoară depășire. Trebuie încă să determinăm dacă această valoare este o depășire extremă, deci nu ar trebui să tragem nicio concluzie aici.
    Imaginea intitulată Calculați exponenții Step 7Bullet2
  • Imaginea intitulată
    8
    Găsiți gard exterior seria de date. Acest lucru se face în același mod ca gardul interior, cu excepția faptului că înmulțim intervalul interquartilat cu 3 în loc de 1,5. Pentru a găsi limitele inferioare și superioare ale gardului nostru exterior, rezultatul este apoi adăugat înapoi la Q3 și scăzut din Q1.
  • În exemplul nostru, multiplicarea intervalului interquartil cu 3 duce la (1,5 * 3) sau 4,5. Găsim limitele gardului exterior în același mod ca mai sus:
  • 71,5 + 4,5 = 76
  • 70 - 4,5 = 65,5
  • Limitele gardului nostru exterior sunt 65,5 și 76.
  • Orice punct în afara acestui gard exterior este considerat o depășire extremă. În exemplul nostru, temperatura cuptorului, la 300 de grade, este bine în afara gardului exterior, așa că este categoric o depășire extremă.
    Imaginea intitulată Calculați exponenții Step 8Bullet2
  • Imaginea intitulată Calculați apendicele Pasul 9
    9
    Efectuați o evaluare calitativă pentru a determina dacă sunteți un excedent arunca poate. Folosind metoda descrisă mai sus, puteți determina dacă un anumit punct este un excedent blând, o depășire extremă sau chiar o depășire. Dar, nu trebuie să înțelegeți greșit - doar pentru că ați identificat un punct ca un outlier nu înseamnă că îl puteți neglija. Nu este un punct care va fi eliminat must. motiv, de ce un deviere se abate de la restul punctelor de date la rând este factorul decisiv în ignorarea acestuia sau nu. În principiu, de obicei, puteți omite depășiri care se datorează unei erori de un fel - o greșeală în măsurarea, înregistrarea sau configurarea experimentală. Dar, pe de altă parte, puteți utiliza valori excepționale care nu pot fi definite ca greșeli și care dezvăluie noi informații sau tendințe care nu au fost inițial anticipate, nu omite.
  • Un alt criteriu este acela de a examina dacă un extraterar are un impact atât de semnificativ asupra media (medie) a unei serii de date încât rezultatele sunt înclinate sau înșelătoare. Acest lucru este important în special dacă intenționați să trageți concluziile dvs. din media seriilor de date.
  • Să ne uităm la exemplul nostru. Putem cu siguranță să presupunem că cuptorul nu a fost încălzit la 300 de grade de forțele neprevăzute ale naturii, dar probabil a fost temperat accidental, provocând temperatura neobișnuit de ridicată. Mai mult decât atât, dacă nu lăsa outliers, obținem o valoare medie a seriilor de date (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89.67 grade. In timp ce, dacă vom omite outliers, 11 = obține o medie de (+ 69 + 69 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 70,55 grade.
  • De vreme ce extrapolarea se datorează unei erori umane și ar fi greșit să presupunem că temperatura medie în cameră este de aproape 90 de grade, ar trebui să încercăm să omitem depășirea.
  • Imaginea intitulată
    10
    Înțelegeți de ce trebuie să fie (uneori) menținute valori excepționale. În timp ce unele valori extreme ar trebui șterse din serii de date din cauza erorilor și / sau falsificărilor, altele ar trebui păstrate. Dacă de ex. Excenderele au fost într-adevăr atât de absorbite (adică nu de rezultatul unei greșeli) și / sau să ofere noi perspective asupra fenomenului studiat, nu ar trebui ignorate. Experimentele științifice sunt deosebit de sensibile atunci când vine vorba de valori excepționale - omiterea eronată a unui extraterar poate genera informații cruciale, noi tendințe sau descoperiri care pot fi pierdute.
  • Luați, de exemplu, să presupunem că vrem să creăm un medicament nou pentru a crește mărimea peștilor dintr-un rezervor de pește. Utilizăm din nou seria de date vechi ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), numai în acest moment, fiecare punct reprezentând masa unui pește după ce a fost tratat cu acest medicament experimental de la naștere. Cu alte cuvinte, medicamentul a produs o masă de 71 de grame pentru primul pește, 70 de grame pentru al doilea și așa mai departe. Și în acest caz ar fi de 300 încă o depășire extremă, dar nu ar trebui să o lăsăm afară deoarece, presupunând că nu există nici o eroare, reprezintă un succes semnificativ al experimentului. De droguri, care a dus la 300 de grame de pește, a lucrat mult mai bine decât oricare dintre celelalte medicamente. Acest punct este la fel ca conducere Notați în seria noastră de date, nu pe cel mai puțin important.
  • Sfaturi

    • Dacă descoperiți valori negative, încercați să le explicați prezența înainte de a le neglija - ceea ce poate indica erori de măsurare sau nereguli în distribuție.

    Ce ai nevoie

    • Calculator de buzunar
    Distribuiți pe rețelele sociale:

    înrudit