You are on page 1of 39

6.

ELEMENTE DE TEORIA ESTIMAŢIEI

Statistica deductivă (sau de inferenţă) = modele


prin care se obţin generalizări asupra populaţiilor
statistice.

În maniera clasică acestea se bazează strict pe


informaţii deduse prin prelucrarea eşantioanelor extrase din
populaţii

Maniera Bayesiană utilizează cunoştinţe subiective


dobândite anterior asupra distribuţiilor de probabilităţi a
parametrilor necunoscuţi, împreună cu observaţii rezultate din
eşantioane de date.

Inferenţa statistică include două domenii mari:


- estimaţia şi respectiv
- testarea ipotezelor

Domeniul estimaţiei presupune


- estimarea valorii unui parametru folosind o statistică
adecvată
- şi, apoi, utilizarea cunoştinţelor despre distribuţia de
eşantionare a statisticii respective (v. capitolul anterior)
- pentru a stabili gradul de precizie al estimării.

Aceste aspecte se tratează în capitolul de faţă.


6.1. Noţiuni introductive privind estimaţia

Estimatorul (sau funcţia de decizie) unui parametru


necunoscut,  , al unei populaţii şi care se va nota prin θ̂ ,
este o funcţie de cele n valori observate ale datelor unui
eşantion destinat să servească la estimarea lui  .
De obicei, estimatorul este reprezentat de o formulă de
calcul sau un algoritm.

Estimaţia ˆ este valoarea numerică luată de


estimatorul θ̂ în acord cu formula (algoritmul) şi valorile
celor n date de eşantion.

Valoarea adevărată a lui  pentru o populaţie oarecare


este unică dar necunoscută,
pe când fiecare eşantion extras din populaţie va furniza
câte o valoare ˆ - diferită de cele ale altor eşantioane
(fluctuaţia de eşantionare).
Alegerea estimatorului θ̂ trebuie să respecte:
- criteriul de universalitate şi
- condiţia de optimalitate.

Prima cerinţă impune ca, în medie, valoarea


necunoscută a parametrului  să fie estimată fără eroare sau
fără deplasare (nedeplasată), adică este necesar ca:
 θ̂  E θ̂    ,

(media distribuţiei de eşantionare a estimatorului θ̂ trebuie să


fie egală cu  ).
Se numeşte deplasare diferenţa E θ̂    , iar pentru o
estimare ˆ j pe baza eşantionului j de date, diferenţa ˆ j  
reprezintă eroarea de eşantionare.
A doua condiţie - se numeşte estimator optimal acela
care, dintre mai mulţi estimatori posibili ai lui  , va face ca



E  θ̂ -   2   minim


(minimizează eroarea pătratică medie dintre valoarea  reală
şi estimările θ̂ ).
Eroarea pătratică medie este suma pătratului deplasării
şi varianţei estimaţiei.
Condiţia de optimalitate implică alegerea estimatorului
care conduce la varianţa minimă a estimaţiei.

Ca metode de estimare a unui anumit parametru se vor


prezenta
- metode bazate pe studiul analitic al distribuţiilor de
eşantionare, precum şi
- o serie de metode specifice (metoda verosimilităţii
maxime, metoda celor mai mici pătrate etc.).

Altă diferenţiere se poate face între


- metodele zise parametrice (presupun cunoaşterea legii
de distribuţie a V.A. X pentru populaţia de interes) şi
- cele neparametrice (nu presupun nici o informaţie
asupra distribuţiei lui X).
Prima categorie necesită anumite ipoteze ajutătoare
pentru analiză, în timp ce ultima renunţă la astfel de ipoteze.

6.2. Intervale de încredere

Pe baza unui eşantion de talie n, se calculează , de


exemplu, media x - o realizare posibilă a V.A. X .
Estimatorul mediei populaţiei se adoptă de forma ̂  x ,
(nedeplasat deoarece s-a văzut că E  X    şi optimal dacă
populaţia originară este apropiată de una normală).
Estimaţia mediei obţinută astfel este de tip parametric
deoarece presupune ceva despre populaţia originară.

Dar nu există motive pentru a crede că şi cel mai eficient


estimator va produce o estimaţie punctuală (pe baza unui
eşantion dat) care să fie exact egală cu parametrul de interes
al populaţiei.

Adesea este preferabil să se determine un interval în care


să se spere că se găseşte valoarea parametrului respectiv.
O estimare de interval a parametrului unei populaţii
este un interval de forma
ˆ1    ˆ2 ,
în care ˆ1 şi ˆ2 depind de valoarea statisticii θ̂ pentru un
anumit eşantion şi de distribuţia de eşantionare a lui θ̂ .

Evident că eşantioane diferite vor genera valori diferite


ale estimatorului şi deci valori diferite pentru ˆ1 şi ˆ2 .
Aceste capete de interval sunt valori ale unor V.A. θ̂1 şi
θ̂ 2 ,
iar din distribuţia de eşantionare a lui θ̂ trebuie găsite
valorile ˆ1 şi ˆ2 astfel încât
P θ̂1    θ̂ 2   1   pentru 0    1 . (6.1)
Aceasta corespunde la probabilitatea 1    de alegere a
unui eşantion aleator care va produce intervalul conţinându-l
pe  .

Intervalul θ̂1    θ̂ 2 calculat pe baza eşantionului ales se


numeşte interval de 1     100% încredere.

Fracţia 1    se numeşte coeficient (sau nivel) de


încredere,
 este pragul de semnificaţie,
iar capetele de interval θ̂1 şi θ̂ 2 sunt limitele inferioară
şi superioară de încredere.

Cu cât intervalul de încredere este mai larg (  mai mic),


cu atât există mai multă încredere că intervalul respectiv
conţine parametrul necunoscut  .

6.3. Intervalul de încredere pentru medie

Deja s-a văzut că estimatorul punctual pentru media


populaţiei  este dat de statistica X şi deci
estimaţia punctuală a lui  va fi valoarea mediei de
eşantion x .

În Cap.5 s-a menţionat că distribuţia de eşantionare a


V.A. X este aproximativ normală, cu media  X   şi
varianţa  2X   2 n .
Cu schimbarea la variabilă normală standard (sau
redusă), se poate scrie că:
̂   X   X  z (6.2)
unde z este variabila normală standard N  0,1 .
z z  z 
Fie 2 şi respectiv 1 2 2
valorile variabilei reduse
pentru care suprafeţele de sub graficul distribuţiei N  0,1

aflate la stânga şi respectiv dreapta, sunt egale cu câte 2 .
Atunci, suprafaţa de sub grafic cuprinsă între cele două
valori, va fi egală cu nivelul de încredere 1    şi deci:
 
P   1 
 z   Z  z1  
 2 2 
f(z)

1

 
2 2
z

z 2 0 z1 2

Fig.6.1 Definirea intervalului de încredere

Prin intermediul (6.2), celor două valori z le corespund


valorile ̂1 şi respectiv ̂ 2 ,
iar probabilitatea ca media populaţiei,  să fie cuprinsă
între acestea este de asemenea 1    , adică:
P ˆ 1    ˆ 2   1  

Pentru simplificare şi ţinând seama de simetria faţă de 0 a


zc  z 
distribuţiei lui Z, se va nota 1
2
şi atunci
limitele intervalului de încredere pentru medie se scriu
 X  zc   X .

În concluzie,
- dacă se cunoaşte varianţa populaţiei  2 , şi
- s-a calculat estimaţia punctuală x pe baza unui
eşantion dat, de talie n,
- se poate construi intervalul de încredere al mediei 
sub forma:
   
P x  z c
 n
   x  zc   1  
n
(6.3)
z 
unde zc este cuantila 1
2
a distribuţiei normale standard.

Afirmaţia este valabilă şi dacă nu se cunoaşte media


distribuţiei lui X , adică  X (care s-a arătat că este identică cu 
).
Într-adevăr, dacă valoarea x calculată pe baza unui

eşantion, se află la o distanţă mai mică decât z c n faţă de  ,
cu o probabilitate de 1    ,
atunci se poate spune şi invers, că valoarea adevărată şi

necunoscută a lui  se află la o distanţă inferioară lui z c n
faţă de x , cu aceeaşi probabilitate 1    .

S-a menţionat anterior că,


- indiferent de distribuţia populaţiei originare,
- dacă talia eşantioanelor este n  30 ,
- concluziile privind distribuţia de eşantionare a mediei
X sunt aceleaşi şi deci
- relaţia (6.3) pentru intervalul de încredere a mediei este
valabilă.

Dacă se lucrează cu eşantioane de talie mai mică,


selectate din populaţii cu distribuţii nenormale, intervalul de
încredere dat de relaţia (6.3) poate să fie incorect.

Intervalul de încredere fiind centrat pe media de


eşantion x , dacă  este şi ea valoarea centrală a intervalului,
atunci x estimează pe  fără eroare. (ceea ce nu se întâmplă
adesea sau nu poate fi verificat).

Se găseşte uşor că x şi  diferă cu cel mult o cantitate 


specificată şi la nivel de încredere 1    ales, dacă talia
eşantionului este:
2
 z 
n c  (6.4)
  

Toate precizările anterioare sunt valabile dacă se


cunoaşte varianţa populaţiei  2 !!!

Când varianţa populaţiei 2 nu este cunoscută şi nu


se dispune de eşantioane cu talia n  30 .
s-a văzut că raportul
x 
t 
s n

reprezintă valoarea unei V.A. cu distribuţie Student-t şi   n  1


grade de libertate.
Aici x şi s sunt media şi abaterea standard a
eşantionului cu n  30 dintr-o populaţie aproximativ normală.

Distribuţia Student este simetrică în raport cu 0 şi tinde


către distribuţia normală standard când    .
t t
Notând cu c 1 2 cuantila distribuţiei t cu   n  1 grade

de libertate, pentru care F  t c   1  2 ,
intervalul de încredere pentru medie se scrie acum:
s s
x  tc    x  tc (6.5)
n n

Dacă estimarea varianţei populaţiei se face cu inversa lui


(5.6) aplicată unui eşantion, atunci rezultă
n 2
ˆ 2  s (6.6)
n 1
şi utilizând ̂ în locul lui s în (6.5), se poate scrie
s s
x  tc    x  tc (6.7)
n 1 n 1
(un interval de încredere puţin mai larg decât cel dat de (6.5)).

Estimatorul ̂ dat de (6.6) este un estimator nedeplasat


pentru abaterea standard a populaţiei, calculat pe baza
abaterii standard de eşantion, s.

Un eşantion aleator format din 64 membri ai


Exemplul 6.3.1

sindicatului Alma Mater are media de vârstă 39,3 ani şi


abaterea standard a vârstelor de 4,8 ani.
a) Să se estimeze media şi abaterea standard ale
populaţiei de sindicalişti;
b) Să se determine intervalul de încredere a mediei
pentru pragul de semnificaţie   5% ;
c) Ce talie ar trebui să aibă eşantionul pentru a fi 98%
siguri că estimarea mediei  nu se face cu o eroare mai mare
de jumătate de an ?

Soluţie
a) Estimarea punctuală a mediei populaţiei este egală cu
valoarea de eşantion a statisticii X , adică ˆ  x  39,3 ani.
Deoarece n = 64 este destul de mare, estimaţia varianţei
populaţiei, ̂ 2 , se poate lua identică cu varianţa de eşantion
adică ˆ 2  s 2 şi respectiv ˆ  s  4,8 ani.
n 64
Folosind (6.6) rezultă totuşi ˆ  s
n 1
 4,8
63
 4,84 ani, o
diferenţă de doar 0,83% - (se justifică prima afirmaţie).
z z z
b) Deoarece   0,05 , rezultă c 1 0,205 0,975 , iar cuantila
respectivă este z c  1,96 .
Intervalul de încredere de 95% pentru media  rezultă:
4,8 4,8
39,3  1,96    39,3  1,96
64 64
sau  38,12    40,48 ani - rotunjit la a doua zecimală.

c) În acest caz 1   = 0,98, astfel încât   0,02 şi z c  z 0,99


care se găseşte că este z c  2,33 .
Cu (6.4) şi folosind aceeaşi estimaţie pentru  , deoarece
2
 2,33  4,8 
  0,5 ani rezultă: n
 0,5


 500,33

Deci, ar fi sigur în proporţie de 98% că media x a unui


eşantion de 500 persoane din populaţia membrilor sindicatului
respectiv, nu diferă de media populaţiei  cu mai mult de o
jumătate de an.
O selecţie aleatoare de 15 pepeni verzi produşi
Exemplul 6.3.2

la o bostănărie a condus la o greutate medie de 3,95 kg, cu o


abatere standard de 0,62 kg. Să se găsească intervalul de
încredere 95% pentru greutatea medie a întregii producţii dacă
se admite o distribuţie aproximativ normală a greutăţii
pepenilor.

Soluţie
Talia eşantionului n  15 fiind redusă, o estimare mai
corectă a abaterii standard a populaţiei se obţine cu (6.6), adică
n 15

ˆ s
n 1
 0,62
14
 0,642 kg ,
diferită cu aproape 7% faţă de s  0,62 kg.
În acest caz  n  30 este indicată utilizarea valorii t c a
variabilei de lege Student-t cu   15  1  14 grade de libertate.
Având în vedere că 1    0,95 şi deci   0,05 , cuantila
t c  t   t 0,975
1
2
a variabilei t cu   14 grade de libertate, se găseşte
a fi t c  2,145 (cu programul LegiVAC sau programul
Test_S_F_H şi opţiunea S).
Rezultă intervalul de încredere 95% pentru greutatea
medie cu (6.7), sub forma:
s s
x  tc    x  tc ,
n 1 n 1
0,62 0,62
adică 3,95  2,145
14
   3,95  2,145
14
şi anume  3,595    4,305  kg
Dacă s-ar fi utilizat variabila normală standard în locul
variabilei t, ar fi rezultat intervalul de încredere 95% sub forma:
0,62 0,62
3,95  1,96    3,95  1,96
15 15
adică  3,636    4,264 kg, mai redus cu circa 11,55%.

..Problema 6.3.1
?
O companie care foloseşte forţă de muncă din zona
limitrofă a constatat că, pentru un eşantion aleator de 16
muncitori, distanţa medie a domiciliului faţă de uzină este 19,2
km, cu o abatere standard de 3,1 km. Admiţând că distanţele
locuinţelor tuturor angajaţilor sunt aproximativ normal
distribuite, să se găsească intervalul de încredere 95% pentru
distanţa medie ce trebuie parcursă ca să se ajungă la serviciu.

..Problema 6.3.2
?
Pe un eşantion aleator de 64 cumpărători s-a observat un
timp mediu de aşteptare la casele unui mare magazin alimentar
de 4,5 minute, cu o abatere standard de 2,1 minute
a) Construiţi intervalul de încredere 95% pentru timpul
mediu de aşteptare al tuturor cumpărătorilor din acest magazin
b) Care este eroarea posibilă de apreciere a mediei
populaţiei, dacă se foloseşte media de eşantion ?
c) Ce talie trebuie să aibă eşantionul analizat pentru a avea
99% încredere că media de eşantion nu diferă cu mai mult de
0,5 minute faţă de media reală ?

6.4. Alţi estimatori şi intervalele lor de


încredere
6.4.1. Diferenţa mediilor

Pentru două populaţii cu mediile 1 şi  2 şi varianţele 12 ,


respectiv  22 , un estimator punctual al diferenţei dintre 1 şi
 2 este dat de statistica X 1  X 2 .
Alegând două eşantioane aleatoare independente, câte unul
din fiecare populaţie şi având dimensiunile n1 , respectiv n2 , se
poate calcula diferenţa mediilor de eşantion x1  x 2 .

Dacă eşantioanele se selectează din populaţii normale


sau dacă n1 şi n2 sunt mai mari decât 30,
se poate stabili un interval de încredere pentru 1   2 folosind
distribuţia de eşantionare a V.A. X 1  X 2 .
Când 12 şi  22 sunt cunoscute, intervalul de încredere
1     100% pentru diferenţa mediilor rezultă sub forma:
12  22 2 2
 x1  x 2   z c 
n1 n2
 
 1   2  x1  x 2  z c 1  2
n1 n2
(6.8)
unde x1 şi x 2 sunt mediile celor două eşantioane de talii n1 şi
z z 
n2 , iar c 1 , ca mai sus
2

.
Dacă x1 şi x 2 sunt mediile unor eşantioane de
dimensiuni mai mici, selectate din populaţii aproximativ
normale cu varianţe necunoscute, dar egale, atunci intervalul
de încredere 1     100% pentru 1   2 este dat de:

 x1  x 2   tc s p 1

1
n1 n2
 
 1   2  x1  x 2  t c s p
1

1
n1 n2 (6.9)
unde s p este o estimare ponderată a abaterii standard a
populaţiei V.A. X 1  X 2 , de forma:
n1s12  n2 s 22
sp 
n1  n2  2
(6.10)
cu şi s22 varianţele celor două eşantioane.
s12
t
Prin t c s-a notat valoarea cuantilei 1 2 a distribuţiei
Student-t cu   n1  n2  2 grade de libertate.
Dacă varianţele populaţiilor sunt considerabil diferite,
relaţiile rămân corecte pentru populaţii normale, cu condiţia
ca n1  n2 .

În (6.10) se pot înlocui termenii de forma ns 2 prin  n  1 ˆ 2 ,


unde ̂ 2 este o estimare nedeplasată a varianţei .

Dacă x1 , s12 , x 2 şi s22 sunt mediile şi varianţele a două


eşantioane independente de dimensiuni n1 şi n2 reduse,
provenind din populaţii aproximativ normale şi având varianţe
necunoscute şi inegale, intervalul de încredere 1     100%
pentru 1   2 este dat de:
s12 s2 s12 s2
 x1  x 2   t c  
 2  1   2  x1  x 2  t c
n1  1 n2  1
 2
n1  1 n2  1
(6.11)
t 
unde tc este cuantila 1
2
a distribuţiei Student-t cu
2
 s12 s2 
  2 
 n1  1 n2  1 
  
(6.12)
4 4
s1 s2

 n1  1  n2  1 3
3

grade de libertare.

O situaţie de interes apare în legătură cu estimarea


diferenţei mediilor a două populaţii, când eşantioanele nu
sunt independente, iar varianţele celor două populaţii nu sunt
obligatoriu egale.
În acest caz, dimensiunile eşantioanelor vor fi identice şi
- se generează un nou eşantion,
- construind diferenţele d i  x1i  x2i , i  1,2,..., n ale
perechilor de date din cele două eşantioane de talie n .
Acestea sunt realizări ale unei V.A. D , admisă normală, cu
media  D şi varianţă necunoscută  2D - care se aproximează
prin s d2 (varianţa valorilor de eşantion d1 , d 2 ,..., d n .).
Estimaţia punctuală a diferenţei 1   2   D este dată de d
- media de eşantion a valorilor d i , iar intervalul de încredere
1     100% pentru  D  1   2 se scrie:
s s
d  tc d   D  d  tc d (6.13)
n n
t 
cu t c - cuantila 1
2
a distribuţiei Student-t cu   n 1 grade de
libertate.

6.4.2. Proporţia p a distribuţiei binomiale

Un estimator punctual pentru proporţia p de succese


X
într-un experiment binomial, este statistica Pˆ  n , unde X
reprezintă numărul de succese în n încercări şi atunci
x
proporţia de eşantion pˆ  n va fi estimaţia punctuală a
parametrului p.

Dacă valoarea p (necunoscută) nu este foarte apropiată


de 0 sau 1,
atunci se poate stabili un interval de încredere pentru p,
ţinând seama de distribuţia de eşantionare a statisticii P̂ care
este aproximativ normal distribuită, cu media  Pˆ  p şi
pq
varianţa  2Pˆ  n .
Deci, dacă p̂ este proporţia de succese într-un eşantion de
talie n şi qˆ  1  pˆ , un interval de încredere 1     100%
aproximativ pentru parametrul binomial p va fi:
pˆ qˆ pˆ qˆ
pˆ  z c
n
 p  pˆ  z c
n
(6.14)
z 
cu zc - cuantila 1
2
a distribuţiei normale standard.

Metoda de definire a intervalului lui p rămâne valabilă şi


când distribuţia binomială se foloseşte pentru a aproxima
distribuţia hipergeometrică (când talia eşantionului n este
relativ mică în comparaţie cu talia populaţiei N)
.
Notând cu  diferenţa între p adevărat şi p̂ de eşantion,
- pentru a avea 1     100% încredere că diferenţa între cele
două valori nu depăşeşte o eroare  impusă,
- trebuie ca talia eşantionului să fie:
z 2 pˆ qˆ
n c (6.15)
2
În (6.15) se va folosi valoarea p̂ calculată pe baza unui
eşantion şi dacă n  30 , ea reprezintă o estimaţie preliminară.
Se poate avea în vedere şi faptul că, în orice situaţie,
z c2
ˆ qˆ  0,25
p atunci rezultând mai direct n .
4 2

Dacă interesează diferenţa între doi parametri binomiali


p1 şi p 2 şi
- se dispune de două eşantioane independente de talii n1
şi n2 ,
x x
- cu estimările punctuale pˆ 1  1 şi respectiv pˆ 2  2 ,
n1 n2
- ştiind că statistica Pˆ1  Pˆ2 este aproximativ normal
pq p q
distribuită cu media  P1  P 2  p1  p 2 şi varianţa 2  1 1 2 2 ,
P1  P 2 n1 n2
- se obţine intervalul de încredere 1     100% pentru
diferenţa p1  p2 sub forma:
pˆ 1qˆ1 pˆ 2 qˆ 2 pˆ qˆ pˆ qˆ
 pˆ1  pˆ 2   z c   p1  p 2   pˆ1  pˆ 2   z c 1 1  2 2
n1 n2 n1 n2
(6.16)
z 
cu zc - cuantila 1
2
a distribuţiei normale standard.

6.4.3. Varianţa
Pentru un eşantion de talie n, extras dintr-o populaţie
normală cu varianţa  2 , se utilizează varianţa de eşantion s 2
ca estimaţie punctuală a lui  2 .

ns 2
Folosind statistica H  2
(sau cu estimarea nedeplasată
 n  1 ˆ 2
2
),
aceasta urmează o distribuţie 2 cu   n (sau respectiv
n  1 ) grade de libertate.

Valorile lui  2 nu pot fi negative, iar graficul ei este


asimetric, asimetria reducându-se pe măsură ce creşte  .
h h 
Notând prin 2
şi respectiv 1
2
cuantilele repartiţiei 2


corespunzătoare valorilor funcţiei de repartiţie F  h  şi
2

respectiv F  h   1  2 ,
atunci intervalul de încredere 1     100% pentru varianţa
populaţiei se scrie:
ns 2 ns 2
 2 
h 
1
h (6.17)
2 2

unde distribuţia 2 are   n grade de libertate.

Cu estimatorul nedeplasat  n  1 ˆ 2 în locul lui ns 2 în


relaţia (6.17), cuantilele de la numitor se vor calcula pentru
distribuţia  2 având   n  1 .

Intervalul de încredere pentru abaterea standard 


rezultă extrăgând rădăcina pătrată din expresiile limitelor de
interval din (6.17).

Dacă media populaţiei normale originare,  , este


cunoscută, atunci varianţa de eşantion s 2 se calculează
folosind  , iar
dacă  nu se cunoaşte - s 2 se calculează cu media de
eşantion x .
6.4.4. Raportul varianţelor

O estimaţie punctuală a raportului varianţelor a două


populaţii, 12  22 se obţine prin raportul varianţelor celor două
eşantioane independente, de talii n1 şi n2 , extrase din
populaţii normale, adică prin:
n1 2  n2 2 
R s1  s 2  (6.18)
n1  1  n2  1 
(sau prin ˆ 12 ˆ 22 dacă se folosesc estimatori nedeplasaţi)

Statistica definită prin


R
F (6.19)
12  22
are o distribuţie de eşantionare de tip Fisher-Snedecor cu
1  n1  1 şi respectiv  2  n2  1 grade de libertate.

Ca şi 2 , distribuţia F este definită pe domeniul pozitiv


al V.A..
f f
Notând cu 2 şi respectiv 1 2 cuantilele pentru care
funcţia de repartiţie cu 1 şi  2 grade de libertate ia valorile
 
2
şi 1  , atunci
2
 
P   1 
 f   F  f1  
 2 2 

iar intervalul de încredere 1     100% pentru variabila F se scrie:


R
f   f 
2
12  22 1
2

astfel încât pentru raportul varianţelor rezultă


2
R R
 1 
f  2
2
f (6.20)
1
2 2

unde R este dat de (6.18) sau R  ˆ 12 ˆ 22 .

Deoarece
1
f   1 ,  2  
1 f    2 , 1  ,
2
2
relaţia (6.20) se mai poate scrie:
2 R
f    2 , 1  R  1 
2
2 f   1 ,  2  (6.21)
2
2
f
unde s-au explicitat condiţiile de calcul a cuantilelor 2
prin
specificarea ordinii gradelor de libertate.

Un hipermarket achiziţionează un anumit


Exemplul 6.4.1

produs agricol (cartofi, lămâi, etc.) de la doi furnizori şi îşi pune


problema dacă să renunţe sau nu la unul dintre ei. Criteriul de
decizie s-a bazat pe diferenţa dintre mediile populaţiilor de
produse oferite şi respectiv diferenţa a două medii de eşantion,
de talie egală, selectate aleator şi independent din cele două
populaţii. Dacă la un nivel de încredere de 96% această
diferenţă va depăşi 1,80g, se va alege furnizorul cu cea mai bună
medie a populaţiei. În caz contrar, se vor păstra ambii furnizori.
Populaţiile produselor se admit cu distribuţii aproximativ
normale.
Pentru a adopta decizia, s-au ales două eşantioane de câte
50 produse din cele oferite de furnizori. În eşantionul primului,
a rezultat o greutate medie pe produs de 81,4 g, cu abaterea
standard de 4,6 g, iar pentru cel de-al doilea, greutatea medie a
fost 84,5 g şi abaterea standard 4 g.
a) Ce decizie consideraţi că s-a adoptat ?
b) Care ar trebui să fie decizia, la nivel de încredere de
95%, dacă s-ar dispune de eşantioane a câte 15 produse,
având aceleaşi medii şi varianţe de eşantion ca mai sus, dar
admiţând populaţiile cu aceleaşi varianţe ?

Soluţie
a) Estimaţia punctuală pentru diferenţa mediilor
populaţiilor, 1   2 se face prin diferenţa mediilor de eşantion
adică x1  x 2  81,4  84,5  3,1 g .
Deoarece n1  n2  50 , (talie mare) se pot aproxima
varianţele populaţiilor prin varianţele eşantioanelor, adică
1  s1  4,6 g şi respectiv  2  s 2  4 g .
Conform (6.8), intervalul de încredere 96% pentru
diferenţa mediilor populaţiilor este:
 x1  x 2     1   2   x1  x 2   
12  22 4,6 2 4 2
unde   zc 
n1 n2
 zc
50

50
 0,862 z c ,

z z
iar z c este cuantila 1 0,204 0,98 a distribuţiei normale standard
care se găseşte a fi z c  2,055 .
În consecinţă   0,862  2,055  1,77 g
Deoarece diferenţa dintre  1   2  şi  x1  x 2  este
 1   2    x1  x 2     1,77 g

la nivel de încredere 96%, iar limita stabilită a fost de 1,80 g,


având intervalul de încredere corespunzător în jurul lui
 x1  x 2  cu o extindere mai mică decât 1,80 g, se va putea
decide să nu se renunţe la nici un furnizor.

b) Acum n1  n2  15 (talie mică), admiţând varianţele de


eşantion nedeplasate adică ˆ 1  4,6 şi ˆ 2  4 , în calculul abaterii
standard combinate (6.10) se va utiliza relaţia:
 n1  1 ˆ 12   n2  1 ˆ 22 14  4,6 2  14  4 2
sp    4,31
n1  n2  2 28
iar intervalul de încredere 95% va fi
 x1  x 2     1   2   x1  x 2   
1 1 1 1
unde   tc  s p 
n1 n2
 t c  4,31 
15 15
 1,574  t c

t t
Aici t c este cuantila 1 0,205 0,975 a distribuţiei Student-t cu
  n1  n2  2  28 grade de libertate, care are valoarea t c  2,048 .
Rezultă   1,574  2,048  3,224
În acest caz  1   2    x1  x 2     3,224 g ,
deci mai mult decât diferenţa limită impusă la cel mult 1,80 g
şi este preferabil să se renunţe la unul dintre furnizori.
Intervalele de încredere 96% (ca la punctul a)) pentru
mediile populaţiilor de produse a celor doi furnizori sunt:
 
x1  z c 1  1  x1  z c 1 ,
n n
adică  80,063  1  82,737 g şi respectiv  83,338   2  85,662 g , fiind
clar că al doilea furnizor oferă produse cu o greutate medie pe
populaţie mai mare decât primul.

Pentru a studia efectul plimbărilor pe jos asupra


Exemplul 6.4.2

pierderii în greutate la un grup de 10 angajaţi sedentari, li s-a


prescris acestora un anumit program de mişcare pe următoarele
6 luni. Greutăţile (în kg) înainte şi după terminarea programului au fost
ca în tabelul următor.
Persoana 1 2 3 4 5 6 7 8 9 10
Ginit. 95 81 76 96 82 87 71 93 77 110
Gfinal 89 78 77 93 80 86 72 93 74 105
Să se găsească intervalul de încredere 98% pentru
diferenţa reală între greutăţile medii dinainte şi de după
program.

Soluţie
Fie 1 şi  2 greutăţile medii iniţială şi respectiv finală.
Cele 10 perechi de valori reprezintă eşantioane
dependente (aceleaşi persoane au fost cântărite înainte şi după
experiment).
Estimaţia punctuală a diferenţei mediilor de greutate se
obţine cu 1   2   D şi este d  86,8  84,7  2,1 kg .
Având în vedere diferenţele d i   6,3,1,3,2,1,1,0,3,5 obţinute
cu datele din tabel, se poate calcula varianţa diferenţelor de
eşantion cu relaţia:
2
n  n 
n  d i 
d i2  
 10  95  212
s d2 
i 1  i 1    5,656
n n  1 10  9
astfel încât sd  5,656  2,378 .
 t t t t
Conform (6.13), c
1
2
1
0,02
2
0,99
este cuantila
distribuţiei Student-t cu   10  1  9 grade de libertate şi se
găseşte a fi t c  2,821 pentru   0,02 .
Rezultă intervalul de încredere 98% pentru reducerea
medie de greutate sub forma:
s s
d  tc d   D  d  tc d
n n
2,378 2,378
adică 2,1  2,821 10   D  2,1  2,821 10
,
deci   0,02   D  4,22 kg

Dintr-un lot de 500 posibili cumpărători ai unui


Exemplul 6.4.3

autoturism nou, 280 s-au exprimat că-şi vor lua o maşină nouă
având consum redus de combustibil, iar restul au optat pentru
alte calităţi.
a) Să se găsească intervalul de încredere 96% pentru
proporţia reală a celor ce-şi vor cumpăra o maşină cu consum
redus;
b) Cât de mare ar trebui să fie lotul interogat dacă se
urmăreşte încredere 99% pentru ca eroarea la estimarea lui p
să fie de cel mult 0,05 ?

Soluţie
a) Este un experiment binomial cu estimaţia punctuală a
şansei de succes pˆ  280 / 500  0,56 , astfel încât qˆ  1  pˆ  0,44 .
Conform (6.14), intervalul de încredere pentru p este:
pˆ qˆ pˆ qˆ
pˆ  z c  p  pˆ  z c
n n
z z z 0,04  z 0,98
unde c 1 2 1
2
este cuantila distribuţiei normale
standard pentru   0,04 şi se găseşte că z c  2,055 .
0,56  0,44 0,56  0,44
Rezultă 0,56  2,055
500
 p  0,56  2,055
500
adică 0,514  p  0,606

b) Se admite estimarea preliminară a lui ˆ  0,56


p , făcută
pe lotul de 500 persoane ca fiind valabilă.
La nivel de încredere 99% corespunde   0,01 şi respectiv
trebuie calculată cuantila z c  z 0,995 care este z c  2,575 .
Cu (6.15) rezultă dimensiunea lotului necesar de
interogat:
z 2 pˆ qˆ 2,575 2  0,56  0,44
n c   654
2 0,05 2
Presupunând valoarea lui p̂ neconcludentă, dar ştiind
că ˆ qˆ  0,25
p , ar rezulta:
2,575 2  0,25
n  663 ,
0,05 2
caz în care încrederea ar depăşi 99% că eroarea la evaluarea
lui p este cel mult 0,05.

Pentru a compara variabilitatea pieselor de


Exemplul 6.4.4

acelaşi tip produse de două maşini unelte, s-a ales un eşantion


de 16 piese realizate de prima maşină şi s-a constatat o abatere
standard a diametrelor de 2,86 μm, în timp ce la un eşantion
de 25 piese făcute pe a doua maşină, abaterea standard a fost
de 1,94 μm. Să se găsească:
a) Intervalele de încredere 90% pentru varianţele
populaţiilor de piese realizate pe cele două maşini, admise
populaţii normale;
b) Intervalul de încredere 90% pentru raportul
varianţelor şi respectiv raportul abaterilor standard al celor
două populaţii.

Soluţie
a) Admiţând că ˆ 1  2,86 μm şi respectiv ˆ 2  1,94 μm
sunt estimaţii nedeplasate ale abaterilor standard pentru cele
două eşantioane, în locul relaţiei (6.17) se va folosi pentru
intervalul de încredere al varianţei formula:
 n  1 ˆ 2  2 
 n  1 ˆ 2
h  h
1
2 2
h
La prima maşină n1  16 ; ˆ 12  8,18 iar 2 este cuantila
distribuţiei  2 cu   n  1  15 grade de libertate pentru care
 
F  h

 2


. Cu programul LegiVAC sau Test_S_F_H se
  0,05

găseşte h0,05  7,26 şi respectiv h0,95  24,996 , astfel încât intervalul


de încredere pentru  12 va fi:
15  8,18 15  8,18
 12 
24,996 7,26 ,
adică 4,909  12  16,901 , iar pentru abaterea standard
 2,216  1  4,111  m
h
La a doua maşină n2  25 ; ˆ 22  3,764 iar 2 este cuantila
distribuţiei  2 cu   n  1  24 grade de libertate pentru care
 
F 
 h   0,05 .

 2 

Se găseşte h0,05  13,848 şi h0,95  36,415 , iar intervalele de


încredere pentru  22 şi respectiv  2 sunt:
24  3,764 24  3,764
  22 
36,415 13,848 ,
adică 2,481   22  6,523 şi respectiv 1,575   2  2,554 μm
b) Raportul varianţelor de eşantioane este
ˆ2 8,18
R 1   2,173
2
ˆ 2 3,764

f
În (6.20), 2 este cuantila distribuţiei Fisher cu n1  1  15 şi
respectiv n2  1  24 grade de libertate pentru care funcţia de

repartiţie este egală cu 2 , aici 0,05.
Cu programul Test_S_F_H şi opţiunea F la rulare se
găseşte f 0,05  0,437 şi respectiv f 0,95  2,108 .
Rezultă intervalul de încredere 90% pentru raportul
varianţelor:
R 2 R
 1 
f 0,95  2 f 0,05
2
adică
2,173 12 2,173
 
2,108  22 0,437
 2 
1,031  1  4,973 
sau  , iar pentru raportul abaterilor standard
  22 
  
1,015  1  2,23 
 2 
..Problema 6.4.1
?
La un test specific de inteligenţă, 8 studenţi aleşi aleatoriu
au avut un indice IQ mediu de 121 puncte, cu o varianţă de 7, în
timp ce la un lot aleator de 12 liceeni s-a constatat un IQ mediu
de 112, cu o varianţă de 16 puncte. Admiţând că ambele
populaţii sunt aproximativ normale, să se găsească intervalul de
încredere 99% pentru diferenţa între mediile indicilor IQ reali, la
cele două populaţii.

..Problema 6.4.2
?
Considerând că valoarea 3,1 km a abaterii standard din
Problema 6.3.1 este o estimaţie nedeplasată, să se construiască
intervalul de încredere 95% pentru varianţa  2 a populaţiei
distanţelor faţă de uzină.

..Problema 6.4.3
?
Bricostore se aprovizionează cu şuruburi de un anumit tip
de la doi furnizori. Pentru a stabili dacă există diferenţe
semnificative între numărul mediu de şuruburi pe cutie livrate
de către aceştia, s-au ales aleator 10 cutii provenind de la primul
furnizor şi 9 de la al doilea. În primul caz s-a găsit un număr
mediu de şuruburi pe cutie de x1  35,3 bucăţi, cu o abatere
standard s1  2,4 , iar în al doilea caz a rezultat x2  31,7 şi s2  3,4 .
Admiţând populaţiile normale
a) Să se găsească intervalul de încredere 98% pentru 1   2
dacă se presupun varianţe egale
b) Să se construiască intervalul de încredere 90% pentru
1 /  2

..Problema 6.4.4
?
a) Dintr-un eşantion aleator de 300 posesori de autoturism,
210 declară că au maşină cu instalaţie de aer condiţionat. Să se
găsească intervalul de încredere 98% pentru proporţia
posesorilor de maşini cu aer condiţionat.
b) Ce eroare posibilă există la acest nivel de încredere,
dacă se estimează proporţia respectivă la 0,7 ?

..Problema 6.4.5
?
Petrom afirmă că 60% dintre staţiile sale oferă şi alte
facilităţi, în afara vânzării carburanţilor. Câte staţii trebuie
verificate aleator pentru a fi cel puţin 90% convinşi că nu se face
o eroare mai mare de 0,01 acceptând afirmaţia respectivă ?

6.5. Metode de estimare

Elementele prezentate anterior privind estimatorii şi


estimaţiile unor parametri ai populaţiilor de V.A. s-au bazat în
principal pe
distribuţiile de eşantionare a mărimilor (medie, varianţă,
diferenţa mediilor a două populaţii, etc.) şi pe
ipoteze asupra legii populaţiei originare.

Pentru a avea informaţii despre distribuţiile de


eşantionare este necesar
- să se dispună de numeroase date asupra realizărilor
posibile ale V.A. şi
- să se construiască numeroase eşantioane aleatoare din
acestea.
În majoritatea situaţiilor acest lucru este imposibil sau
prea costisitor, fiind necesare alte metode de estimare.

6.5.1. Metoda verosimilităţii maxime


Este una dintre cele mai frecvent folosite metode de
estimare a parametrilor a, b,... ai unei legi de probabilitate de
forma generală f  x; a, b, ,
pornind de la observaţiile unui eşantion de n valori xi
care sunt realizări ale V.A. X
şi pentru care se urmăreşte particularizarea expresiei lui
f  x; a, b,  .

Se numeşte funcţie de verosimilitate şi se notează prin


L produsul:
n
L   f  xi ; a, b,   (6.22)
i 1

care reprezintă densitatea de repartiţie comună a variabilelor


de selecţie şi se pune întrebarea
care valori ale parametrilor aˆ , bˆ, maximizează funcţia
de verosimilitate L ??? (în sensul că cele mai bune estimări
pentru aˆ , bˆ, vor fi acelea care provoacă apariţia sau
realizarea eşantionului observat, cu cea mai mare
probabilitate).

Multe legi de probabilitate conţin în expresia lor


exponenţiale, şi atunci este avantajos ca în locul lui L să se
folosească logaritm din L, considerând că atunci când L
devine maxim şi ln L îşi atinge maximul.
Se poate deci scrie, în locul relaţiei (6.22), relaţia:
n
ln L   ln f  xi ; a, b,  (6.23)
i 1

Condiţiile de extremum pentru ln L în raport cu


parametrii căutaţi a, b,... constau în anularea derivatelor
parţiale în raport cu aceşti parametri, adică:
   ln L 
 a 0
   ln L 


 b
0 (6.24)
 


ecuaţii care permit obţinerea estimărilor pentru ˆ , bˆ, 
a
Se poate demonstra că estimatorii de verosimilitate
maximă posedă varianţă minimă respectând una dintre
cerinţele fundamentale menţionate la începutul capitolului.

În continuare se dau câteva exemple de aplicare a


metodei verosimilităţii maxime.

1. Fie legea de distribuţie normală


2
1  x  
  
1
f  x; ,    e 2  
 2
şi un eşantion xi , i  1,2,  , n
dintr-o populaţie admisă normală,
de medie  şi abatere standard  necunoscute.
În baza definiţiei (6.22) rezultă:
 x ˆ  2
 
n n  i 2
2 2
L 2s  e 2s
i 1

şi prin logaritmarea (6.23) se obţine:


 
n x  2
n 
ln L   ln 2s 2   i
2 i 1 2s 2
Cu prima condiţie de extrem adică:
  ln L  1 n 1  n 
   x i  
ˆ  
  xi  nˆ   0 ,

ˆ 2
s i 1 2
s  i 1 
1 n
rezultă evident 
ˆ   xi  x
n i 1

deci estimatorul de verosimilitate maximă pentru media


populaţiei este media de eşantion.

Privind varianţa s2 ca al doilea parametru şi dezvoltând


ln L sub forma:
n n 1 n
ln 2  ln s 2   x  ˆ  2
2  i ,
ln L  
2 2 2 s i 1
prin derivare în raport cu s2 şi egalare cu zero se obţine
  ln L  n 1 n
2

2

4   xi  ˆ  2  0
s 2s 2 s i 1
n
1
sau n   xi  ˆ  2  0
s 2 i 1
1 n n
de unde s2  
n i 1 n i 1

 xi  ˆ  2  1  xi  x 2  , (un estimator deplasat al
varianţei populaţiei).
ns 2
S-a văzut că ˆ2 

n 1
este o estimaţie nedeplasată.

2. Pentru legea log-normală de parametri a şi b cu


funcţia de densitate:

 ln x a  2
f  x; a, b  
1
e 2b 2 ,
xb 2
procedând ca mai sus, se găsesc estimatorii de verosimilitate
maximă:
1 n 1 n
aˆ   ln xi şi bˆ    ln xi  aˆ  2
n i 1 n i 1

3. Fie legea binomială de parametru n – cunoscut şi


proporţie p necunoscută
b x ; n, p   C nx  p x  1  p  n x

şi m realizări xi , i  1,2, , m cunoscute ale unei populaţii de


V.A. admisă cu această distribuţie.
Funcţia de verosimilitate este
m
L   C n i  pˆ xi  1  pˆ  n xi
x

i 1

şi logaritm din ea care se poate scrie:


m m m m
ln L   ln C n i
x
ˆ xi  1  p
p ˆ  n xi    lnC ni
x
ˆ  xi  ln1  p
 ln p ˆ    n  xi 

i 1 i 1 i 1 i 1

Derivând în raport cu p̂ şi egalând cu zero rezultă:


  ln L  m
1 1 m
p
  xi 
pˆ i 1
  n  xi   0
1  pˆ i 1
m  m 
sau 1  pˆ   xi  pˆ  nm   xi   0
i 1  i 1 
m

de unde  xi ,
i 1 x
pˆ  
mn n
care este estimatorul de verosimilitate maximă

4. În cazul legii Poisson, de parametru  necunoscut:


x

p  x;    e  
x!
şi n realizări xi , i  1,2, , n cunoscute ale unei populaţii de V.A.
presupusă cu această distribuţie, se obţine succesiv:
n
ˆ xi
L   e  ˆ
i 1
xi !
n   ˆ ˆ xi  n
ln L   ln e      ˆ  xi ln ˆ  ln xi !  

i 1 
x i !  i 1
n n
 nˆ  ln ˆ  xi   ln xi !
i 1 i 1
  ln L  1 n 1 n
  n   xi  0 şi 
ˆ   xi  x
ˆ 
ˆ i 1 n i 1

6.5.2. Metoda momentelor

Dacă funcţia de densitate de probabilitate a populaţiei


depinde de r parametri  , adică:
f  x; 1 ,  2 ,  ,  r 
şi se dispune de un eşantion de n valori xi , i  1,2, , n
provenite din acea populaţie,
primele r momente teoretice ale lui f furnizează r relaţii
în care apar cei r estimatori ˆ pentru parametri respectivi.

Egalând cu valorile momentelor corespunzătoare găsite


pe baza datelor de eşantion, rezultă r ecuaţii cu necunoscutele
ˆ 1 , ˆ 2 ,  , ˆ r .

Prin rezolvarea acestor ecuaţii, se determină estimaţiile


ˆ ale parametrilor  căutaţi.
6.5.3.Metoda celor mai mici pătrate

În principiu, operează nu cu funcţia de densitate de


probabilitate, ci cu funcţia de repartiţie a legii de
probabilitate, deci cu:
x
F  x; 1 ,  2 ,  ,  r    f  u; 1 ,  2 ,  ,  r  du


Având un eşantion xi , i  1,2, , n selectat din populaţia


pentru care se presupune că f este legea de probabilitate,
- estimatorii parametrilor ˆ se obţin din condiţia ca
suma pătratelor diferenţelor dintre F  xi ; 1 ,  2 , ,  r  şi
valorile de eşantion ale funcţiilor de repartiţie Fi  xi  să fie
minimă, adică:

    2 
n

min S   F xi ; ˆ 1 , ˆ 2 ,  , ˆ r  Fi  xi  (6.26)

 i 1 

Derivatele parţiale ale lui S în raport cu fiecare
parametru ˆ , egalate cu zero, adică:
 S
 ˆ  0


1
............... (6.27)
 S
 0
 ˆ
 r
generează un sistem de r ecuaţii cu necunoscutele ˆ 1 , ˆ 2 ,  , ˆ r ,
care – prin rezolvare – furnizează valorile estimatorilor
respectivi.

6.5.4. Metoda Bayes

În metodele anterioare de estimare, informaţia provine


din eşantioane aleatoare şi ele interpretează probabilităţile ca
frecvenţe relative care sunt privite ca probabilităţi obiective.
Fie însă cazul că există informaţii suplimentare asupra
unui parametru  pentru care se doreşte o estimaţie,
de exemplu se cunoaşte distribuţia lui de probabilitate
(numită distribuţie anterioară), cu media anterioară  0 şi
varianţa anterioară  02 .
Probabilităţile asociate cu ea sunt numite probabilităţi
subiective.

Metodele Bayesiene folosesc


- elementele cunoscute despre distribuţia anterioară
- împreună cu informaţiile furnizate de eşantion
pentru a calcula distribuţia posterioară a parametrului  ,
(adesea media distribuţiei posterioare fiind admisă ca
estimaţie punctuală a lui  ).

Spre exemplu,
- în cazul parametrului  al unei populaţii normale,
- cu varianţa  2 cunoscută,
- dacă x este media unui eşantion de talie n şi
- se cunoaşte distribuţia anterioară a populaţiei mediei,
admisă normală de medie  0 şi varianţă  02 ,
atunci distribuţia posterioară a populaţiei mediei va fi
normală, cu media 1 şi varianţa 12 date de
n x 02   0  2  02  2
1  ; 12  (6.28)
n 02   2 n 02   2

(relaţiile folosibile şi când se lucrează cu eşantioane aleatoare


având n  30 , alese din populaţii nenormale şi când distribuţia
anterioară a mediei este aproximativ normală).
Dacă varianţa populaţiei  2 este necunoscută, ea se
poate înlocui prin varianţa de eşantion s 2 , pentru n  30 .

Media posterioară 1 va fi acum folosită ca estimaţie


punctuală a mediei populaţiei şi se poate construi un interval
Bayesian de încredere 1     100% pentru  de forma:
1  z c 1    1  z c 1 (6.29)
zc  z 
centrat pe 1 şi unde 1
2
este cuantila distribuţiei normale

standard pentru care funcţia de repartiţie ia valoarea 1  2 .

Metodele respective pot fi cuplate cu o abordare care


presupune definirea unei funcţii de pierdere (sau penalizare),
notată Lθ̂,  şi care penalizează alegerea incorectă a
estimatorului θ̂ utilizat pentru estimaţia parametrului  .
De regulă L θ̂,   θ̂ -  sau θ̂ -   2 .
Funcţia de risc pentru decizia de a alege estimatorul θ̂
este definită ca speranţa matematică a funcţiei de pierdere, se
notează R θ̂,  şi deci
R θ̂,   E  L θ̂,  (6.30)
cu expectaţia evaluată în raport de θ̂ .
Metoda folosită pentru a alege între doi estimatori
posibili este metoda minimax şi va fi preferat θ̂ pentru care
riscul este minim.

Durata de execuţie a unui reper simplu este


Exemplul 6.5.1

aproximativ normal distribuită, cu abaterea standard de 25


secunde. Din experienţa anterioară se cunoaşte că timpul
mediu de execuţie,  , este o variabilă aleatoare cu distribuţie
normală, având media  0  82 sec şi abaterea standard  0  5 sec .
Dacă pentru un eşantion aleator de 25 repere s-a
determinat un timp mediu de execuţie x  80 sec , să se găsească
intervalul Bayesian de încredere 99% pentru media populaţiei
 a duratelor de execuţie.
Soluţie
Conform (6.28), distribuţia posterioară a populaţiei
timpilor medii de execuţie va avea media 1 şi varianţa 12 :
n x 02   0  2 25  80  5 2  82  25 2
1    81sec
n 02   2 25  5 2  25 2
 02  2 5 2  25 2
12    12,5
n 02   2 25  5 2  25 2
şi 1  3,536 sec .
z z z
Cuantila c 1 0,201 0,995 se găseşte z c  2,575 iar

intervalul de încredere 99% după Bayes, se obţine cu (6.29),


adică:
81  2,575  3,536    81  2,575  3,536

sau  71,895    90,105 sec .

Fie şirul de debite maxime anuale înregistrate


Exemplul 6.5.2

la un post hidrometric pe pârâul P, într-un interval de 40 ani, ca


în tabelul următor.
Debite maxime anuale  m 3s 1 
An Qmax An Qmax An Qmax An Qmax
1 4,39 11 7,01 21 5,52 31 2,54
2 5,34 12 11,79 22 6,80 32 15,63
3 9,52 13 2,22 23 8,04 33 22,42
4 24,94 14 4,58 24 7,04 34 16,06
5 6,05 15 17,11 25 16,05 35 16,10
6 4,55 16 6,16 26 4,47 36 8,84
7 7,32 17 9,78 27 5,66 37 12,41
8 2,39 18 7,76 28 9,25 38 13,46
9 4,34 19 15,01 29 12,68 39 7,92
10 7,81 20 7,10 30 5,09 40 15,19

a) Să se folosească metoda verosimilităţii maxime pentru


a afla estimaţiile parametrilor a şi b ai funcţiei Gamma de
forma:
a b x b1e  ax
f  x  ,
 b 
care se admite că redă distribuţia acestei variabile hidrologice;
b) Să se traseze graficul funcţiei de densitate Gamma cu
parametri găsiţi mai sus;
c) Să se claseze datele problemei în clase de ecart egal
pe domeniul  0  X max  şi să se afle frecvenţele absolute de
eşantion şi respectiv cele teoretice, pe clase;
d) Să se compare mediile şi abaterile standard de
eşantion cu cele teoretice.

Soluţie
a) Logaritmul natural al funcţiei de verosimilitate va fi:

      n

i 1
n
 
ln L x; aˆ, bˆ   ln f xi ; aˆ, bˆ   bˆ ln aˆ  bˆ  1 ln xi  aˆxi  ln  bˆ
i 1
  
unde este numărul de date din eşantion.
n  40
Condiţiile de maxim pentru ln L au forma:
n  ˆ 
 ln L b
    xi   0
aˆ i 1
ˆ
a 

 ln L n 
  ln aˆ  ln xi 
 ln  bˆ      0
bˆ i 1  bˆ 
Din prima ecuaţie rezultă
bˆ n

n   xi sau x (a)
aˆ i 1 aˆ
A doua ecuaţie se poate scrie succesiv:
n 
 bˆ
 ln x  ln xi 
     0
 ln  bˆ
i 1  bˆ 

n
n ln bˆ  n ln x   ln xi  n
 ln  bˆ
0
  
i 1 bˆ


F bˆ  ln bˆ 
 ln  bˆ
c  0
   (b)
bˆ
1 n
unde s-a notat c  ln x   ln xi
n i 1 .

Ecuaţia (b) nu poate fi rezolvată analitic pentru a afla


valoarea adecvată a lui b̂ .
Derivata logaritmului funcţiei  în raport cu parametrul
se numeşte funcţia digamma.

Pentru funcţia ln     există o formulă de aproximare


cu rezultate bune pe toată plaja de valori  şi anume:
ln         0,5 ln   4,5     4,5  ln 2  ln g    
6 cj
unde g    1   , iar coeficienţii c j , j  1,2,  ,6 sunt
j 1
j 1

precizaţi.

Ecuaţia (b) se rezolvă numeric prin metoda bisecţiei, iar


în cadrul rezolvării derivata respectivă se evaluează numeric
după schema:
  
 ln  bˆ

  
ln  bˆ  0,01  ln  bˆ  0,01 
bˆ 0,02
Acest aspect şi restul problemei se rezolvă cu programul
Likelihood.
S-au obţinut valorile bˆ  3,25 şi apoi din (a) rezultă
aˆ  0,345 .

b)Graficul funcţiei de densitate Gamma cu parametrii


aˆ  0,345 şi bˆ  3,25 se calculează în program la pas
dx  x max n  24,94 40  0,62 şi are reprezentarea din figură
f(x)
0,1

0,075

0,05

0,025

x
0 5 10 15 20 25

c) Numărul de clase recomandat este N  1  3,33 log n  ,


rotunjit la întregul următor. Aici rezultă N  7 clase.
Pasul de clasare s-a luat x  xmax N  24,94 7  3,56 şi s-a
contorizat numărul de apariţii de date în fiecare clasă.

Pentru a afla frecvenţa absolută teoretică pe clasă s-a


admis procedeul aproximativ următor:
- Fie xinf k
şi xsup
k
limitele intervalului clasei k;
- Fie S k   f  xi  suma valorilor funcţiei de densitate
teoretică f  x; a, b  pentru valorile xi   xinf
k k
; xsup ;
- Atunci probabilitatea teoretică pentru ca V.A. să ia valori
din domeniul lui X aparţinând clasei k este aproximativ
Pk  S k dx , iar frecvenţa absolută teoretică pentru clasa k va fi
nPk .

S-au obţinut limitele de clase şi frecvenţele absolute de


eşantion, respectiv teoretice – ca în tabelul următor.
Clasa k
xinf
k
xsup neşantion nteoretic
1 0 3,56 3 3,46
2 3,56 7,13 15 12,15
3 7,13 10,69 9 11,45
4 10,69 14,25 4 6,11
5 14,25 17,81 7 3,93
6 17,81 21,38 0 1,75
7 21,38 24,94 2 0,72
Histogramele distribuţiei de eşantion şi respectiv de
probabilitate teoretică sunt reprezentate în figură.

număr 15 număr
20 apariţii apariţii

15
10

10

5
5

x x
0 0

a) b)
Histogramele frecvenţei absolute a) – de eşantion; b) – teoretică

d) Valorile calculate ale mediei şi abaterii standard de


eşantion sunt:
x  9,41 m s ; s  5,34 m s
3 -1 3 -1

Media şi abaterea standard teoretice se obţin cu relaţiile:


b
   9,41 m 3s -1 ;   b  5,22 m 3s -1
a a
Se constată că mediile de eşantion şi teoretică sunt egale,
iar abaterile standard au valori apropiate.

Pentru a monitoriza fiabilitatea unui produs


Exemplul 6.5.3

electronic de folosinţă continuă, serviciul de control al calităţii


din fabrica producătoare a selectat aleator un eşantion de 50
piese pe care le-a testat până în momentul defectării. Admiţând
unităţi arbitrare pentru timpul de defectare (zile, săptămâni etc)
şi datele observate înregistrate din tabelul următor, să se
folosească metoda celor mai mici pătrate pentru a estima
parametrii a şi b ai unei legi Weibull, considerată că reflectă
funcţia de densitate a timpilor de defectare, în cazul acestui
produs.
Timpi de defectare observaţi (unităţi arbitrare)

122,11 79,88 70,07 84,39 68,43 25,62 152,01 155,97 75,94 102,34
97,42 58,00 92,29 85,24 40,12 83,02 135,81 93,95 116,86 118,67
116,54 98,19 100,62 154,44 83,99 62,03 125,16 72,30 35,18 107,87
91,12 72,43 108,43 78,24 129,22 96,16 121,80 74,57 73,92 73,88
115,90 107,46 84,54 137,51 150,06 98,86 92,85 104,18 115,69 107,72

Soluţie
Funcţia de repartiţie a distribuţiei Weibull are o expresie
analitică precizată şi anume:
a
 x
 
F  x  1  e  b 
(a)
iar în Cap. 2 s-a recomandat, printre altele, formula:
Fˆ  x r   
r  0,3
N  0,4 (b)
pentru calculul funcţiei de repartiţie empirică, la valoarea x r 
de rang r din şirul de N date observate, ordonate crescător.
Prelucrând relaţia (a), se poate scrie succesiv:
a
 x
 
1  F  x  e  b 
;
1
1  F  x 
a
x
 
x
 
a
; 1
 e b 
e b  1  F  x

Prin dublă logaritmare a ultimei relaţii rezultă:


a
 1   x
ln   
1  F  x    b 
  1 
şi apoi ln ln    a ln x  ln b   a ln b  a ln x (c)
 1  F  x  
Notând
  1 
y  ln ln   ; z  ln x ;
 1  F  x  
c 0   a ln b ; c1  a ,
relaţia (c) capătă forma lineară y  c0  c1 z .

În metoda celor mai mici pătrate, estimaţiile coeficienţilor


ĉ 0 şi ĉ1 se obţin din condiţia de minimizare a sumei:
 N 2
 
min S    yˆ i  cˆ0  cˆ1 z i   ,

 i 1 

unde
se calculează folosind valoarea de eşantion, adică
ŷi
i  0,3
pentru Fˆ  xi   N  0,4 (relaţia (b)),
iar termenii cu semnul (–) corespund expresiei teoretice a
lui yi .
Din condiţiile de minim
 S N
  2  yˆ i  cˆ0  cˆ1 zi   0
 cˆ0 i 1
 N
 S
 cˆ  2 zi  yˆ i  cˆ0  cˆ1 zi   0
 1 i 1
rezultă sistemul de ecuaţii:
u0 cˆ0  u1cˆ1  v0

u1cˆ0  u2cˆ1  v1
cu soluţia c0   0  şi c1  1  , unde s-a notat:
N N
u0  N ; u1   zi ; u 2   z i2 ;
i 1 i 1
N N
v0   yˆ i ; v1   yˆ i z i ;
i 1 i 1
 u 0 u 2  u12 ;  0  u 2 v0  u1v1 şi 1  u 0 v1  u1v 0

După aflarea valorilor ĉ0 şi ĉ1 , estimaţiile parametrilor â


şi b̂ ai legii Weibull se obţin văzând notaţiile de mai sus, adică:

aˆ  cˆ1 şi ˆ
 0
b  e aˆ
Calculele s-au efectuat cu programul Mcmmp şi s-a găsit:
aˆ  3,348 şi bˆ  108,55

You might also like