You are on page 1of 35

Analisa Data Statistik

Chap 11: Regresi Linear

Agoes Soehianie, Ph.D


Model Regresi Linear
Variabel Y merupakan respons dari variabel independen x dengan
hubungan Y = α + β X + ε . Dengan α dan β adalah titik poting
dengan sumbu Y dan gradien yg belum diketahui, sedangkan ε
adalah variabel random dengan sifat nilai rata-rata =0, dan
variansi = σ2.

Dari sampel data diperoleh set data {xi,yi} ingin diperoleh model garis
lurus terbaik y= a + b x, yaitu dengan mendapatkan a sebagai
estimator α dan β di estimasi oleh b.

Variable independen X dipilih yg error dalam pengukurannya kecil


atau dapat diabaikan dibandingkan Y.
Garis Lurus Terbaik – Metoda Least Squares

X yˆ  a  bx
Yk
ek
ŷk

Xk X

Garis lurus terbaik diperoleh dengan meminimasi residual error ek


yaitu selisih antara predicted yk dengan data yg dipeoleh yk, yaitu
jumlah total kuadrat residual error minimum (Sum Squares of
Errors) N N N
SSE   ek2  ( yˆ k  yk ) 2  (a  bxk  yk ) 2
k 1 k 1 k 1
Garis Lurus Terbaik – Metoda Least Squares

Untuk mendapatkan koefisien a dan b yg terbaik, maka dicari a dan b


yg meminimumkan SSE, yaitu dengan menghitung turunan SSE
thd a dan b:

 
SSE  0 SSE  0
a b
Yang akan memberikan dua buah persamaan linear bagi a dan b:
 N N N N N


a k 1
(a  bxk  yk )  2 (a  bxk  yk ) 2a 1  2b xk 2 yk 0
2

k 1 k 1 k 1 k 1

 N N N N N


b k 1
(a  bxk  yk )  2 xk (a  bxk  yk ) 2a  xk  2b xk  2 xk yk 0
2

k 1 k 1 k 1
2

k 1
Garis Lurus Terbaik – Metoda Least Squares

Dalam notasi matrix sistem pers. Linear tsb dapat dituliskan:


N N N
a  1  b  xk   y k
k 1 k 1 k 1
N N N
a  xk  b  x   xk y k2
k
k 1 k 1 k 1

 N N
  N 
 1  x    y k 
 k 1 k 1
k
 a 
    k 1 
 N N   
2  b 
N

  xk  x k   k k 
x y
 k 1 k 1   k 1 

Solusi bagi sistem pers. Linear tsb dapat diperoleh dengan berbagai cara antara lain cara
Cramers:
Garis Lurus Terbaik – Metoda Least Squares

Solusi bagi a dan b (metoda Cramers):


N N

1 y
N N

y
k 1
k x
k 1
k
k 1 k 1
k

N N

x x
N N

x k yk x 2
k
k 1
k
k 1
k yk
a k 1 k 1 b N N

1  x
N N

1  x
k 1 k 1
k
k 1 k 1
k

N N

 xk  k
N N

x x
2
2 x
k k
k 1 k 1
k 1 k 1
N N N N

1 x y k   xk  y k
N N N N
Atau :  x  y  x  x
2
k k k k yk k

a k 1 k 1 k 1 k 1 b k 1 k 1 k 1 k 1
2
 N 
2 N
 N 
N

 1 x    xk 
N N

 1 xk    xk 
2 2
k
k 1 k 1  k 1  k 1 k 1  k 1 
Garis Lurus Terbaik – Metoda Least Squares

Penyederhanaan bisa dilakukan mengingat Σ1=N, sehingga:


N N N
N  xk y k   xk  y k
N N N N

 x  y  x  x
2
k k k k yk
a k 1 k 1 k 1 k 1 b k 1 k 1 k 1
2
 
2 N
 N 
N  x    xk 
N N
N  xk2    xk 
2
k
k 1  k 1  k 1  k 1 

Untuk keperluan perhitungan, formula di atas dapat dituliskan sbb:


N

 x k  x  yk  y 
b k 1 a  y  bx
x 
N
2
k x
k 1
N N

Dengan
x k y k
x k 1 y k 1
N N
Notasi

Untuk keperluan penulisan diperkenalkan notasi berikut:


N N N
S XY    xk  x  yk  y     xk  x     yk  y 
2 2
S XX SYY
k 1 k 1 k 1

Sehingga rumus regresi linear dapat dituliskan sbb:

b = SXY/SXX a=ys-bxs

Dengan xs dan ys adalah rata-rata x dan y.


Contoh

X Y Xs=X-Xr Ys=Y-Yr Xs^2 Ys^2 Xs*Ys Yteori

27 250 -21.8 -35.5 476.7 1260.25 775.1 255.0

45 285 -3.8 -0.5 14.7 0.25 1.9 280.2

72 320 23.2 34.5 536.7 1190.25 799.3 317.8

58 295 9.2 9.5 84.0 90.25 87.1 298.3

31 265 -17.8 -20.5 318.0 420.25 365.6 260.6

60 298 11.2 12.5 124.7 156.25 139.6 301.1

Σ 293 1713 0 0 1554.8 3117.5 2168.5

SXX = 1554.9 SYY= 3117.5 SXY=2168.5


xs= 293/6=48.8 ys=1713/6=285.5
b = SXY/SXX = 1.3947 a= ys-bxs= 285.5- 1.3947*48.8=217.39
Contoh : Grafik

Regresi Linear

340
320
300
280
Y

260
240
220
20 30 40 50 60 70 80
X
Partisi Variabilitas Total dan Estimator Variansi

Dapat dibuktikan SSE (Sum Squares of Errors) bisa dituliskan sebagai:


N
SSE   ( yk  yk ) 2  SXX  b * SXY
k 1

Sedangkan variansi dari Y, yaitu σ2 , diwakili oleh estimator S2 yg besarnya


adalah:

SSE SYY  b * SXY


S2  
n2 n2
S juga disebut Standard Error Estimates bagi Y.

Catatan SSE kadang dinamakan juga SST (Total corrected sum squares of Y)
Inference Statistik ttg Slope Regresi (β)

Estimator bagi slope regresi β adalah b, sedangkan variabel statistik yg terkait dengan distribusi
b adalah :

b
t
S / SXX

Variabel t memiliki distribusi student-t dengan derajat kebebasan v=n-2.


Dengan ini dapat dicari interval kepercayaan bagi slope (β) dan juga dilakukan testing hipotesis terhadap slope tsb.
Contoh: Interval Kepercayaan β

Dari contoh sebelumnya tentukan interval kepercayaan 95% bagi slope (β).

Jawab:

Interval kepercayaan 100(1-α)% diberikan oleh

b  t / 2 S / SXX    b  t / 2 S / SXX

Jumlah data n=6, sehingga v=n-2 = 4. Interval kepercayaan 95%


berarti α = 5%. Dari tabel student-t diperoleh nilai kritis t0.025 (v=4)
adalah 2.776.
SYY  b * SXY
S 
2

n2
Contoh: Interval Kepercayaan β

Dari tabel tsb diperoleh:


SXX = 1554.9 SYY= 3117.5 SXY=2168.5 b = SXY/SXX = 1.3947
Sehingga:
SYY  b * SXY 3117 .5  1.3947 * 2168.5
S2    23.28
n2 62

Sehingga interval kepercayaan bagi slope adalah:

b  t / 2 S / SXX    b  t / 2 S / SXX

1.3947  2.776 * 23.28 / 1554.9    1.3947  2.776 * 23.28 / 1554.9


interval kepercayaan 95% bagi slope adalah: 1.?? < β < 1.??
Contoh: Hipotesis Testing untuk slope β

Tabel disamping memberikan hasil No x y No x y


pengukuran BOD (Biological Oxygen 1 3 5 17 36 38
Demand) Y% dan Solid Reduction X(%). 2 7 11 18 36 34
3 11 21 19 37 36
Periksalah hipotesa H0: β=1 dan H1: β<1
4 15 16 20 38 38
dengan tingkat signifikan 5%
5 18 16 21 39 37
Oxygen Dem and vs Solid Reduction 6 27 28 22 39 36
7 29 27 23 39 45
60
8 30 25 24 40 39
50 9 30 35 25 42 41
40 10 31 30 26 42 40

30
11 31 40 27 43 44
Y

12 32 32 28 44 37
20
13 33 34 29 45 44
10
14 33 32 30 46 46
0 15 34 34 31 47 49
0 10 20 30 40 50 60
16 36 37 32 50 51
X
Contoh: Hipotesis Testing

Jawab:
1. Hipotesa H0: β=1 dan H1: β<1
2. Tingkat signifikan α= 5%
3. Daerah kritis b
Variabel statistik untuk di test adalah t: t
S / SXX
dengan derajat kebebasan v=n-2
Nilai kritis -t0.05 = -1.697
Tolak H0 jika t < -1.697
Contoh: Hipotesis Testing

4. Perhitungan
Berdasarkan tabel data diperoleh koefisien regresi Y = a+ bX,
a = 4.1390 b=0.8895
SXX = 4093.47 SYY = 3566.88
SXY = 3641.19
S2 = (SYY-b SXY)/(n-2) = (3566.88-0.8895*3641.19)/(32-2)
S = 3.3065
b 0.8895  1
t   2.14
S / SXX 3.3065 / 4093.47
5. Keputusan
Karena t < -1.697 maka H0 ditolak
6. Kesimpulan, cukup bukti untuk menolak bahwa slope = 1, dan
menerima slope < 1
Interval Kepercayaan & Interval Prediksi
Untuk sebuah nilai X tertentu, kita dapat membuat interval
kepercayaan bagi nilai rata-rata Y yg terkait, dengan interval
kepercayaan (1-α)100% yaitu diberikan oleh:

 1 ( X  X )2  1 ( X  X )2
Y  t * S   Y  Y  t * S 
n SXX n SXX
N

 X i
Dengan Y  a  bX dan X i 1

N
Sedangkan interval prediksi nilai Y (bukan rata-rata) bagi sebuah
nilai X tertentu adalah:

 1 ( X  X )2  1 ( X  X )2
Y  t * S 1    Y  Y  t * S 1  
n SXX n SXX
Contoh
Contoh.
Data berikut ini memberikan hubungan antara frekuensi kunjungan
Salesman fotocopy (X) dan jumlah mesin fotocopy terjual (Y).

a) Buatlah interval kepercayaan 95% bagi rata-rata fotocopy terjual


bagi salesman-salesman yg melakukan kunjungan sebanyak 25
kali
b) Bilamana si Polan melakukan kunjungan 25 kali berapakah interval
kepercayaan 95% bagi jumlah mesin fotocopy yg mampu dia jual?
SOlusi

Jawab.
Hasil pengolahan data memberikan:
X  22 Y  45
SXX = 760 SYY=1850 SXY=900
b = SXY/SXX = 900/760 = 1.1842
a = Yrata-b*Xrata = 45 – 1.1842*22= 18.95
S2 = (SYY-bSXY)/(n-2) = 98.03  S = 9.90

Dari tabel student t untuk v=n-2=8, t0.025 = 2.306


Sehingga untuk X=25, Y = a+bX = 18.95+1.1842*25 =48.55

1 ( X  X )2 1 (25  22) 2
t0.025 * S   2.306 * 9.9 *   7.64
n SXX 10 760
SOlusi

Jawab (lanjutan).
Hasil pengolahan data memberikan:

a) Interval kepercayaan bagi rata-rata sales untuk frekuensi


kunjungan X=25 adalah

 1 ( X  X )2  1 ( X  X )2
Y  t * S   Y  Y  t * S 
n SXX n SXX
48.55 – 7.64 < Y < 48.55+ 7.64
40.9 < Y < 56.2
b) Interval prediksi bagi si Polan yg melakukan kunjungan X=25 kali:

 1 ( X  X )2  1 ( X  X )2
Y  t * S 1    Y  Y  t * S 1  
n SXX n SXX
SOlusi

Jawab (lanjutan).

1 ( X  X )2 1 (25  22) 2
t0.025 * S 1    2.306 * 9.9 * 1    24.1
n SXX 10 760

48.55 – 24.1 < Y < 48.55 + 24.1


24.5 < Y < 72.6

Wajar bagi interval prediksi bagi 1 orang si Polan jauh lebih besar
dibandingkan dengan interval kepercayaan bagi rata-rata sales
untuk seluruh sales untuk jumlah kunjungan yg sama yaitu 25.
Grafik : Garis Regresi, CI dan Prediksi

Sales vs Frek Kunjungan

100
90
80
70 Data
60 Teori
Y(sales)

CI-min
50
CI-max
40 Pred-min
Pred-max
30
20
10
0
0 10 20 30 40 50
X (kunjungan)
ANALISA KORELASI - Definisi

Analisa korelasi ini mempelajari hubungan atau asosiasi antara


beberapa variabel. Bilamana regresi dilakukan hingga menyatakan
hubungan eksplisit berupa persamaan matematika, maka pada
analisa korelasi hanya diwujudkan pada kekuatan hubungan itu saja
yg dinyatakan oleh koefisien korelasi.

Koefisien korelasi (r) : ukuran kekuatan asosiasi linear antara dua


variabel.

SXX SXY
r b 
SYY SXX * SYY

Nilai r terbatas anstara -1 sd 1. Nilai r=1 atau -1 menyatakan


hubungan korelasi sempurna antara X dan Y.
ANALISA KORELASI - Definisi

APakah nilai korelasi 0.8 bagus atau tidak, tidak ada ukuran absolut.
Tergantung pada kasusnya. Untuk ilmu sosial atau ekonomi dimana
banyak sekali variabel yg berpengaruh, nilai tsb sudah bagus sekali
menyatakan hubungan korelasi yg kuat. Akan tetapi di bidang
engineering, dimana variabel bisa dikontrol sangat ketat sekali, nilai
r=0.9 mungkin baru dipandang cukup bagus.

Hal lain adalah kita tidak boleh menyatakan r=0.6 adalah 2x lebih
bagus dibandingkan r=0.3

Korelasi (r=1) Korelasi (r=-1)

25 25
20
20 15
10
15
5
10 0
Y

-6 -4 -2 -5 0 2 4 6 8 10
Y

5 -10
-15
0
-20
-6 -4 -2 0 2 4 6 8 10
-5 -25
-30
-10 X
X
Contoh

Kita pakai contoh sebelumnya, tentang hubungan antara sales mesin


fotocopy (Y) dan frekuensi kunjungan (X)

No X Y
5 10 30
6 10 40
1 20 30
3 20 40
7 20 40
8 20 50
9 20 30
4 30 60
10 30 70
2 40 60
Contoh
No X Y Xe=X-Xs Ye=Y-Ys Xe^2 Ye^2 Xe*Ye
5 10 30 -12 -15 144 225 180
6 10 40 -12 -5 144 25 60
1 20 30 -2 -15 4 225 30
3 20 40 -2 -5 4 25 10
7 20 40 -2 -5 4 25 10
8 20 50 -2 5 4 25 -10
9 20 30 -2 -15 4 225 30
4 30 60 8 15 64 225 120
10 30 70 8 25 64 625 200
2 40 60 18 15 324 225 270
Sum 220 450 0 0 760 1850 900
Mean 22 45 0 0 76 185 90

Dari perhitungan manual tsb diperoleh:


SXX = 760 SYY = 1850 SXY = 900
Sehingga koefisien korelasinya., r

SXY 900
r  0.7590
SXX * SYY 760 *1850
Contoh
Apa artinya r=0.7590?
1. Nilainya positif, jadi ada hubungan langsung kenaikan frekuensi
kunjungan (X) akan menaikkan juga volume sales (Y).
2. Karena 0.759 lumayan dekat ke nilai 1 jadi agaknya memang
hubungan antara frekuensi kunjungan dengan kenaikan sales
cukup kuat.
Koefisien Determinasi
Arti lebih jelas daripada r didapat dari r2 = R yang sering disebutkan
sebagai koefisien determinasi sampel.
SXY 2 SSR
Jadi R adalah: Rr 
2

SXX * SYY SYY
Dimana SST = SSR + SSE, dengan masing-masing adalah
n n n

 i
(
k
y  y ) 
2
 i
( ˆ
y 
k
y )   i i
2
( y 
k
ˆ
y ) 2

DI depan kita beri nama SST=SEE. SSR = Sum Squares of Residual


atau regression sum squares, SSR mencerminkan bagian dari
variasi data yg bisa dijelaskan oleh regresi.
Sehingga R menyatakan porsi dari variasi SYY yg bisa dijelaskan
dengan regresi Y thd X, atau porsi dari variabilitas variabel Y yg
bisa dijelaskan oleh model regresi.
Hipotesis Testing untuk koefisien
korelasi
Untuk memeriksa kebenaran hipotesis
H0: ρ = 0
H1: ρ ≠ 0
yg berkenan dengan koefisien korelasi r, maka variabel statistik yg
diuji adalah
b r n2
t 
S / SXX 1 r2
Yg terdistribusi menurut student t dengan derajat kebebasan v=n-2.
Contoh
Dalam contoh sebelumnya, tentang sales mesin fotocopy, ujilah
hipotesa H0: ρ=0 dengan H1: ρ≠0 dengan tingkat signifikan 5%.

Jawab:
1. Hipotesa
H0: ρ=0 dengan H1: ρ≠0
2. Tingkat signifikan α = 0.05
3. Daerah kritis : ini adalah tes 2 ekor
Variabel statistik yg diuji adalah t: r n2
t
dengan n= 10, sehingga
1 r 2
nilai kritis t0.025(v=10-2=8) = 2.306
Tolak H0 jika t > 2.306 atau t < -2.306
4. Perhitungan, telah dihitung r=0.759
r n2 0.759 10  2
t   3.297
1 r 2
1  0.759 2
Contoh

5. Keputusan
Karena r > 3.297, maka H0 ditolak
6. Kesimpulan

Cukup bukti untuk menyatakan bahwa ada hubungan korelasi


linear antara frekuensi kunjungan (X) dengan tingkat penjualan (Y)
Hipotesis Testing untuk koefisien
korelasi
Sedangkan untuk kasus lebih umum untuk memeriksa kebenaran
hipotesis
H0: ρ = ρ0

yg berkenan dengan koefisien korelasi r, maka variabel statistik yg


diuji adalah

n  3  (1  r )(1   0 ) 
z ln  
2  (1  r )(1   )
0 

Yg terdistribusi menurut distribusi normal


Contoh
Dalam contoh sebelumnya, tentang sales mesin fotocopy, ujilah
hipotesa H0: ρ=0.8 dengan H1: ρ<0.8 dengan tingkat signifikan 5%.

Jawab:
1. Hipotesa
H0: ρ=0.8 dengan H1: ρ< 0.8
2. Tingkat signifikan α = 0.05
3. Daerah kritis : ini adalah tes 1 ekor
n  3  (1  r )(1   0 ) 
Variabel statistik yg diuji adalah Z: z ln  
2  (1  r )(1   )
0 
nilai kritis -Z0.05 = -1.645
Tolak H0 jika Z < -1.645
4. Perhitungan, telah dihitung r=0.759, dan dalam hal ini ρ0=0.8
n  3  (1  r )(1   0 )  10  3  (1  0.759)(1  0.8) 
z ln    ln    0.227
2  (1  r )(1   0 )  2  (1  0.759)(1  0.8) 
Contoh

5. Keputusan
Karena Z> -1.645, maka H0 tidak bisa ditolak
6. Kesimpulan

Tidak cukup bukti untuk menyatakan bahwa ρ< 0.8

You might also like