wykład 9 wprowadzenie do modeli dla zero-jedynkowych zmi ennych objasnianych.pdf

(383 KB) Pobierz
MODELE ZMIENNYCH JAKOŚCIOWYCH
Modele dwumianowe (dychotomiczne) są najprostszymi i najpopularniejszymi
modelami, w których zmienna objaśniana jest zmienną jakościową. W modelach tych
zmienna objaśniana jest kwantyfikowana za pomocą zmiennej zerojedynkowej. Niech
y
i
oznacza
i-tą
realizację zmiennej zerojedynkowej
Y.
Zmienna
y
i
ma rozkład Bernoulliego.
Przyjmuje wartość 1 z prawdopodobieństwem
P
i
oraz wartość 0 z prawdopodobieństwem1-P
i
.
Wartość oczekiwana zmiennej
y
i
wynosi:
E
(
y
i
)
�½
1
P
0
(1
P
)
�½
P
i
i
i
W modelach dwumianowych zakłada się, że
P
i
jest funkcją wektora wartości zmiennych
objaśniających
x
i
dla
i-tego
obiektu oraz wektora parametrów
:
P
�½
P
(
y
i
�½
1)
�½
F
(
x
T
β
)
i
i
W zależności od typu funkcji
F
wyróżnia się różne rodzaje modeli. Do najbardziej znanych
należą:
liniowy model prawdopodobieństwa, którym
P
i
�½
F
(
x
T
β
)
�½
x
T
β
,
i
i
model logitowy, dla którego
P
i
�½
F
(
x
T
β
)
�½
i
model probitowy, gdzie
P
i
�½
F
(
x β
)
�½
T
i
x
T
β
i
1
,
1
exp
x
T
β
i
t
2
exp
  
dt
.
2
2
1

LINIOWY MODEL PRAWDOPODOBIEŃSTWA (LMP)
W liniowym modelu prawdopodobieństwa:
P
(
y
i
�½
1)
�½
P
�½
F
(
x
T
β
)
�½
x
iT
β
, stąd
P
(
y
i
�½
0)
�½
1
P
�½
1
F
(
x
T
β
)
�½
1
x
T
β
,
i
i
i
i
i
czyli wartość oczekiwana dla zmiennej zerojedynkowej
Y
jest następująca:
E
(
y
i
)
�½
1
P
0
(1
P
)
�½
P
�½
x
T
β
i
i
i
i
Wychodząc z tożsamości
y
i
�½
E
(
y
i
)
y
i
E
(
y
i
)
oraz definiując
i
�½
y
i
E
(
y
i
)
, otrzymuje
się, że
y
i
�½
E
(
y
i
)
i
�½
x
T
β 
i
, ostatecznie więc, liniowy model prawdopodobieństwa
i
można przedstawić jako:
y
i
�½
x
T
β
i
i
W LMP parametr
j
przy zmiennej
X
j
interpretujemy jako wzrost prawdopodobieństwa
zdarzenia
P
(
y
i
�½
1)
w wyniku wzrostu zmiennej
X
j
o jednostkę (przy założeniu
ceteris
paribus).
W LMP
dla
y
i
�½
1
z prawdopodobieństwem
P
i
mamy:
1
�½
x
T
β
i
, czyli
i
�½
1
x
T
β
�½
1
P
,
i
i
i
dla
y
i
�½
0
z prawdopodobieństwem 1-P
i
mamy:
0
�½
x
T
β 
i
, czyli
i
�½ 
x
T
β �½ 
P
,
i
i
i
Var
(
i
)
�½
P
(1
P
)
2
(1
P
)(
P
)
2
�½
P
(1
P
)
i
i
i
i
i
i
Wariancje składników losowych w liniowym modelu prawdopodobieństwa są różne. Do
estymacji wektora
nie należy wykorzystywać zwykłej MNK. Można za to zastosować
uogólnioną metodą najmniejszych kwadratów, w której wektor ocen parametrów wyraża się
wzorem:
b
�½
X
T
Ω
1
X
X
T
Ω
1
Y
1
(&)
gdzie:
-
macierz kowariancji i wariancji składników losowych określona wzorem:
0
P
1
P
1
1
0
P
2
1
P
2
Ω
�½
...
...
0
0
...
0
...
...
...
P
n
1
P
n
...
0
(*)
Na przekątnej macierzy
znajdują się wariancje składników losowych
i
(i=1, 2,
… n).
Poza
przekątną znajdują się kowariancje składników losowych. Zakładając, że składniki losowe są
nieskorelowane ze sobą, otrzymuje się kowariancje równe zero.
Do wyznaczenia wektora ocen parametrów
b
niezbędna jest macierz
(macierz
X
oraz
wektor
Y
znane).
Do
oszacowania
elementów
macierzy
niezbędne
prawdopodobieństwa
P
i
. W niektórych sytuacjach
P
i
są znane, w pozostałych trzeba je
oszacować. Prawdopodobieństwo
P
i
można określić w następujący sposób
1
:
1. Należy oszacować parametry liniowego modelu prawdopodobieństwa:
W tym przypadku ocena wektora parametrów wyraża się wzorem:
b
MNK
�½
X
T
X
X
T
Y
1
(**)
2. Przyjmuje się, że wektor teoretycznych wartości prawdopodobieństwa jest równy:
ˆ
p
MNK
�½
Xb
MNK
Teoretyczne
częstości
p
MNK
i
(i=1,2…n)
można
przyjąć
za
oszacowania
prawdopodobieństw
P
i
:
Oszacowania wariancji i kowariancji składników losowych mają postać:
1
Procedurę tę zaproponował Goldberger (1964)
p
1
1
p
1
0
p
�½ 
...
0
0
...
0
...
...
...
p
2
1
p
2
...
0
...
p
n
1
p
n
0
()
Ponieważ rozważana macierz
określona wzorem jest diagonalna, to stosuje się wersję
uogólnionej MNK zwaną ważoną MNK.
Zamiast wykonywać mnożenie macierzy można zastosować transformacje zmiennych:
y
i
*
�½
y
i
x
,
x
i
*
�½
i
, gdzie
w
i
– wagi,
w
i
�½
w
i
w
i
p
i
1
p
i
dla
Y*
i
X*
stosujemy zwykłą MNK
Uwaga: aby móc zastosować wzór
w
i
�½
p
i
1
p
i
,
p
i
powinno być:
0
p
i
1
.
Dla dużych prób zwykle
0
p
i
1
. Czasami w sytuacji, gdy
p
i
0
proponuje się przyjąć
p
i
�½
0,001
(lub 0,005), gdy zaś
p
i
1
, to
p
i
�½
0,999
(lub 0,995) (por. Baltagi 2008).
Jeśli relatywnie dużo obserwacji nie spełnia warunku
0
p
i
1
, to należałoby
respecyfikować model.
Uwaga: Oprócz UMNK do estymacji parametrów LMP można wykorzystać metodę
największej wiarygodności.
PRZYKŁAD
Oszacowano model LMP dla wiarygodności klientów banku następującej postaci:
ˆ
y
i
�½
0,66
0,005
x
i
gdzie:
y
i
=1 dla osób regularnie płacących raty oraz
y
i
=0 dla pozostałych kredytobiorców,
x
i
- wysokość zarobków (w tys. PLN rocznie).
Należy zinterpretować wartość teoretyczną dla klienta, dla którego zarobki wynoszą 40 PLN.
p
�½
0,66
0,005
40
�½
0,86
- czyli prawdopodobieństwo regularnej spłaty rat wynosi 0,86.
Jaka jest interpretacja oceny parametru wynoszącej 0,005?
Ocenę parametru 0.005 interpretujemy jako średni wzrost prawdopodobieństwa, że klient będzie
regularnie spłacał raty w wyniku wzrostu rocznych zarobków o 1 tys. PLN.
Liniowy model prawdopodobieństwa był szeroko stosowany w latach 60-tych i 70-tych XX
w.
Zalety LMP:
łatwość estymacji,
bezpośrednia interpretacja oszacowań.
Zastosowanie najprostszego z przedstawionych modeli - liniowego modelu
prawdopodobieństwa ma wiele negatywnych konsekwencji.
1. Składnik losowy modelu
y
i
�½
x
T
β
i
jest heteroskedastyczny, gdyż
Var
(
i
)
�½
P
i
(1
P
i
)
.
i
2. Składnik losowy modelu
y
i
�½
x
T
β
i
nie ma rozkładu normalnego, co powoduje
i
trudności w zastosowaniu testów istotności.
ˆ
3. Wartości
y
i
�½ x
T
b
mogą wykraczać poza przedział [0, 1] (przez
b
oznaczono wektor ocen
i
wektora parametrów
).
4. Współczynnik determinacji R
2
w modelu LMP przyjmuje zwykle bardzo niskie wartości.
Ponadto, fundamentalny problem w stosowaniu LMP polega na przyjęciu założenia, że
prawdopodobieństwo w sposób liniowy zależy od zmiennych objaśniających, co jest
równoznaczne z założeniem, że krańcowy efekt jest stały. W większości problemów
praktycznych zależność prawdopodobieństwa od zmiennych objaśniających jest nieliniowa.
Zgłoś jeśli naruszono regulamin