02 Wykład2 - predykcja drzewa decyzyjne.pdf

(1733 KB) Pobierz
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Wykład 2
Modelowanie predykcyjne
- drzewa decyzyjne
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Struktura wykładu:
• Wprowadzenie do drzew decyzyjnych
• Proces budowy drzew
• Reguły podziału drzew
• Przycinanie drzew
• Zalety i wady drzew
2
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Wprowadzenie do drzew decyzyjnych
Drzewo decyzyjne (klasyfikacyjne)
– graficzna reprezentacja metody
rekurencyjnego podziału.
Metoda rekurencyjnego podziału
polega na stopniowym (hierarchicznym)
podziale wielowymiarowej przestrzeni cech na rozłączne podzbiory (klasy)
a do osiągnięcia ich jednorodności ze względu na wybraną cechę.
• Przedmiotem klasyfikacji jest pewien zbiór obiektów scharakteryzowany
przez wielowymiarowy wektor cech
(
x
1
,
x
2
,
K
,
x
m
,
y
)
.
• Wybraną zmienną (cechę) ze względu na którą dokonujemy klasyfikacji
nazywamy zmienną objaśnianą i oznaczamy
y.
Zmienna objaśniana
Jakościowa
Modele dyskryminacji (klasyfikacyjne)
Ilościowa
Modele regresji
3
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Drzewa decyzyjne (klasyfikacyjne)
Drzewo składa się z wierzchołków i krawędzi prowadzących od jednego
wierzchołka do drugiego.
Składowe drzewa:
Korzeń
– wierzchołek początkowy drzewa
Węzły
– wierzchołki
Gałęzie
– krawędzie
Rodzice węzłów
– węzły z którego wychodzą gałęzie skierowane do
innych węzłów zwanych dziećmi (potomkami) danego węzła rodzica
Liście
(klasy) – węzły, które nie mają dzieci
• Głębokość drzewa – najdłu sza droga, ze względu na liczbę
krawędzi, między korzeniem a dowolnym liściem.
• Drzewo binarne – drzewo w którym z ka dego wierzchołka
wychodzą dwie gałęzie.
4
DATA MINING – nr przedmiotu 233100-0997
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
dr Wioletta Grzenda
Drzewa decyzyjne
Drzewo decyzyjne
– zbiór reguł logicznych przedstawiony w postaci
struktury drzewiastej, w której węzłach skupiona jest cała próba
ucząca.
Cel budowy drzew decyzyjnych:
• znalezienie podziału badanych danych ze względu na wartości
zmiennych objaśniających tak, aby znaleźć precyzyjną regułę
klasyfikacji.
Zadanie drzew decyzyjnych:
• klasyfikacja obserwacji przyszłych o znanych atrybutach do jednej
ze skończonej ilości wyznaczonych klas.
Drzewo jest budowane –
uczone
lub
trenowane
na podstawie próby
uczącej.
5
Zgłoś jeśli naruszono regulamin