TPDimbalanced.pdf

(2114 KB) Pobierz
Odkrywanie wiedzy klasyfikacyjnej
z niezrównoważonych danych
Learning classifiers from imbalanced data
Wpływ niezrównoważenia klas na klasyfikator
Wykład ZED dla specjal. TPD
JERZY STEFANOWSKI
Instytut Informatyki
Politechnika Poznańska
Poznań
Uczenie się klasyfikatorów z niezrównoważonych danych
Zadajmy pytanie o rozkład przykładów w
klasach w zbiorze uczącym
Standardowe założenie:
Dane są zrównoważone – rozkłady liczności
przykładów w klasach względnie podobne
Przykład:
„A database of sick and healthy
patients contains as many examples of sick
patients as it does of healthy ones.”
Czy takie założenie jest realistyczne?
Przykład danych medycznych Chawla et al. SMOTE 2002
Niezrównoważenie rozkładu w klasach
Dane są niezrównoważone jeśli klasy nie są w przybliżeniu równo
liczne
Klasa mniejszościowa (minority
class)
zawiera wyraźnie mniej
przykładów niż inne klasy
Przykłady z klasy mniejszościowej są często najważniejsze i ich
poprawne rozpoznawanie jest głównym celem.
Rozpoznawanie rzadkiej, niebezpiecznej choroby
CLASS IMBALANCE
powoduje trudności w fazie uczenia i obniża
zdolność predykcyjną
Class imbalance is not the same
s COST sensitive learning.
n general cost are unknown!”
+++
++++ +
+ ++ ++
+ ++
++++ + +
+ + ++ +
+ +++
++
– –
– –
Przykłady niezrównoważonych problemów
Niezrównoważenie jest naturalne w :
Medical problems – rare but dangerous illness.
Helicopter Gearbox Fault Monitoring
Discrimination between Earthquakes and Nuclear
Explosions
Document Filtering
Direct Marketing
Detection of Oil Spills
Detection of Fraudulent Telephone Calls
Przegląd innych problemów i zastosowań
Japkowicz N., Learning from imbalanced data. AAAI Conf., 2000.
Weiss G.M., Mining with rarity: a unifying framework. ACM Newsletter,2004.
Chawla N., Data mining for imbalanced datasets: an overview. In The Data
mining and knowledge discovery handbook, Springer 2005.
He H, Garcia, Mining imbalanced data. IEEE Trans. Data and Knowledge 2009.
Zgłoś jeśli naruszono regulamin