|
Metodologia Data Mining - model referencyjny CRISP-DM Przedstawiony model procesu drążenia danych opisuje kolejne etapy projektu data mining. Obejmuje on poszczególne stadia projektu, odpowiadające im zadania i powiązania między tymi zadaniami. Na tym poziomie opisu nie jest możliwe zidentyfikowanie wszelkich możliwych związków. W gruncie rzeczy, związki te mogą występować pomiędzy wszystkimi zadaniami data mining w zależności od ich celów, kontekstu, zamierzeń użytkownika i przede wszystkim od danych.

Na projekt data mining składa się sześć etapów. Powyższy rysunek przedstawia poszczególne fazy procesu data mining. Przedstawiona tu kolejność nie jest jednak "sztywna". Często niezbędny jest powrót do etapów poprzednich. Wynik każdej z faz decyduje o tym, która faza lub jakie konkretne zadanie zostanie wykonane w następnej kolejności. Strzałki wskazują najważniejsze i najczęściej pojawiające się zależności między etapami.
Zrozumienie uwarunkowań biznesowych
Ta pierwsza faza koncentruje się wokół zrozumienia celów projektu i stawianych mu wymagań z perspektywy biznesowej a następnie wokół przetworzenia tej wiedzy w definicję problemu data mining i stworzenia planu działań, zmierzających do osiągnięcia tego celu.
Zrozumienie danych
Faza zrozumienia danych rozpoczyna się od wstępnego zebrania danych i polega na czynnościach mających na celu zaznajomienie się z danymi, rozpoznanie problemów z jakością danych, dotarcie do pierwszych spostrzeżeń i wykrycie interesujących grup pozwalających na skonstruowanie hipotez o kryjących się w danych informacjach.
Przygotowanie danych Faza ta obejmuje wszystkie czynności zmierzające do stworzenia ostatecznego zbioru danych ( tj. danych, które będą wykorzystywane przez narzędzia modelujące) z danych surowych. Poszczególne zadania podczas przygotowywania danych prawdopodobnie będą wykonywane wielokrotnie i bez żadnej zalecanej kolejności. Zadania te obejmują wybór tabel, rekordów i atrybutów jak również dokonanie przekształceń i wyczyszczenie danych przed ich wykorzystaniem w narzędziu modelującym.
Modelowanie
W tej fazie następuje wybór i zastosowanie różnych technik, a także optymalizacja ich parametrów. Przeważnie z danym typem problemu data mining wiąże się kilka technik. Niektóre techniki mają specyficzne wymagania co do postaci danych. Dlatego też często niezbędne jest cofnięcie się do etapu przygotowania danych.
Ewaluacja
Na tym etapie projektu mamy już stworzony model (lub wiele modeli), który wydaje się mieć wysoką jakość z perspektywy analizy danych. Przed przystąpieniem do ostatecznego wdrożenia modelu ważne jest poddanie modelu gruntownej ocenie i przyjrzenie się zrealizowanym etapom prowadzących do stworzenia modelu, aby z pewnością można było stwierdzić, że model we właściwy sposób osiąga zakładane cele biznesowe. Kluczowym celem jest ustalenie, czy są jakieś ważne cele biznesowe, które nie zostały w należyty sposób uwzględnione. Na zakończenie tego etapu powinna być podjęta decyzja co do wykorzystania wyników data mining.
Wdrożenie
Stworzenie modelu zasadniczo nie stanowi zakończenia projektu. Nawet jeżeli w zamierzeniu model ma tylko wzbogacić wiedzę o danych, zdobyta wiedza musi zostać uporządkowana i przedstawiona w taki sposób, aby klient był w stanie z niej skorzystać. Polega to często na zastosowaniu "żywych" modeli w ramach procesu podejmowania decyzji w organizacji, np. na personalizowaniu stron WWW w czasie rzeczywistym (on-line) albo na tworzeniu powtarzanych scoringów marketingowych baz danych. W zależności jednak od potrzeb faza wdrożenia może być tak prosta jak wygenerowanie raportu albo tak skomplikowana jak realizacja powtarzalnego procesu data mining w całym przedsiębiorstwie. W większości przypadków to klient a nie analityk wykonuje czynności związane z wdrożeniem. Nawet gdy jednak analityk nie podejmie się realizacji wdrożenia, dla klienta ważne jest uprzednie zrozumienie, jakie działania należy podjąć aby rzeczywiście zrobić użytek ze stworzonych modeli.
więcej >>
|