Korzystanie z analiz statystycznych
Techniki statystyczne stanowią ważne uzupełnienie procesu drążenia danych, data mining nie zastępuje jednak analiz statystycznych. Często wykorzystuje się analizy do oceny rezultatów drążenia danych, zaś tradycyjne procedury statystyczne (takie jak np. regresja), są wykorzystywane w data mining do budowania modeli predykcyjnych, podobnie jak sieci neuronowe, drzewa decyzyjne i inne.
Data Mining nie boi się terabajtów danych
Ponieważ proces data mining szuka odpowiedzi na konkretne pytania biznesowe, nie należy do analiz pakować terabajtów danych "jak popadnie". Część z nich może być zupełnie nieadekwatnych do rozpatrywanego problemu. Z drugiej strony należy się upewnić, czy posiadane narzędzie data mining poradzi sobie z przygotowaniem i eksploracją milionów rekordów oraz ze zbudowaniem na ich podstawie modeli, bez kłopotliwego tworzenia kopii bazy danych.
Kto wrzuci śmieci, ten wyjmiecie śmieci
Nie należy zabierać się za gromadzenie jak największej ilości danych bez uprzedniego postawienia problemu biznesowego i zdefiniowania celów biznesowych. W przeciwnym wypadku można zmarnować mnóstwo czasu i pogubić się w danych, nie osiągnąwszy, ani nawet nie zbliżywszy się do rozwiązania problemu. Danych nie analizuje się tylko dlatego, że istnieją, lecz po to, aby rozwiązać konkretny problem. Dane są tylko środkiem dotarcia do tego celu.
A może zacząć od końca?
Zanim przystąpi się do drążenia danych, należy się zastanowić, jakie należy przyjąć kryteria oceny jego rezultatów. Jakie będą wskaźniki biznesowe, w jaki sposób zostaną one wyliczone lub wyprowadzone? To bardzo ważny etap procesu data mining, pozwalający na późniejsze określenie ROI.
Wykorzystanie tego, co się ma
Przed przystąpieniem do projektu data mining dobrze jest się upewnić, czy system data mining dedykowany do eksploracji danych jest w stanie skorzystać z danych bezpośrednio z miejsc ich gromadzenia - niezależnie od tego, czy znajdują się one w plikach, czy w też w bazach danych. Trzeba również sprawdzić, czy system data mining może wykorzystywać (zintegrować) posiadane już narzędzia do analizy i wizualizacji danych. Jeśli nie, to dobrze rozejrzeć się za takim systemem, który zaspokaja powyższe warunki.
Zapytania do baz danych, raportowanie i kostki OLAP to nie jest data mining
Zapytania bazodanowe, kostki OLAP, narzędzia raportujące - czy też jakiekolwiek inne narzędzia sięgające w głąb danych i dokonujące ich selekcji - pozwalają zrozumieć, co działo się w przeszłości, ale nie stanowią one jeszcze narzędzi data mining. Proces ten na ogół dotyczy tego, co będzie się działo w przyszłości. W tym celu należy wykorzystać różne modele predykcyjne, oparte na procedurach statystycznych i technikach sztucznej inteligencji, takich jak np. sieci neuronowe.
W data mining nie ma magicznego złotego środka
Żadna z technik nie jest tak uniwersalna, aby rozwiązać wszystkie postawione problemy biznesowe. Często będzie tak, że w jednej sytuacji konkretna technika będzie się sprawdzać lepiej, podczas gdy w innej sytuacji, na odmiennych danych, lepsze będzie zastosowanie innej. Dlatego trzeba mieć pod ręką różne narzędzia, aby móc wykonać zadania jak najlepiej.
Drążenie danych przeprowadza się po to, aby później wykorzystywać jego wyniki w praktyce
Data Mining nie jest zagadnieniem akademickim - rezultaty drążenia danych z założenia mają być wykorzystywane, wdrażane, powodować zmiany w sposobie działania przedsiębiorstwa. Wdrożenie może oznaczać pozyskanie wiedzy (np. czym wyróżnia się nasz najbardziej dochodowy segment klientów) lub też wykorzystywanie modeli w codziennej działalności (np. scoring klientów kontaktujących się z biurem obsługi klienta umożliwiający skuteczną sprzedaż krzyżową).
Data Mining nie jest tylko zadaniem analityków
Aby przeprowadzać drążenie danych niezbędne jest odpowiednie przygotowanie analityczne. Jednak wyjście od problemów biznesowych prowadzi do najlepszych rezultatów stosowania data mining. Ważne jest więc również, aby ktoś rozumiejący problem biznesowy rozumiał też, w jaki sposób dostępne techniki analityczne i zastosowane narzędzie rozwiązuje ten problem.
Mierzyć siły na zamiary
Najpierw powinno zmierzyć się z problemem, czy jest on na miarę posiadanych możliwości. Należy zacząć od projektu o ograniczonym zakresie i czasie realizacji (projekt pilotażowy). Gdy ten projekt zakończy się sukcesem, można wówczas przystąpić do kolejnego.
Wystrzegać się czarnej skrzynki
Jeżeli nie do końca są zrozumiałe wykorzystywane techniki, ostrożnie z interpretacją otrzymywanych wyników! To prawda, że wygodnie jest korzystać z prostego interfejsu, ale na pewnym poziomie analiz, możliwość pełnej kontroli nad parametrami technik modelujących jest bezcenna, wręcz nieoceniona. Dzięki niej mamy szansę lepiej je zrozumieć i posługiwać się nimi w sposób świadomy.
Uzgodnić z innymi oczekiwania względem projektu
Należy upewnić się, że osoby biorące czynny udział w projekcie data mining wiedzą, co zostanie w nim zrobione, a co nie. Wiedza z zakresu data mining przyczyni się do zmiany w sposobie prowadzenia przedsiębiorstwa, a zmiana wynikająca z data mining musi być nadzorowana, tak jak każda inna. Projekt data mining wiąże się z poniesieniem zbiorowego wysiłku. Drążenie danych wymaga zaangażowania także użytkowników biznesowych (menedżerów, doradców), którzy rozumieją rozważany problem i analizowane dane oraz ludzi, którzy rozumieją wykonywane analizy. Osoby zarządzające danymi będą też musiały zapewnić do nich właściwy dostęp.