Какво е Data Mining? Основи и нейните техники.

Основата на четвъртата индустриална революция ще зависи до голяма степен от данните(Data) и свързаността(Connectivity) . Услугите за анализ(Analysis Services) , способни да разработват или създават решения за извличане на данни, ще играят ключова роля в това отношение. Може да помогне при анализиране и прогнозиране на резултатите от поведението на клиентите при покупка за насочване към потенциални купувачи. Данните(Data) ще се превърнат в нов природен ресурс и процесът на извличане на подходяща информация от тези несортирани данни ще придобие огромно значение. Като такова, правилното разбиране на термина – Data Mining , неговите процеси и приложение може да ни помогне да разработим холистичен подход към тази модна дума.

Основи на извличането на данни(Data Mining Basics) и неговите техники

извличане на данни

Извличането на данни, известно още като Откриване на знания в данни(Knowledge Discovery in Data) ( KDD ), е свързано с търсене в големи магазини от данни, за да се разкрият модели и тенденции, които надхвърлят простия анализ. Това обаче не е едноетапно решение, а многоетапен процес и се завършва на различни етапи. Те включват:

1] Събиране на данни и подготовка

Започва със събирането на данни и правилната им организация. Това помага за значително подобряване на шансовете за намиране на информацията, която може да бъде открита чрез извличане на данни

2] Изграждане на модел и оценка

Втората стъпка в процеса на извличане на данни е прилагането на различни техники за моделиране. Те се използват за калибриране на параметрите до оптимални стойности. Използваните техники до голяма степен зависят от аналитични способности, необходими за посрещане на гама от организационни нужди и за достигане на решение.

Нека разгледаме накратко някои техники за извличане на данни. Установено е, че повечето организации комбинират две или повече техники за извличане на данни заедно, за да образуват подходящ процес, който отговаря на техните бизнес изисквания.

Прочетете(Read) : Какво представляват големи данни?(What is Big Data?)

Техники за извличане на данни

  1. Асоциация –  (Association – )Асоциацията(Association) е една от широко известните техники за извличане на данни. При това моделът се дешифрира въз основа на връзка между елементи в една и съща транзакция. Следователно(Hence) , тя е известна още като техника на връзката. Търговците на дребно с големи марки разчитат на тази техника, за да проучат навиците/предпочитанията на клиентите при покупка. Например, когато проследяват покупателните навици на хората, търговците на дребно могат да идентифицират, че клиентът винаги купува сметана, когато купува шоколадови бонбони, и следователно да предложат, че следващия път, когато купуват шоколадови бонбони, те също може да искат да купят сметана.
  2. Класификация(Classification) – Тази техника за извличане на данни се различава от горната по начина, по който се основава на машинно обучение и използва математически техники като линейно(Linear) програмиране, дървета на решения , (Decision)невронни(Neural)мрежа. При класификацията компаниите се опитват да изградят софтуер, който може да се научи как да класифицира елементите от данни в групи. Например, една компания може да дефинира класификация в приложението, която „предвид всички записи на служители, които са предложили да напуснат компанията, да прогнозира броя на хората, които е вероятно да напуснат компанията в бъдеще“. При такъв сценарий компанията може да класифицира записите на служителите в две групи, а именно „напуска“ и „остава“. След това може да използва своя софтуер за извличане на данни, за да класифицира служителите в отделни групи, създадени по-рано.
  3. Групиране(Clustering)различно(Different)обекти с подобни характеристики се групират в един клъстер чрез автоматизация. Много такива клъстери се създават като класове и обекти (с подобни характеристики) се поставят в него съответно. За да разберем това по-добре, нека разгледаме пример за управление на книги в библиотеката. В библиотеката огромната колекция от книги е напълно каталогизирана. Елементите от един и същи тип са изброени заедно. Това ни улеснява в намирането на книга, която ни интересува. По същия начин, като използваме техниката на клъстериране, можем да съхраняваме книги, които имат някои видове прилики в един клъстер и да му присвоим подходящо име. Така че, ако читател иска да вземе книга, която отговаря на интереса му, той трябва само да отиде до този рафт, вместо да търси в цялата библиотека. По този начин техниката на клъстериране дефинира класовете и поставя обекти във всеки клас,
  4. Прогноза(Prediction) – Прогнозата е техника за извличане на данни, която често се използва в комбинация с другите техники за извличане на данни. Тя включва анализиране на тенденции, класификация, съвпадение на модели и връзка. Чрез анализиране на минали събития или случаи в правилна последователност може безопасно да се предскаже бъдещо събитие. Например, техниката за анализ на прогнозиране може да се използва при продажбата за прогнозиране на бъдеща печалба, ако продажбата е избрана като независима променлива и печалбата като променлива, зависима от продажбата. След това, въз основа на исторически данни за продажба и печалба, може да се начертае монтирана регресионна крива, която се използва за прогнозиране на печалбата.
  5. Дърветата(Decision trees) на решенията – В рамките на дървото на решенията започваме с прост въпрос, който има множество отговори. Всеки отговор води до допълнителен въпрос, който да помогне за класифициране или идентифициране на данните, така че да могат да бъдат категоризирани или за да може да се направи прогноза въз основа на всеки отговор. Например, ние използваме следното дърво на решения, за да определим дали да играем или не крикет ODI : Дърво на решенията за копаене на данни(Data Mining Decision Tree) : Започвайки от основния възел, ако прогнозата за времето прогнозира дъжд, трябва да избягваме мача за деня. Като алтернатива, ако прогнозата за времето е ясна, трябва да играем мача.

Извличането(Data Mining) на данни е в основата на усилията за анализ в различни индустрии и дисциплини като комуникации, застраховане(Insurance) , образование(Education) , производство(Manufacturing) , банкиране(Banking) и търговия на дребно(Retail) и др. Ето защо е важно да имате правилна информация за него, преди да приложите различните техники.



About the author

Аз съм уеб разработчик с над 10 години опит, включително 8 години като професионален софтуерен инженер. Също така имам опит в разработването на мобилни приложения и игри, както за настолни компютри, така и за мобилни устройства. В свободното си време обичам да играя видео игри и да гледам филми, да слушам музика, да чета книги и да се занимавам с градинарство.



Related posts