data mining techniques
Deze diepgaande zelfstudie over dataminingtechnieken legt algoritmen, dataminingtools en methoden uit om nuttige gegevens te extraheren:
In deze Diepgaande trainingen voor datamining voor iedereen hebben we alles over datamining onderzocht in onze vorige tutorial.
In deze tutorial leren we over de verschillende technieken die worden gebruikt voor gegevensextractie. Omdat we weten dat datamining een concept is van het extraheren van nuttige informatie uit de enorme hoeveelheid gegevens, worden sommige technieken en methoden toegepast op grote sets gegevens om nuttige informatie te extraheren.
Deze technieken hebben in feite de vorm van methoden en algoritmen die op datasets worden toegepast. Enkele van de dataminingtechnieken omvatten Mijnbouw van frequente patronen, associaties en correlaties, classificaties, clustering, detectie van uitschieters en enkele geavanceerde technieken zoals statistische, visuele en audiodatamining.
Over het algemeen worden relationele databases, transactionele databases en datawarehouses gebruikt voor dataminingtechnieken. Er zijn echter ook enkele geavanceerde mijntechnieken voor complexe gegevens zoals tijdreeksen, symbolische reeksen en biologische opeenvolgende gegevens.
Wat je leert:
- Doel van dataminingtechnieken
- Lijst met gegevensextractietechnieken
- Belangrijkste algoritmen voor datamining
- Methoden voor gegevensextractie
- De beste tools voor datamining
- Gevolgtrekking
- Aanbevolen literatuur
Doel van dataminingtechnieken
Omdat er elke dag een enorme hoeveelheid gegevens wordt opgeslagen, zijn de bedrijven nu geïnteresseerd in het achterhalen van de trends van hen. De data-extractietechnieken helpen bij het omzetten van de ruwe data in bruikbare kennis. Om enorme hoeveelheden gegevens te ontginnen, is de software vereist, omdat het voor een mens onmogelijk is om de grote hoeveelheid gegevens handmatig te doorlopen.
Een datamining-software analyseert de relatie tussen verschillende items in grote databases die kunnen helpen bij het besluitvormingsproces, meer te weten kunnen komen over klanten, marketingstrategieën kunnen ontwikkelen, de verkoop kunnen verhogen en de kosten kunnen verlagen.
Lijst met gegevensextractietechnieken
De dataminingtechniek die wordt toegepast, hangt af van het perspectief van onze data-analyse.
Laten we daarom de verschillende technieken bespreken die aangeven hoe gegevensextractie op verschillende manieren kan worden uitgevoerd:
# 1) Frequente analyse van patroonmijnbouw / associatie
Dit type dataminingtechniek zoekt naar terugkerende relaties in de gegeven dataset. Het zoekt naar interessante associaties en correlaties tussen de verschillende items in de database en identificeert een patroon.
Een voorbeeld, van een dergelijke soort zou 'Winkelmandanalyse' zijn: uitzoeken 'welke producten de klanten waarschijnlijk samen in de winkel zullen kopen?' zoals brood en boter.
Toepassing: Ontwerp van de plaatsing van de producten in de winkelrekken, marketing, cross-selling van producten.
De patronen kunnen worden weergegeven in de vorm van associatieregels. De associatieregel zegt dat ondersteuning en vertrouwen de parameters zijn om het nut van de bijbehorende items te achterhalen. De transacties waarbij beide items tegelijk werden gekocht, staan bekend als een ondersteuning.
De transacties waarbij de klanten beide artikelen na elkaar kochten, zijn vertrouwen. Het gedolven patroon zou als interessant worden beschouwd als het een minimale ondersteuningsdrempel en minimale betrouwbaarheidsdrempel waarde. De drempelwaarden worden bepaald door de domeinexperts.
Brood => boter (steun = 2%, vertrouwen-60%)
De bovenstaande verklaring is een voorbeeld van een associatieregel. Dit betekent dat er een transactie van 2% is die brood en boter samen heeft gekocht en dat 60% van de klanten naast boter ook brood heeft gekocht.
Stappen om associatieanalyse te implementeren:
- Regelmatige itemsets vinden. Itemset betekent een set items. Een itemset met k items is een k-itemset. De frequentie van een itemset is het aantal transacties dat de itemset bevat.
- Genereren van sterke associatieregels op basis van de frequente itemsets. Met sterke associatieregels bedoelen we dat aan de minimumdrempel van ondersteuning en vertrouwen wordt voldaan.
Er zijn verschillende veelgebruikte mijnbouwmethoden voor itemsets, zoals Apriori-algoritme, Pattern Growth Approach en Mining met behulp van het verticale gegevensformaat. Deze techniek is algemeen bekend als Market Basket Analysis.
# 2) Correlatieanalyse
Correlatieanalyse is slechts een uitbreiding van de associatieregels. Soms kunnen de ondersteunings- en vertrouwensparameters nog steeds oninteressante patronen opleveren voor de gebruikers.
Een voorbeeld ter ondersteuning van de bovenstaande verklaring kan zijn: van de 1000 geanalyseerde transacties bevatten 600 alleen brood, 750 boter en 400 zowel brood als boter. Stel dat de minimale ondersteuning voor het uitvoeren van associatieregels 30% is en de minimale betrouwbaarheid 60%.
linux commando om twee bestanden te vergelijken
De ondersteuningswaarde van 400/1000 = 40% en betrouwbaarheidswaarde = 400/600 = 66% voldoen aan de drempel. We zien echter dat de kans om boter te kopen 75% is, wat meer is dan 66%. Dit betekent dat brood en boter negatief gecorreleerd zijn, aangezien de aankoop van de ene zou leiden tot een afname van de aankoop van de andere. De resultaten zijn bedrieglijk.
Uit het bovenstaande voorbeeld worden de ondersteuning en het vertrouwen aangevuld met een andere interessantheidsmaatregel, namelijk correlatieanalyse die zal helpen bij het ontginnen van interessante patronen.
A => B (ondersteuning, vertrouwen, correlatie).
Correlatieregel wordt gemeten door ondersteuning, vertrouwen en correlatie tussen itemsets A en B. Correlatie wordt gemeten door Lift en Chi-Square.
(Ik til: Zoals het woord zelf zegt, vertegenwoordigt Lift de mate waarin de aanwezigheid van een itemset het optreden van andere itemsets verhoogt.
De lift tussen het voorkomen van A en B kan worden gemeten door:
Lift (A, B) = P (A U B) / P (A). P (B).
Als het is<1, then A and B are negatively correlated.
Als het> 1. Dan zijn A en B positief gecorreleerd, wat betekent dat het voorkomen van het ene het optreden van het andere impliceert.
Als het = 1 is, is er geen correlatie tussen beide.
(ii) Chi-kwadraat: Dit is een andere correlatiemaatregel. Het meet het kwadraatverschil tussen de waargenomen en verwachte waarde voor een slot (A- en B-paar) gedeeld door de verwachte waarde.
Als het> 1 is, is het negatief gecorreleerd.
# 3) Classificatie
Classificatie helpt bij het bouwen van modellen van belangrijke gegevensklassen. Er wordt een model of een classificator gemaakt om de klassenlabels te voorspellen. Labels zijn de gedefinieerde klassen met discrete waarden zoals 'ja' of 'nee', 'veilig' of 'riskant'. Het is een vorm van begeleid leren, aangezien de labelklasse al bekend is.
Dataclassificatie is een proces in twee stappen:
- Leerstap: Hier wordt het model geconstrueerd. Er wordt een vooraf gedefinieerd algoritme toegepast op de te analyseren gegevens met een bijgeleverd klasselabel en de classificatieregels worden geconstrueerd.
- Classificatie stap: Het model wordt gebruikt om klassenlabels voor bepaalde gegevens te voorspellen. De nauwkeurigheid van de classificatieregels wordt geschat door de testgegevens die, indien nauwkeurig bevonden, worden gebruikt voor de classificatie van nieuwe datatupels.
De items in de itemset worden toegewezen aan de doelcategorieën om functies op het klasse-labelniveau te voorspellen.
Toepassing: Banken om kredietaanvragers te identificeren als laag, gemiddeld of hoog risico, bedrijven die marketingcampagnes opzetten op basis van leeftijdsclassificatie
# 4) Inductie van beslissingsboom
Decision Trees Induction-methode valt onder de classificatieanalyse. Een beslissingsboom is een boomachtige structuur die gemakkelijk te begrijpen en eenvoudig en snel is. Hierin vertegenwoordigt elke niet-leaf-node een test op een attribuut en elke branch representeert de uitkomst van de test, en de leaf-node representeert het class-label.
De attribuutwaarden in een tuple worden getoetst aan de beslissingsboom van de wortel tot het bladknooppunt. Beslissingsbomen zijn populair omdat er geen domeinkennis voor nodig is. Deze kunnen multidimensionale gegevens vertegenwoordigen. De beslisbomen kunnen eenvoudig worden omgezet naar classificatieregels.
Toepassing: De beslissingsbomen worden geconstrueerd in de geneeskunde, fabricage, productie, astronomie, enz. Een voorbeeld is hieronder te zien:
# 5) Bayes-classificatie
Bayesiaanse classificatie is een andere methode voor classificatieanalyse. Bayes Classifiers voorspellen de waarschijnlijkheid dat een gegeven tuple tot een bepaalde klasse behoort. Het is gebaseerd op de stelling van Bayes, die is gebaseerd op waarschijnlijkheid en beslissingstheorie.
Bayes-classificatie werkt op posterieure waarschijnlijkheid en eerdere waarschijnlijkheid voor het besluitvormingsproces. Bij posterieure waarschijnlijkheid wordt de hypothese gemaakt op basis van de gegeven informatie, d.w.z. de attribuutwaarden zijn bekend, terwijl bij eerdere waarschijnlijkheid de hypothesen worden gegeven ongeacht de attribuutwaarden.
# 6) Clusteringanalyse
Het is een techniek om een set gegevens op te delen in clusters of groepen objecten. De clustering gebeurt met behulp van algoritmen. Het is een vorm van leren zonder toezicht, aangezien de labelinformatie niet bekend is. Clustermethoden identificeren gegevens die op elkaar lijken of verschillen, en de kenmerken worden geanalyseerd.
Clusteranalyse kan worden gebruikt als een voorbereidende stap voor het toepassen van verschillende andere algoritmen, zoals karakterisering, selectie van attribuutsubsets, enz. Clusteranalyse kan ook worden gebruikt voor het detecteren van uitschieters, zoals hoge aankopen bij creditcardtransacties.
Toepassingen: Beeldherkenning, zoeken op internet en beveiliging.
# 7) Detectie van uitschieters
Het proces van het vinden van data-objecten die uitzonderlijk gedrag vertonen ten opzichte van de andere objecten, wordt uitbijterdetectie genoemd. Uitbijterdetectie en clusteranalyse zijn aan elkaar gerelateerd. Uitschietermethoden zijn onderverdeeld in statistische, op nabijheid gebaseerde, op clustering gebaseerde en op classificatie gebaseerde.
Er zijn verschillende soorten uitschieters, sommige zijn:
- Globale uitbijter: Het data-object week significant af van de rest van de dataset.
- Contextuele uitbijter: Het hangt af van bepaalde factoren, zoals dag, tijd en locatie. Als een data-object significant afwijkt ten opzichte van een context.
- Collectieve uitbijter: Wanneer een groep data-objecten ander gedrag vertoont dan de gehele dataset.
Toepassing: Detectie van risico's op creditcardfraude, detectie van nieuwigheden, enz.
# 8) Opeenvolgende patronen
Bij dit type datamining wordt een trend of een aantal consistente patronen herkend. Inzicht in het aankoopgedrag van klanten en sequentiële patronen worden door de winkels gebruikt om hun producten in de schappen te presenteren.
Toepassing: E-commerce-voorbeeld waarbij wanneer u artikel A koopt, het laat zien dat artikel B vaak wordt gekocht met artikel A, waarbij wordt gekeken naar de eerdere aankoopgeschiedenis.
# 9) Regressieanalyse
Dit type analyse staat onder toezicht en identificeert welke itemsets tussen de verschillende relaties verband houden met of onafhankelijk zijn van elkaar. Het kan verkoop, winst, temperatuur voorspellen, menselijk gedrag voorspellen, enz. Het heeft een gegevenssetwaarde die al bekend is.
Wanneer een invoer wordt geleverd, zal het regressie-algoritme de invoer en de verwachte waarde vergelijken, en de fout wordt berekend om tot het nauwkeurige resultaat te komen.
Toepassing: Vergelijking van inspanningen voor marketing en productontwikkeling.
Belangrijkste algoritmen voor datamining
Dataminingtechnieken worden toegepast via de algoritmen erachter. Deze algoritmen draaien op de data-extractiesoftware en worden toegepast op basis van de zakelijke behoefte.
Enkele van de algoritmen die op grote schaal door organisaties worden gebruikt om de datasets te analyseren, worden hieronder gedefinieerd:
- K-betekent: Het is een populaire techniek voor clusteranalyse waarbij een groep vergelijkbare items wordt geclusterd.
- Apriori-algoritme: Het is een veelgebruikte mijnbouwtechniek voor itemsets en associatieregels worden erop toegepast op transactionele databases. Het detecteert frequente itemsets en benadrukt algemene trends.
- K Naaste buur: Deze methode wordt gebruikt voor classificatie en regressieanalyse. De k naaste buur is lui aan het leren waar hij de trainingsgegevens opslaat en wanneer er nieuwe niet-gelabelde gegevens komen, classificeert hij de invoergegevens.
- Bayes schepen: Het is een groep eenvoudige algoritmen voor probabilistische classificatie die ervan uitgaan dat de kenmerken van elk gegevensobject onafhankelijk zijn van de andere. Het is een toepassing van de stelling van Bayes.
- AdaBoost: Het is een machine learning meta-algoritme dat wordt gebruikt om de prestaties te verbeteren. Adaboost is gevoelig voor data met ruis en uitschieters.
Methoden voor gegevensextractie
Enkele geavanceerde dataminingmethoden voor het omgaan met complexe gegevenstypen worden hieronder uitgelegd.
De gegevens in de wereld van vandaag zijn van verschillende typen, variërend van eenvoudige tot complexe gegevens. Om complexe gegevenstypen te ontginnen, zoals tijdreeksen, multidimensionale, ruimtelijke en multimediale gegevens, zijn geavanceerde algoritmen en technieken nodig.
Sommigen van hen worden hieronder beschreven:
- KLIK: Het was de eerste clustermethode om de clusters in een multidimensionale deelruimte te vinden.
- P3C: Het is een bekende clustermethode voor matige tot hoge multidimensionale gegevens.
- MEER: Het is een op k-gemiddelden gebaseerde methode die gericht is op het clusteren van matige tot hoge dimensionaliteitsgegevens. Het algoritme verdeelt de gegevens in k disjuncte set elementen door de mogelijke uitschieters te verwijderen.
- CURLER: Het is een algoritme voor correlatieclustering, het detecteert zowel lineaire als niet-lineaire correlaties.
De beste tools voor datamining
Data Mining Tools is software die wordt gebruikt om gegevens te minen. De tools draaien algoritmen aan de achterkant. Deze tools zijn op de markt beschikbaar als open source, gratis software en gelicentieerde versie.
Enkele van de tools voor gegevensextractie zijn:
# 1) RapidMiner
RapidMiner is een open-source softwareplatform voor analyseteams dat datavoorbereiding, machine learning en voorspellende modelimplementatie combineert. Deze tool wordt gebruikt voor het uitvoeren van datamining-analyses en het maken van datamodellen. Het heeft grote sets voor classificatie, clustering, het minen van associatieregels en regressie-algoritmen.
# 2) Oranje
Het is een open-source tool met datavisualisatie en analysepakket. Oranje kan in elke werkende python-omgeving worden geïmporteerd. Het is zeer geschikt voor nieuwe onderzoekers en kleine projecten.
# 3) TAAL
KEEL (Knowledge Extraction based on Evolutionary Learning) is een open-source ( GPLv3 ) Java-softwaretool die kan worden gebruikt voor een groot aantal verschillende opsporingstaken voor kennisgegevens.
# 4) SPSS
IBM SPSS Modeler is een softwaretoepassing voor datamining en tekstanalyse van IBM. Het wordt gebruikt om voorspellende modellen te bouwen en andere analytische taken uit te voeren.
# 5) KNIME
Het is een gratis en open-source tool met een pakket voor het opschonen en analyseren van gegevens, gespecialiseerde algoritmen op het gebied van sentimentanalyse en sociale netwerkanalyse. KNIME kan gegevens uit verschillende bronnen in dezelfde analyse integreren. Het heeft een interface met Java, Python en R-programmering.
Belangrijke vraag: hoe verschilt classificatie van voorspelling?
Classificatie is een groepering van gegevens. Een voorbeeld van classificatie is groepering op basis van leeftijdsgroep, medische toestand, enz. Terwijl voorspelling een uitkomst is met behulp van de geclassificeerde gegevens.
Een voorbeeld of Predictive Analysis is het voorspellen van de interesses op basis van leeftijdsgroep, behandeling voor een medische aandoening. Voorspelling wordt ook wel Schatting voor continue waarden genoemd.
Belangrijke term: voorspellende datamining
Predictive Data Mining wordt gedaan om bepaalde datatrends te voorspellen of te voorspellen met behulp van business intelligence en andere data. Het helpt bedrijven om betere analyses te hebben en betere beslissingen te nemen. Predictive Analytics wordt vaak gecombineerd met Predictive Data Mining.
The Predictive Data Mining zoekt de relevante data voor analyse. Voorspellende analyses gebruiken gegevens om de uitkomst te voorspellen.
Gevolgtrekking
In deze tutorial hebben we de verschillende dataminingtechnieken besproken die organisaties en bedrijven kunnen helpen de meest bruikbare en relevante informatie te vinden. Deze informatie wordt gebruikt om modellen te maken die het gedrag van klanten voorspellen zodat de bedrijven ernaar kunnen handelen.
Door alle bovengenoemde informatie over de dataminingtechnieken te lezen, kan men de geloofwaardigheid en haalbaarheid nog beter bepalen. Technieken voor gegevensextractie omvatten het werken met gegevens, het opnieuw formatteren van gegevens, het herstructureren van gegevens. Het formaat van de benodigde informatie is gebaseerd op de techniek en de uit te voeren analyse.
Ten slotte helpen alle technieken, methoden en datamining-systemen bij het ontdekken van nieuwe creatieve innovaties.
PREV-zelfstudie VOLGENDE zelfstudie
Aanbevolen literatuur
- Datamining: proces, technieken en grote problemen bij gegevensanalyse
- 10 beste tools voor gegevensmodellering om complexe ontwerpen te beheren
- Top 15 beste gratis tools voor datamining: de meest uitgebreide lijst
- 10+ beste tools voor gegevensverzameling met strategieën voor het verzamelen van gegevens
- Top 10 tools voor databaseontwerp om complexe gegevensmodellen te bouwen
- 10+ beste tools voor gegevensbeheer om in 2021 aan uw gegevensbehoeften te voldoen
- Datamining versus machine learning versus kunstmatige intelligentie versus diep leren
- Top 14 BESTE testgegevensbeheertools in 2021