data mining process
Deze diepgaande zelfstudie over datamining legt uit wat datamining is, met inbegrip van processen en technieken die worden gebruikt voor gegevensanalyse:
Laten we de betekenis van de term mijnbouw begrijpen door het voorbeeld te nemen van goudwinning uit gesteenten, dat goudwinning wordt genoemd. Hier is het nuttige 'Goud', daarom wordt het goudwinning genoemd.
Evenzo wordt het halen van nuttige informatie uit een enorme hoeveelheid gegevens kennismining genoemd, en in de volksmond bekend als datamining. Met de term nuttige informatie duiden we de gegevens aan die ons kunnen helpen bij het voorspellen van een output.
Bijvoorbeeld het vinden van de trends van het kopen van een bepaald ding (zeg ijzer) door een bepaalde leeftijdsgroep ( Voorbeeld: 40-70 jaar).
NAAR BENEDEN SCROLLENom de volledige lijst met 7 uitgebreide datamining-tutorials voor beginners te zien
Wat je leert:
selenium interviewvragen voor 4 jaar ervaring
- Lijst met zelfstudies over datamining
- Overzicht van zelfstudies in deze datamining-serie
- Wat is datamining?
- Welke soorten gegevens kunnen worden gewonnen?
- Welke technieken worden gebruikt bij datamining?
- Grote problemen bij gegevensanalyse
- Gevolgtrekking
Lijst met zelfstudies over datamining
Tutorial # 1: Datamining: proces, technieken en grote problemen bij gegevensanalyse (Deze tutorial)
Tutorial # 2: Technieken voor datamining: algoritme, methoden en toptools voor datamining
Tutorial # 3: Dataminingproces: modellen, processtappen en betrokken uitdagingen
Tutorial # 4: Voorbeelden van datamining: meest voorkomende toepassingen van datamining 2019
Tutorial # 5: Voorbeelden van beslissingsboomalgoritmen in datamining
Tutorial # 6: Apriori-algoritme in datamining: implementatie met voorbeelden
Tutorial # 7: Frequent Pattern (FP) groei-algoritme in datamining
Overzicht van zelfstudies in deze datamining-serie
Tutorial # | Wat je gaat leren |
---|---|
Tutorial_ # 7: | Frequent Pattern (FP) groei-algoritme in datamining Dit is een gedetailleerde handleiding over het algoritme voor groei van frequente patronen die de database weergeeft in de vorm van een FP-boom. FP-groei versus Apriori-vergelijking wordt hier ook uitgelegd. |
Tutorial_ # 1: | Datamining: proces, technieken en grote problemen bij gegevensanalyse In deze diepgaande zelfstudie over datamining wordt uitgelegd wat datamining is, inclusief de processen en technieken die worden gebruikt voor data-analyse. |
Tutorial_ # 2: | Technieken voor datamining: algoritme, methoden en toptools voor datamining In deze zelfstudie over dataminingtechnieken worden algoritmen, dataminingtools en methoden voor het extraheren van nuttige gegevens uitgelegd. |
Tutorial_ # 3: | Dataminingproces: modellen, processtappen en betrokken uitdagingen Deze tutorial over dataminingproces behandelt dataminingmodellen, stappen en uitdagingen die betrokken zijn bij het gegevensextractieproces. |
Tutorial_ # 4: | Voorbeelden van datamining: meest voorkomende toepassingen van datamining 2019 De meest populaire voorbeelden van datamining in het echte leven worden in deze zelfstudie behandeld. U komt meer te weten over dataminingapplicaties in Finance, Marketing, Healthcare en CRM. |
Tutorial_ # 5: | Voorbeelden van beslissingsboomalgoritmen in datamining Deze diepgaande zelfstudie legt alles uit over het beslissingsboom-algoritme in datamining. Je leert over beslissingsboomvoorbeelden, algoritme en classificatie. |
Tutorial_ # 6: | Apriori-algoritme in datamining: implementatie met voorbeelden Dit is een eenvoudige zelfstudie over het Apriori-algoritme om frequente itemsets in datamining te ontdekken. U zult ook de stappen in Apriori leren kennen en begrijpen hoe het werkt. |
Wat is datamining?
Datamining is tegenwoordig erg in trek, omdat het de bedrijven helpt te onderzoeken hoe de verkoop van hun producten kan toenemen. We kunnen dit begrijpen aan de hand van een voorbeeld van een modewinkel, die elke klant registreert die een artikel in zijn winkel koopt.
Op basis van de door de klant verstrekte gegevens, zoals leeftijd, geslacht, inkomensgroep, beroep, enz., Kan de winkel achterhalen welk type klanten verschillende producten kopen. Hier kunnen we zien dat de naam van de klant geen zin heeft, omdat we de trend van aankoop op naam niet kunnen voorspellen of die persoon een bepaald product zal kopen of niet.
De nuttige informatie kan dus worden achterhaald door middel van leeftijdsgroep, geslacht, inkomensgroep, beroep, enz. Zoeken naar kennis of interessante patronen in gegevens is 'Datamining'. Andere termen die op hun plaats kunnen worden gebruikt, zijn kennismining uit gegevens, kennisextractie, gegevensanalyse, patroonanalyse, enz.
Een andere term die in de datamining in de volksmond wordt gebruikt, is Knowledge Discovery from Data of KDD.
Gegevensanalyseproces
Het kennisontdekkingsproces is een opeenvolging van de volgende stappen:
- Gegevens opschonen: Deze stap verwijdert ruis en inconsistente gegevens uit de invoergegevens.
- Gegevens integratie: Deze stap combineert meerdere gegevensbronnen. De data-opschoning en data-integratie stap samen om de voorverwerking van data te vormen. De voorverwerkte data worden vervolgens opgeslagen in het datawarehouse.
- Gegevensselectie: Met deze stappen worden de gegevens voor de analysetaak uit de database geselecteerd.
- Gegevenstransformatie: In deze stap worden verschillende technieken voor gegevensaggregatie en gegevenssamenvatting toegepast om de gegevens om te zetten in een bruikbare vorm voor mijnbouw.
- Datamining: In deze stap worden datapatronen geëxtraheerd door intelligente methoden toe te passen.
- Patroonevaluatie: De geëxtraheerde datapatronen worden geëvalueerd en herkend volgens de interessantheidsmetingen.
- Kennisrepresentatie: Visualisatie- en kennisrepresentatietechnieken worden gebruikt om de gedolven kennis aan de gebruikers te presenteren.
De stappen 1 t / m 4 vallen onder de gegevensvoorverwerking. Hier wordt datamining weergegeven als een enkele stap, maar het verwijst naar het volledige kennisontdekkingsproces.
We kunnen dus zeggen dat data-analyse het proces is van het ontdekken van interessante patronen en kennis uit een grote hoeveelheid data. De gegevensbronnen kunnen databases, datawarehouses, World Wide Web, platte bestanden en andere informatieve bestanden zijn.
Welke soorten gegevens kunnen worden gewonnen?
De meest basale vormen van gegevens voor mijnbouw zijn databasegegevens, datawarehouse-gegevens en transactiegegevens. De dataminingtechnieken kunnen ook worden toegepast op andere vormen, zoals datastromen, gegevens op volgorde, tekstgegevens en ruimtelijke gegevens.
# 1) Databasegegevens: Het databasebeheersysteem is een reeks onderling gerelateerde gegevens en een reeks softwareprogramma's om de gegevens te beheren en er toegang toe te krijgen. Het relationele databasesysteem is een verzameling tabellen en elke tabel bestaat uit een set attributen en tupels.
Mijnbouw van relationele databases doorzoekt de trends en datapatronen Bijv kredietrisico van klanten op basis van leeftijd, inkomen en eerder kredietrisico. Ook kan mijnbouw afwijkingen van het verwachte ontdekken Bijv. een aanzienlijke stijging van de prijs van een artikel.
# 2) Data Warehouse-gegevens: Een datawarehouse is een verzameling informatie die is verzameld uit meerdere gegevensbronnen, opgeslagen onder een uniform schema in één sit. Een DW wordt gemodelleerd als een multidimensionale gegevensstructuur genaamd gegevenskubus met cellen en afmetingen die precomputatie en snellere toegang tot gegevens bieden.
Datamining wordt uitgevoerd in een OLAP-stijl door de dimensies op verschillende niveaus van granulariteit te combineren.
# 3) Transactiegegevens: Transactiegegevens leggen een transactie vast. Het heeft een transactie-ID en een lijst met items die bij een transactie worden gebruikt.
# 4) Andere soorten gegevens: Andere gegevens kunnen zijn: tijdgerelateerde gegevens, ruimtelijke gegevens, hypertekstgegevens en multimediagegevens.
Welke technieken worden gebruikt bij datamining?
Datamining is een zeer applicatiegedreven domein. Veel technieken, zoals statistiek, machine learning, patroonherkenning, het ophalen van informatie, visualisatie, enz., Beïnvloeden de ontwikkeling van methoden voor gegevensanalyse.
Laten we er hier enkele bespreken !!
Statistieken
De studie van het verzamelen, analyseren, interpreteren en presenteren van gegevens kan worden gedaan met behulp van statistische modellen. Bijvoorbeeld kunnen statistieken worden gebruikt om ruis en ontbrekende gegevens te modelleren, en vervolgens kan dit model worden gebruikt in grote datasets om de ruis en ontbrekende waarden in gegevens te identificeren.
Machine leren
ML wordt gebruikt om prestaties te verbeteren op basis van gegevens. Het belangrijkste onderzoeksgebied is dat computerprogramma's automatisch complexe patronen leren herkennen en intelligente beslissingen nemen op basis van de gegevens.
Machine Learning richt zich op nauwkeurigheid en datamining richt zich op de efficiëntie en schaalbaarheid van mining-methoden op de grote dataset, complexe data, etc.
Machine learning bestaat uit drie soorten:
- Leren onder toezicht: De doelgegevensset is bekend en de machine wordt getraind volgens de doelwaarden.
- Ongecontroleerd leren: De streefwaarden zijn niet bekend en de machines leren van zichzelf.
- Semi-begeleid leren: Het maakt gebruik van zowel de technieken van leren onder toezicht als zonder toezicht.
Informatie opvragen (IR)
Het is de wetenschap van het zoeken naar documenten of informatie in documenten.
Het gebruikt twee principes:
- De gegevens die moeten worden doorzocht, zijn ongestructureerd.
- De zoekopdrachten worden voornamelijk gevormd door trefwoorden.
Door gebruik te maken van data-analyse en IR, kunnen we belangrijke onderwerpen vinden in het verzamelen van documenten en ook de belangrijkste onderwerpen die bij elk document betrokken zijn.
Grote problemen bij gegevensanalyse
Datamining heeft een aantal problemen die hiermee verband houden, zoals hieronder vermeld:
Mijnbouwmethodologie
- Aangezien er diverse toepassingen zijn, blijven er nieuwe mijnbouwtaken ontstaan. Deze taken kunnen dezelfde database op verschillende manieren gebruiken en vereisen de ontwikkeling van nieuwe dataminingtechnieken.
- Bij het zoeken naar kennis in grote datasets, moeten we de multidimensionale ruimte verkennen. Om interessante patronen te vinden, moeten verschillende combinaties van afmetingen worden toegepast.
- Onzekere, luidruchtige en onvolledige gegevens kunnen soms leiden tot een foutieve afleiding.
Gebruikersinteractie
- Het data-analyseproces moet zeer interactief zijn. Het is belangrijk om het mijnbouwproces te vergemakkelijken om gebruikersinteractief te zijn.
- De domeinkennis, achtergrondkennis, restricties, enz., Moeten allemaal worden meegenomen in het dataminingproces.
- De kennis die wordt ontdekt door het delven van de gegevens, moet bruikbaar zijn voor mensen. Het systeem moet een expressieve weergave van kennis aannemen, gebruiksvriendelijke visualisatietechnieken, enz.
Efficiëntie en schaalbaarheid
- Datamining-algoritmen moeten efficiënt en schaalbaar zijn om effectief interessante gegevens te extraheren uit een enorme hoeveelheid gegevens in de gegevensopslagplaatsen.
- Brede distributie van gegevens, complexiteit in berekeningen motiveert de ontwikkeling van parallelle en gedistribueerde data-intensieve algoritmen.
Diversiteit aan databasetypen
- De constructie van effectieve en efficiënte gegevensanalysetools voor diverse toepassingen, een breed spectrum aan gegevenstypen van ongestructureerde gegevens, temporele gegevens, hypertekst, multimediagegevens en softwareprogrammacode blijft een uitdagend en actief onderzoeksgebied.
Sociale impact
- De openbaarmaking om de gegevens te gebruiken en de mogelijke schending van de persoonlijke levenssfeer en de bescherming van rechten zijn de aandachtspunten die moeten worden aangepakt.
Gevolgtrekking
Datamining helpt bij de besluitvorming en analyse van een grote hoeveelheid gegevens. Tegenwoordig is het de meest voorkomende zakelijke techniek. Het maakt automatische analyse van gegevens mogelijk en identificeert populaire trends en gedrag.
wat is mijn gebruikersnaam en wachtwoord voor mijn router
Data-analyse kan worden gecombineerd met machine learning, statistiek, kunstmatige intelligentie, enz., Voor geavanceerde data-analyse en gedragsstudie.
Datamining moet worden toegepast door rekening te houden met verschillende factoren, zoals de kosten van het extraheren van informatie en patronen uit databases (complexe algoritmen waarvoor deskundige middelen nodig zijn, moeten worden toegepast), type informatie (aangezien historische gegevens mogelijk niet hetzelfde zijn als wat het is aanwezig, dus de analyse zal niet nuttig zijn).
We hopen dat deze tutorial je kennis van het concept van Data Mining verrijkt !!
Aanbevolen literatuur
- De 10 beste tools voor gegevensanalyse voor perfect gegevensbeheer (2021 LIST)
- Datamining versus machine learning versus kunstmatige intelligentie versus diep leren
- De 10 beste tools voor het in kaart brengen van gegevens die nuttig zijn in het ETL-proces (2021 LIST)
- Wat zijn testgegevens? Test gegevensvoorbereidingstechnieken met voorbeeld
- Parametrering van JMeter-gegevens met behulp van door de gebruiker gedefinieerde variabelen
- Top 15 beste gratis tools voor datamining: de meest uitgebreide lijst
- 10+ beste tools voor gegevensverzameling met strategieën voor het verzamelen van gegevens
- Datapoolfunctie in IBM Rational Quality Manager voor testgegevensbeheer