data mining process models
Deze tutorial over dataminingproces behandelt dataminingmodellen, stappen en uitdagingen die betrokken zijn bij het gegevensextractieproces:
Dataminingtechnieken werden in onze vorige tutorial hierin in detail uitgelegd Volledige dataminingtraining voor iedereen Datamining is een veelbelovend vakgebied in de wereld van wetenschap en technologie.
Datamining, ook wel bekend als Knowledge Discovery in Databases, is een proces waarbij nuttige informatie wordt ontdekt uit grote hoeveelheden gegevens die zijn opgeslagen in databases en datawarehouses. Deze analyse wordt gedaan voor besluitvormingsprocessen in de bedrijven.
Datamining wordt uitgevoerd met behulp van verschillende technieken, zoals clustering, associatie en sequentiële patroonanalyse en beslissingsboom.
Wat je leert:
- Wat is datamining?
- Gegevensextractie als proces
- Datamining-modellen
- Stappen in het dataminingproces
- Dataminingproces in Oracle DBMS
- Dataminingproces in Datawarehouse
- Wat zijn de toepassingen van gegevensextractie?
- Datamining-uitdagingen
- Gevolgtrekking
- Aanbevolen literatuur
Wat is datamining?
Datamining is een proces waarbij interessante patronen en kennis worden ontdekt uit grote hoeveelheden data. De gegevensbronnen kunnen databases, datawarehouses, het web en andere informatieopslagplaatsen of gegevens zijn die dynamisch in het systeem worden gestreamd.
Waarom hebben bedrijven gegevensextractie nodig?
Met de komst van Big Data komt datamining steeds vaker voor. Big data zijn extreem grote sets gegevens die door computers kunnen worden geanalyseerd om bepaalde patronen, associaties en trends te onthullen die door mensen kunnen worden begrepen. Big data heeft uitgebreide informatie over verschillende soorten en gevarieerde inhoud.
Met deze hoeveelheid gegevens zouden eenvoudige statistieken met handmatige tussenkomst dus niet werken. Deze behoefte wordt vervuld door het dataminingproces. Dit leidt tot een verandering van eenvoudige datastatistieken naar complexe datamining-algoritmen.
Het dataminingproces haalt relevante informatie uit onbewerkte gegevens zoals transacties, foto's, video's, platte bestanden en verwerkt de informatie automatisch om rapporten te genereren die nuttig zijn voor bedrijven om actie te ondernemen.
Het dataminingproces is dus cruciaal voor bedrijven om betere beslissingen te nemen door patronen en trends in gegevens te ontdekken, de gegevens samen te vatten en relevante informatie eruit te halen.
Gegevensextractie als proces
Elk bedrijfsprobleem zal de onbewerkte gegevens onderzoeken om een model te bouwen dat de informatie beschrijft en de rapporten naar voren brengt die door het bedrijf kunnen worden gebruikt. Het bouwen van een model op basis van gegevensbronnen en gegevensformaten is een iteratief proces, aangezien de ruwe gegevens in veel verschillende bronnen en in vele vormen beschikbaar zijn.
De gegevens nemen met de dag toe, dus als er een nieuwe gegevensbron wordt gevonden, kan dit de resultaten wijzigen.
Hieronder vindt u de schets van het proces.
(beeld bron
Datamining-modellen
Veel industrieën, zoals productie, marketing, chemie en ruimtevaart, profiteren van datamining. Zo wordt de vraag naar standaard en betrouwbare dataminingprocessen drastisch verhoogd.
De belangrijkste modellen voor datamining zijn:
# 1) Industrieoverschrijdend standaardproces voor datamining (CRISP-DM)
CRISP-DM is een betrouwbaar dataminingmodel dat bestaat uit zes fasen. Het is een cyclisch proces dat zorgt voor een gestructureerde benadering van het dataminingproces. De zes fasen kunnen in elke volgorde worden geïmplementeerd, maar het zou soms nodig zijn om terug te gaan naar de vorige stappen en om acties te herhalen.
gratis anime streaming sites engels nagesynchroniseerd
De zes fasen van CRISP-DM zijn:
# 1) Zakelijk inzicht: In deze stap worden de doelen van de bedrijven bepaald en worden de belangrijke factoren die zullen helpen bij het bereiken van het doel ontdekt.
# 2) Gegevens begrijpen: Deze stap verzamelt alle gegevens en vult de gegevens in de tool (als u een tool gebruikt). De gegevens worden vermeld met hun gegevensbron, locatie, hoe ze zijn verkregen en of er een probleem is opgetreden. De gegevens worden gevisualiseerd en opgevraagd om de volledigheid ervan te controleren.
# 3) Voorbereiding van gegevens: Deze stap omvat het selecteren van de juiste gegevens, opschonen, attributen samenstellen uit gegevens, gegevens uit meerdere databases integreren.
# 4) Modellering: Selectie van de dataminingtechniek zoals beslissingsboom, testontwerp genereren voor het evalueren van het geselecteerde model, het bouwen van modellen uit de dataset en het beoordelen van het gebouwde model met experts om het resultaat te bespreken, gebeurt in deze stap.
# 5) Evaluatie: Deze stap bepaalt in hoeverre het resulterende model voldoet aan de zakelijke vereisten. Evaluatie kan worden gedaan door het model te testen op echte toepassingen. Het model wordt beoordeeld op eventuele fouten of stappen die moeten worden herhaald.
# 6) Implementatie: In deze stap wordt een implementatieplan gemaakt, wordt een strategie opgesteld om de resultaten van het dataminingmodel te bewaken en te onderhouden om te controleren op het nut ervan, worden eindrapporten gemaakt en wordt het hele proces beoordeeld om eventuele fouten te controleren en te zien of een stap wordt herhaald .
(beeld bron
het toevoegen van een waarde aan een array
# 2) SEMMA (Sample, Explore, Modify, Model, Assess)
SEMMA is een andere dataminingmethode die is ontwikkeld door het SAS Institute. De afkorting SEMMA staat voor sample, verkennen, wijzigen, modelleren, beoordelen.
SEMMA maakt het gemakkelijk om verkennende statistische en visualisatietechnieken toe te passen, de significante voorspelde variabelen te selecteren en te transformeren, een model te maken met behulp van de variabelen om het resultaat te verkrijgen en de nauwkeurigheid ervan te controleren. SEMMA wordt ook aangedreven door een sterk iteratieve cyclus.
Stappen in SEMMA
- Monster: In deze stap wordt een grote dataset geëxtraheerd en wordt een sample genomen die de volledige data vertegenwoordigt. Bemonstering vermindert de rekenkosten en de verwerkingstijd.
- Verkennen: De gegevens worden onderzocht op eventuele uitschieters en anomalieën voor een beter begrip van de gegevens. De gegevens worden visueel gecontroleerd om de trends en groeperingen te achterhalen.
- Aanpassen: In deze stap wordt het manipuleren van gegevens, zoals groeperen en subgroepen, gedaan door het te bouwen model scherp te houden.
- Model: Op basis van de verkenningen en aanpassingen worden de modellen geconstrueerd die de patronen in data verklaren.
- Beoordeel: In deze stap worden de bruikbaarheid en betrouwbaarheid van het geconstrueerde model beoordeeld. Hier wordt het model getoetst aan echte gegevens.
Zowel de SEMMA- als de CRISP-benadering werken voor het Kennisontdekkingsproces. Zodra modellen zijn gebouwd, worden ze ingezet voor bedrijven en onderzoekswerk.
Stappen in het dataminingproces
Het dataminingproces is verdeeld in twee delen, namelijk datavoorverwerking en datamining. Gegevensvoorverwerking omvat gegevensopschoning, gegevensintegratie, gegevensreductie en gegevenstransformatie. Het datamininggedeelte voert datamining, patroonevaluatie en kennisweergave van gegevens uit.
(beeld bron
Waarom verwerken we de gegevens voor?
Er zijn veel factoren die het nut van gegevens bepalen, zoals nauwkeurigheid, volledigheid, consistentie en tijdigheid. De gegevens moeten kwaliteit hebben als ze voldoen aan het beoogde doel. Voorverwerking is dus cruciaal in het dataminingproces. De belangrijkste stappen bij het voorbewerken van gegevens worden hieronder uitgelegd.
# 1) Gegevens opschonen
Het opschonen van gegevens is de eerste stap in datamining. Het is belangrijk omdat vuile gegevens die direct in de mijnbouw worden gebruikt, verwarring in procedures kunnen veroorzaken en onnauwkeurige resultaten kunnen opleveren.
Kort gezegd omvat deze stap het verwijderen van luidruchtige of onvolledige gegevens uit de verzameling. Er zijn veel methoden die over het algemeen zelf gegevens opschonen, beschikbaar, maar deze zijn niet robuust.
Deze stap voert de routine-reinigingswerkzaamheden uit door:
(i) Vul de ontbrekende gegevens in:
Ontbrekende gegevens kunnen worden gevuld door methoden zoals:
- Het tupel negeren.
- De ontbrekende waarde handmatig invullen.
- Gebruik de maat voor centrale neiging, mediaan of
- De meest waarschijnlijke waarde invullen.
(ii) Verwijder de lawaaierige gegevens: Willekeurige fouten worden gegevens met ruis genoemd.
Methoden om ruis te verwijderen zijn:
Binning: Binning-methoden worden toegepast door waarden in emmers of bakken te sorteren. Het gladmaken wordt uitgevoerd door de aangrenzende waarden te raadplegen.
Binning wordt gedaan door afvlakken per bak, d.w.z. elke bak wordt vervangen door het gemiddelde van de bak. Afvlakking door een mediaan, waarbij elke bin-waarde wordt vervangen door een bin-mediaan. Afvlakken door bin-grenzen, d.w.z. de minimum- en maximumwaarden in de bin zijn bin-grenzen en elke bin-waarde wordt vervangen door de dichtstbijzijnde grenswaarde.
- De uitschieters identificeren
- Inconsistenties oplossen
# 2) Gegevensintegratie
Wanneer meerdere heterogene databronnen zoals databases, datablokjes of bestanden worden gecombineerd voor analyse, wordt dit proces data-integratie genoemd. Dit kan helpen bij het verbeteren van de nauwkeurigheid en snelheid van het dataminingproces.
sql vs nosql voor- en nadelen
Verschillende databases hebben verschillende naamgevingsconventies voor variabelen, door redundanties in de databases te veroorzaken. Extra gegevensopschoning kan worden uitgevoerd om de overtolligheden en inconsistenties uit de gegevensintegratie te verwijderen zonder de betrouwbaarheid van gegevens aan te tasten.
Gegevensintegratie kan worden uitgevoerd met behulp van gegevensmigratietools zoals Oracle Data Service Integrator en Microsoft SQL enz.
# 3) Datareductie
Deze techniek wordt toegepast om relevante gegevens voor analyse te verkrijgen uit het verzamelen van gegevens. De omvang van de vertegenwoordiging is veel kleiner in volume met behoud van integriteit. Datareductie wordt uitgevoerd met behulp van methoden zoals Naive Bayes, Decision Trees, Neuraal netwerk, etc.
Enkele strategieën voor datareductie zijn:
- Dimensionaliteitsreductie: Het aantal attributen in de dataset verminderen.
- Vermindering van aantallen: Het oorspronkelijke datavolume vervangen door kleinere vormen van dataweergave.
- Data compressie: Gecomprimeerde weergave van de originele gegevens.
# 4) Gegevenstransformatie
Hierbij worden data omgezet in een vorm die geschikt is voor het dataminingproces. De gegevens worden geconsolideerd zodat het mijnbouwproces efficiënter verloopt en de patronen gemakkelijker te begrijpen zijn. Datatransformatie omvat datamapping en codegeneratieproces.
Strategieën voor datatransformatie zijn:
- Afvlakken: Ruis uit gegevens verwijderen met behulp van clustering, regressietechnieken, enz.
- Aggregatie: Samenvattingsbewerkingen worden toegepast op gegevens.
- Normalisatie: Schalen van gegevens om binnen een kleiner bereik te vallen.
- Discretisatie: Ruwe waarden van numerieke gegevens worden vervangen door intervallen. Bijvoorbeeld, Leeftijd.
# 5) Datamining
Datamining is een proces om interessante patronen en kennis uit een grote hoeveelheid data te identificeren. In deze stappen worden intelligente patronen toegepast om de datapatronen te extraheren. De gegevens worden weergegeven in de vorm van patronen en modellen worden gestructureerd met behulp van classificatie- en clusteringstechnieken.
# 6) Patroonevaluatie
Deze stap omvat het identificeren van interessante patronen die de kennis vertegenwoordigen op basis van interessantheidsmetingen. Gegevenssamenvattings- en visualisatiemethoden worden gebruikt om de gegevens begrijpelijk te maken voor de gebruiker.
# 7) Kennisvertegenwoordiging
Kennisrepresentatie is een stap waarbij datavisualisatie- en kennisrepresentatietools worden gebruikt om de gedolven data weer te geven. Gegevens worden gevisualiseerd in de vorm van rapporten, tabellen, etc.
Dataminingproces in Oracle DBMS
RDBMS vertegenwoordigt gegevens in de vorm van tabellen met rijen en kolommen. Gegevens zijn toegankelijk door databasequery's te schrijven.
Relationele databasebeheersystemen zoals Oracle ondersteunen datamining met CRISP-DM. De faciliteiten van de Oracle-database zijn nuttig bij het voorbereiden en begrijpen van gegevens. Oracle ondersteunt datamining via Java-interface, PL / SQL-interface, geautomatiseerde datamining, SQL-functies en grafische gebruikersinterfaces.
Dataminingproces in Datawarehouse
Een datawarehouse wordt gemodelleerd voor een multidimensionale datastructuur genaamd datakubus. Elke cel in een gegevenskubus slaat de waarde van enkele geaggregeerde meetwaarden op.
Datamining in een multidimensionale ruimte uitgevoerd in OLAP-stijl (Online Analytical Processing) waar het onderzoek mogelijk maakt van meerdere combinaties van dimensies op verschillende niveaus van granulariteit.
Wat zijn de toepassingen van gegevensextractie?
Een lijst met gebieden waar datamining veel wordt gebruikt, omvat:
# 1) Analyse van financiële gegevens: Datamining wordt veel gebruikt in het bankwezen, investeringen, kredietdiensten, hypotheken, autoleningen en verzekeringen en aandeleninvesteringen. De gegevens die uit deze bronnen worden verzameld, zijn volledig, betrouwbaar en van hoge kwaliteit. Dit maakt systematische data-analyse en datamining mogelijk.
# 2) Detailhandel en telecommunicatie-industrie: De detailhandel verzamelt enorme hoeveelheden gegevens over verkoop, winkelgeschiedenis van klanten, goederenvervoer, consumptie en service. Datamining voor detailhandel helpt bij het identificeren van koopgedrag van klanten, winkelpatronen en trends van klanten, het verbeteren van de kwaliteit van de klantenservice, het verbeteren van klantbehoud en tevredenheid.
# 3) Wetenschap en techniek: Datamining informatica en engineering kunnen helpen om de systeemstatus te bewaken, de systeemprestaties te verbeteren, softwarefouten te isoleren, softwareplagiaat op te sporen en systeemstoringen te herkennen.
# 4) Inbraakdetectie en -preventie: Inbraak wordt gedefinieerd als elke reeks acties die de integriteit, vertrouwelijkheid of beschikbaarheid van netwerkbronnen bedreigen. Datamining-methoden kunnen helpen bij het detecteren en voorkomen van indringers om de prestaties ervan te verbeteren.
# 5) Aanbevelingssystemen: Aanbevelingssystemen helpen consumenten door productaanbevelingen te doen die interessant zijn voor gebruikers.
Datamining-uitdagingen
Hieronder staan de verschillende uitdagingen vermeld die bij datamining komen kijken.
- Datamining heeft grote databases en gegevensverzameling nodig die moeilijk te beheren zijn.
- Het dataminingproces vereist domeinexperts die opnieuw moeilijk te vinden zijn.
- Integratie vanuit heterogene databases is een complex proces.
- De praktijken op organisatieniveau moeten worden aangepast om de resultaten van datamining te kunnen gebruiken. Het herstructureren van het proces vereist inspanning en kosten.
Gevolgtrekking
Datamining is een iteratief proces waarbij het mijnbouwproces kan worden verfijnd en nieuwe gegevens kunnen worden geïntegreerd om efficiëntere resultaten te krijgen. Datamining voldoet aan de eis van effectieve, schaalbare en flexibele data-analyse.
Het kan worden beschouwd als een natuurlijke evaluatie van informatietechnologie. Als een kennisontdekkingsproces voltooien datavoorbereiding en dataminingstaken het dataminingproces.
Dataminingprocessen kunnen worden uitgevoerd op elk type gegevens, zoals databasegegevens en geavanceerde databases zoals tijdreeksen, enz. Het dataminingproces heeft ook zijn eigen uitdagingen.
Blijf op de hoogte van onze aanstaande tutorial om meer te weten over voorbeelden van datamining !!
PREV-zelfstudie VOLGENDE zelfstudie
Aanbevolen literatuur
- Datamining: proces, technieken en grote problemen bij gegevensanalyse
- Dataminingtechnieken: algoritme, methoden en toptools voor datamining
- De 10 beste tools voor het in kaart brengen van gegevens die nuttig zijn in het ETL-proces (2021 LIST)
- Top 10 tools voor databaseontwerp om complexe gegevensmodellen te bouwen
- Datamining versus machine learning versus kunstmatige intelligentie versus diep leren
- Top 15 beste gratis tools voor datamining: de meest uitgebreide lijst
- Test datamanagementconcept, proces en strategie
- Parametrering van JMeter-gegevens met behulp van door de gebruiker gedefinieerde variabelen