complete guide big data analytics
Dit is een uitgebreide gids voor Big Data Analytics met zijn use cases, architectuur, voorbeelden en vergelijking met Big Data en Data Science:
Big data-analyse heeft aan kracht gewonnen omdat bedrijven zoals Facebook, Google en Amazon hun eigen nieuwe paradigma's van gedistribueerde gegevensverwerking en -analyse hebben opgezet om de neiging van hun klanten voor waarde-extractie uit big data te begrijpen.
In deze tutorial leggen we big data-analyse uit en vergelijken we deze met Big Data en Data Science. We behandelen de noodzakelijke attributen die bedrijven nodig hebben in hun big data-strategie en de methodologie die werkt. We noemen ook de laatste trends en enkele use cases van data-analyse.
Zoals te zien is in de onderstaande afbeelding, vereist Analytics dat IT-vaardigheden, zakelijke vaardigheden en datawetenschap worden gebruikt. Big data-analyse staat centraal bij het gebruik van waarden uit big data, en het helpt bij het verkrijgen van bruikbare inzichten voor een organisatie.
(beeld bron
Wat je leert:
- Wat is big data-analyse
- Gevolgtrekking
Wat is big data-analyse
Big Data Analytics houdt zich bezig met het gebruik van een verzameling statistische technieken, tools en procedures van analyse tot Big Data.
Aanbevolen Lezen => Inleiding tot big data
Het zijn de analyses die helpen bij het extraheren van waardevolle patronen en zinvolle inzichten uit big data om op gegevens gebaseerde besluitvorming te ondersteunen. Het is door de opkomst van nieuwe databronnen zoals sociale media en IoT-data dat big data en analytics populair zijn geworden.
Deze trend leidt tot een praktijk- en studiegebied dat 'data science' wordt genoemd en dat de technieken, tools, technologieën en processen voor datamining, opschonen, modelleren en visualiseren omvat.
Big Data versus Big Data Analytics versus Data Science
NAAR vergelijking tussen big data, data science en big data-analyse kan worden begrepen uit de onderstaande tabel.
Basis | Big data | Data Science | Big Data-analyse |
---|---|---|---|
Tools & Technologieën | Hadoop Ecosystem, CDH, Cassandra, MongoDB, Java, Python, Talend, SQL, Rapid Miner | R, Python, Jupyter, Data Science Workbench, IBM SPSS, Tableau | Spark, Storm, Knime, Data Wrapper, Lumify, HPCC, Qubole, Microsoft HDInsight |
Werkrollen en vaardigheden | Onderhoud van opslaginfrastructuur, gegevensverwerking en kennis over Hadoop en de integratie ervan met andere tools. | Datatransformatie, datatechniek, datawrangling, datamodellering en visualisatie | BI en geavanceerde analyse, statistieken, gegevensmodellering en machine learning, wiskundige vaardigheden, communicatie, consulting. |
Benamingen | Big data-architect Big Data-ontwikkelaar Big Data-ingenieur | Data scientist Machine Learning Engineer | Big Data-analist Bedrijfsanalist Business Intelligence-ingenieur Business Analytics-specialist Ontwikkelaar van datavisualisatie Analytics Manager |
Ca. Gemiddeld jaarsalaris in USD | 100.000 | 90.000 | 70.000 |
Voorgestelde lezing = >> Data Science Vs Computer Science
Wat elke strategie voor big data-analyse zou moeten hebben
Een goed gedefinieerde, geïntegreerde en alomvattende strategie draagt bij aan en ondersteunt waardevolle datagestuurde besluitvorming in een organisatie. In dit gedeelte hebben we de meest kritieke stappen op een rijtje gezet waarmee u rekening moet houden bij het definiëren van een strategie voor big data-analyse.
Stap 1: Beoordeling
Een beoordeling, die al is afgestemd op de bedrijfsdoelstellingen, vereist de betrokkenheid van de belangrijkste belanghebbenden, het creëren van een team van leden met de juiste vaardigheden, het evalueren van beleid, mensen, processen en technologie en gegevensactiva. Indien gewenst kan men klanten van de beoordeelde bij dit proces betrekken.
Stap 2: Prioritering
Na de beoordeling moet men use-cases afleiden en deze prioriteren met behulp van voorspellende analyses van big data, prescriptieve analyses en cognitieve analyses. U kunt ook een tool zoals de prioriteringsmatrix gebruiken en de use cases verder filteren met behulp van feedback en input van belangrijke belanghebbenden.
Stap 3: RoadMap
In deze stap is het vereist om een tijdgebonden roadmap te maken en deze voor iedereen te publiceren. Een roadmap moet alle details bevatten met betrekking tot complexiteit, fondsen, inherente voordelen van de use-cases en in kaart gebrachte projecten.
Stap 4: Veranderingsbeheer
Het implementeren van verandermanagement vereist dat de beschikbaarheid, integriteit, veiligheid en bruikbaarheid van gegevens wordt beheerd. Een effectief verandermanagementprogramma, gebruikmakend van bestaande data governance, stimuleert activiteiten en leden op basis van continue monitoring.
Stap 5: juiste vaardigheidsset
Het identificeren van de juiste vaardigheden is cruciaal voor het succes van de organisatie te midden van de huidige trends in de branche. Daarom moet men de juiste leiders volgen en educatieve programma's opzetten om kritische belanghebbenden te onderwijzen.
Stap 6: Betrouwbaarheid, schaalbaarheid en beveiliging
De juiste aanpak en effectieve big data-analysestrategie maken het analyseproces betrouwbaar, met effectief gebruik van interpreteerbare modellen met data science-principes. Een strategie voor big data-analyse moet vanaf het begin ook aspecten van beveiliging omvatten voor een robuuste en nauw geïntegreerde analysepijplijn.
Gegevenspijplijn en proces voor gegevensanalyse
Bij het plannen van de data-analysepijplijn zijn er drie fundamentele aspecten waarmee u rekening moet houden. Dit zijn de volgende:
- Invoer: Data formaat en selectie van technologie om te verwerken, het is gebaseerd op de onderliggende aard van de gegevens. dat wil zeggen. of gegevens tijdreeksen en kwaliteit zijn.
- Uitgang: Keuze uit connectoren , rapporten en visualisatie zijn afhankelijk van de technische expertise van eindgebruikers en hun vereisten voor gegevensverbruik.
- Volume: Schaaloplossingen worden gepland op basis van de hoeveelheid gegevens om overbelasting van het verwerkingssysteem voor big data te voorkomen.
Laten we nu een typisch proces en de fasen voor een pijplijn voor big data-analyse bespreken.
Fase 1: gegevensopname
Gegevensopname is de eerste en belangrijkste stap in de gegevenspijplijn. Het behandelt drie aspecten van gegevens.
- Gegevensbron - Het is belangrijk met betrekking tot de keuze van de architectuur van big data-pijplijnen.
- Structuur van gegevens - Serialisatie is de sleutel om een homogene structuur in de pijplijn te behouden.
- Netheid van gegevens - Analytics is zo goed als de gegevens zonder problemen zoals ontbrekende waarden en uitschieters, enz.
Fase 2: ETL / Warehousing
De volgende belangrijke module zijn tools voor gegevensopslag om ETL (Extract Transform Load) uit te voeren. Gegevensopslag in een geschikt datacenter is afhankelijk van,
- Hardware
- Management expertise
- Begroting
(beeld bron
Enkele beproefde tools voor ETL / Warehousing in datacenters zijn:
- Apache Hadoop
- Apache Hive
- Apache parket
- Presto Query-engine
Cloudbedrijven zoals Google, AWS, Microsoft Azure bieden deze tools tegen betaling per basis en besparen op initiële kapitaaluitgaven.
Fase 3: analyse en visualisatie
Gezien de beperking van Hadoop op het gebied van snelle query's, moet men analyseplatforms en tools gebruiken die snelle en ad-hoc query's mogelijk maken met de vereiste visualisatie van resultaten.
>> Aanbevolen literatuur: Tools voor big data
Fase 4: Monitoring
Na het opzetten van een infrastructuur voor opname, opslag en analyse met visualisatietools, is de volgende stap om IT- en datamonitoringstools te hebben om te monitoren. Deze omvatten:
- CPU- of GPU-gebruik
- Geheugen- en resourceverbruik
- Netwerken
Enkele tools die het overwegen waard zijn, zijn:
- Datadog
- Grafana
Monitoringtools zijn onmisbaar in een pijplijn voor big data-analyse en helpen de kwaliteit en integriteit van de pijplijn te bewaken.
Architectuur voor big data-analyse
Het onderstaande architectuurdiagram laat zien hoe moderne technologieën zowel ongestructureerde als gestructureerde databronnen gebruiken voor Hadoop & Map-reductie-verwerking, in-memory analytische systemen en realtime analyses om gecombineerde resultaten te leveren voor realtime bewerkingen en besluitvorming.
(beeld bron
Huidige trends in gegevensanalyse
In deze sectie hebben we de essentiële aspecten opgesomd waar u op moet letten bij het implementeren of volgen van trends van big data-analyse in de branche.
# 1) Big Data-bronnen
Er zijn in de eerste plaats drie bronnen van Big Data. Deze worden hieronder vermeld:
- Sociale gegevens: Gegevens gegenereerd door gebruik van sociale media. Deze gegevens helpen bij het begrijpen van de gevoelens en gedrag van klanten en kan nuttig zijn bij marketinganalyses.
- Machinegegevens: Deze gegevens worden verzameld uit industriële apparatuur en toepassingen met behulp van IoT-sensoren. Het helpt bij het begrijpen mensen gedrag en geeft inzicht in processen
- Transactiegegevens: Het wordt gegenereerd als resultaat van zowel offline als online activiteiten van gebruikers met betrekking tot betalingsopdrachten, facturen, ontvangstbewijzen, enz. De meeste van dit soort gegevensbehoeften voorverwerking en schoonmaak voordat het kan worden gebruikt voor analyses.
# 2) SQL / NoSQL-gegevensopslag
In vergelijking met traditionele databases of RDBMS, blijken NoSQL-databases beter te zijn voor taken die nodig zijn voor big data-analyse.
NoSQL-databases kunnen inherent goed omgaan met ongestructureerde gegevens en zijn niet beperkt tot dure schema-aanpassingen, verticale schaalvergroting en interferentie van ACID-eigenschappen.
# 3) Voorspellende analyses
Predictive Analytics biedt op maat gemaakte inzichten die organisaties ertoe aanzetten om nieuwe klantreacties of aankopen en cross-selling-mogelijkheden te genereren. Organisaties gebruiken voorspellende analyses om voorspellingen te doen over afzonderlijke elementen op gedetailleerd niveau om toekomstige resultaten te voorspellen en mogelijke problemen te voorkomen. Dit wordt verder gecombineerd met historische gegevens en omgezet in prescriptieve analyses.
Sommige gebieden waar voorspellende analyse van big data met succes is gebruikt, zijn zaken, kinderbescherming, ondersteunende systemen voor klinische besluitvorming, portfoliovoorspelling, voorspellingen op economisch niveau en acceptatie.
# 4) Diep leren
De big data zijn overweldigend voor conventioneel computergebruik. Het blijkt dat traditionele machine learning-technieken van data-analyse afvlakken in prestaties naarmate de variëteit en het volume van gegevens toenemen.
Analytics staat voor uitdagingen met betrekking tot formaatvariaties, sterk gedistribueerde invoerbronnen, ongebalanceerde invoergegevens en snel bewegende streaminggegevens, en algoritmen voor diep leren gaan redelijk efficiënt om met dergelijke uitdagingen.
Deep learning heeft zijn effectieve toepassing gevonden bij semantische indexering, het uitvoeren van onderscheidende taken, semantische beeld- en videotagging, sociale targeting, en ook bij hiërarchische leerbenaderingen op meerdere niveaus op het gebied van objectherkenning, gegevenstagging, het ophalen van informatie en natuurlijke taal verwerken.
# 5) Datameren
Het opslaan van verschillende datasets in verschillende systemen en deze combineren voor analyse met traditionele datamanagementbenaderingen blijkt duur en bijna onhaalbaar. Daarom maken organisaties datameren, die gegevens opslaan in hun onbewerkte, oorspronkelijke indeling voor bruikbare analyses.
De onderstaande afbeelding toont een voorbeeld van een datameer in de big data-architectuur.
(beeld bron
Big Data Analytics gebruikt
We hebben hieronder enkele veelvoorkomende use-cases genoemd:
# 1) Klantanalyse
Big Data Analytics is nuttig voor verschillende doeleinden, zoals micromarketing, één-op-één marketing, fijnere segmentatie en massa-aanpassing voor de klanten van een bedrijf. Bedrijven kunnen strategieën ontwikkelen om hun producten en diensten te personaliseren op basis van de neiging van de klant om een vergelijkbaar of ander assortiment producten en diensten up-selling of cross-selling te doen.
# 2) Operationele analyse
Operationele analyse helpt bij het verbeteren van de algehele besluitvorming en bedrijfsresultaten door gebruik te maken van bestaande gegevens en deze te verrijken met de machine- en IoT-gegevens.
Bijvoorbeeld, big data-analyse in de gezondheidszorg heeft het mogelijk gemaakt om uitdagingen en nieuwe kansen aan te gaan met betrekking tot het optimaliseren van de uitgaven voor gezondheidszorg, het verbeteren van de monitoring van klinische onderzoeken, het voorspellen en plannen van reacties op ziekte-epidemieën zoals COVID-19.
# 3) Fraudepreventie
Big data-analyse kan een enorm voordeel opleveren door te helpen anticiperen op fraude en deze te verminderen, voornamelijk in de financiële en verzekeringssector.
Bijvoorbeeld, Verzekeringsmaatschappijen leggen realtime gegevens vast over demografie, inkomsten, medische claims, advocaatkosten, weer, spraakopnamen van een klant en notities in het callcenter. Specifieke realtime details helpen bij het afleiden van voorspellende modellen door de hierboven genoemde informatie te combineren met historische gegevens om speculatieve frauduleuze claims vroegtijdig te identificeren.
# 4) Prijsoptimalisatie
Bedrijven gebruiken big data-analyse om de winstmarges te vergroten door de beste prijs op productniveau te vinden, en niet op categorieniveau. Grote bedrijven vinden het te overweldigend om de gedetailleerde details en complexiteit van prijsvariabelen te krijgen, die regelmatig veranderen voor duizenden producten.
Een op analyse gebaseerde prijsoptimalisatiestrategie, zoals dynamische dealscores, stelt bedrijven in staat om prijzen voor clusters van producten en segmenten vast te stellen op basis van hun gegevens en inzichten op individuele dealniveaus om quick wins te behalen van veeleisende klanten.
Veel Gestelde Vragen
V # 1) Is big data-analyse een goede carrière?
Antwoord: Het is een toegevoegde waarde voor elke organisatie, waardoor het weloverwogen beslissingen kan nemen en een voorsprong op concurrenten kan krijgen. Een carrièreswitch in Big Data vergroot uw kans om een belangrijke besluitvormer te worden voor een organisatie.
Vraag 2) Waarom is big data-analyse belangrijk?
Antwoord: Het helpt organisaties om nieuwe groeimogelijkheden en volledig nieuwe productcategorieën te creëren die branchegegevens kunnen combineren en analyseren. Deze bedrijven hebben veel informatie over de producten en diensten, kopers en leveranciers, consumentenvoorkeuren die kunnen worden vastgelegd en geanalyseerd.
V # 3) Wat is er nodig voor big data-analyse?
Antwoord: Het scala aan technologieën waarmee een goede big data-analist vertrouwd moet zijn, is enorm. Om Big Data-analyse onder de knie te krijgen, vereist het kennis van verschillende tools, software, hardware en platforms. Bijvoorbeeld, Spreadsheets, SQL-query's en R / R Studio en Python zijn enkele basishulpmiddelen.
Op bedrijfsniveau zijn tools zoals MATLAB, SPSS, SAS en Congnos belangrijk naast Linux, Hadoop, Java, Scala, Python, Spark, Hadoop en HIVE.
Objectieve vragen:
V # 4) Welke van de onderstaande databases is geen NoSQL-database?
- MongoDB
- PostgreSQL
- CouchDB
- HBase
Antwoord: PostgreSQL
Vraag 5) Is Cassandra een NoSQL?
- Klopt
- Vals
Antwoord: Klopt
V # 6) Welke van de volgende zaken is niet het eigendom van Hadoop?
wat is het verschil tussen linux en unix
- Open source
- Gebaseerd op Java
- Gedistribueerde verwerking
- Echte tijd
Antwoord: Echte tijd
V # 7) Kies alle activiteiten die NIET worden uitgevoerd door een Data Scientist.
- Bouw Machine Learning-modellen en verbeter hun prestaties.
- Evaluatie van statistische modellen om analyses te valideren
- Vat geavanceerde analyses samen met behulp van datavisualisatietools
- Presentatie van resultaten van technische analyse aan interne teams en zakelijke klanten
Antwoord: Presentatie van resultaten van technische analyse aan interne teams en zakelijke klanten
Verder lezen = >> Belangrijkste verschillen tussen data-analist en data-wetenschapper
Q # 8) Welke activiteiten worden uitgevoerd door een data-analist?
- Ruim onbewerkte gegevens op en organiseer ze
- Interessante trends in gegevens vinden
- maak dashboards en visualisaties voor eenvoudige interpretatie
- Alle bovenstaande
Antwoord: Alle bovenstaande
V # 9) Welke van de volgende handelingen wordt uitgevoerd door een Data Engineer?
- Integratie van nieuwe gegevensbronnen in de bestaande pijplijn voor gegevensanalyse
- De ontwikkeling van API's voor datagebruik
- bewaken en testen van het systeem voor blijvende prestaties
- Alle bovenstaande
Antwoord: Alle bovenstaande
Vraag 10) De juiste volgorde van gegevensstroom voor analyse is
- Gegevensbronnen, gegevensvoorbereiding, gegevenstransformatie, algoritme-ontwerp, gegevensanalyse
- Gegevensbronnen, gegevenstransformatie, algoritmeontwerp, gegevensvoorbereiding, gegevensanalyse
- Gegevensbronnen, algoritme-ontwerp, gegevensvoorbereiding, gegevenstransformatie, gegevensanalyse
- Gegevensbronnen, gegevensvoorbereiding, algoritme-ontwerp, gegevenstransformatie, gegevensanalyse
Antwoord: Gegevensbronnen, gegevensvoorbereiding, gegevenstransformatie, algoritme-ontwerp, gegevensanalyse
Vraag 11) Gegevensanalyse is een lineair proces.
- Klopt
- Vals
Antwoord: Vals
Vraag 12) Verkennende analyse is dat NIET
- Antwoord initiële data-analyse vragen in detail
- Bepaal problemen met de dataset
- Maak een schets van een antwoord op de vraag
- Bepaal of de gegevens correct zijn voor het beantwoorden van een vraag
Antwoord: Antwoordinitiële data-analyse vragen in detail
V # 13) Voorspellingsvraag is een andere naam die aan een inferentiële vraag wordt gegeven.
- Klopt
- Vals
Antwoord: Vals
Gevolgtrekking
We hebben de belangrijkste aspecten van big data-analyse behandeld. We hebben de meest voorkomende use-cases en de trends in de big data-analyse-industrie uitgelegd om maximale voordelen te behalen.
Aanbevolen literatuur
- Top 7 BESTE data-analysebedrijven in 2021 (bijgewerkte lijst van 2021)
- Top 15 Big Data Tools (Big Data Analytics Tools) in 2021
- De 10 beste tools voor gegevensanalyse voor perfect gegevensbeheer (2021 LIST)
- Top 10 Data Science Tools in 2021 om programmeren te elimineren
- Big data-zelfstudie voor beginners | Wat zijn big data?
- Top 13 beste big data-bedrijven van 2021
- 10 beste tools voor gegevensmodellering om complexe ontwerpen te beheren
- 10+ beste tools voor gegevensbeheer om in 2021 aan uw gegevensbehoeften te voldoen