big data tutorial beginners what is big data
Deze tutorial legt alles uit over Big Data Basics. Tutorial bevat voordelen, uitdagingen, technologieën en tools, samen met toepassingen van big data:
In deze digitale wereld met technologische vooruitgang, wisselen we dagelijks grote hoeveelheden data uit zoals in Terabytes of Petabyte
Als we die hoeveelheid gegevens dagelijks uitwisselen, moeten we die ook onderhouden en ergens opslaan. De oplossing om de grote hoeveelheden gegevens met hoge snelheid en verschillende variëteit te verwerken is Big data.
Het kan complexe gegevens verwerken die uit meerdere bronnen komen, zoals verschillende databases, websites, widgets, enz. Het kan ook de gegevens uit verschillende bronnen koppelen en matchen. Het geeft inderdaad een snellere toegang tot de gegevens ( Bijvoorbeeld, sociale media).
Lijst met zelfstudies in deze Big Data-serie
Tutorial # 1: Wat zijn big data? (Deze tutorial)
Tutorial # 2: Wat is Hadoop? Apache Hadoop-zelfstudie voor beginners
Tutorial # 3: Hadoop HDFS - Hadoop gedistribueerd bestandssysteem
Tutorial # 4: Gids voor Hadoop-architectuur en HDFS-opdrachten
Tutorial # 5: Hadoop MapReduce-zelfstudie met voorbeelden | Wat is MapReduce?
Tutorial # 6: Apache Hadoop YARN-zelfstudie voor beginners | Wat is GAREN?
Tutorial # 7: Uitgebreide zelfstudie over Hadoop-tests | Gids voor het testen van big data
Wat je leert:
Wat zijn big data?
Het woord Huge is niet genoeg om BigData uit te leggen, bepaalde kenmerken classificeren de gegevens in BigData.
We hebben drie hoofdkenmerken van BigData en als gegevens aan deze kenmerken voldoen, worden deze als BigData behandeld. ik t is de combinatie van de drie onderstaande V's:
- Volume
- Snelheid
- Verscheidenheid
Volume : De gegevens moeten een enorm volume hebben. Big Data heeft de oplossing om een grote hoeveelheid data in Terabyte of Petabyte te onderhouden. We kunnen CRUD-bewerkingen (maken, lezen, bijwerken en verwijderen) eenvoudig en effectief uitvoeren op BigData.
Snelheid : Het is verantwoordelijk voor snellere toegang tot gegevens. Bijvoorbeeld, Tegenwoordig hebben sociale media een snelle gegevensuitwisseling in een fractie van tijd nodig en BigData is daarvoor de beste oplossing. Daarom is snelheid een ander kenmerk en het is de verwerkingssnelheid van gegevens.
Verscheidenheid : In sociale media hebben we te maken met ongestructureerde data zoals audio- of video-opnames, afbeeldingen, etc. Ook hebben verschillende sectoren zoals het bancaire domein behoefte aan gestructureerde en semi-gestructureerde data. BigData is de oplossing om beide soorten data op één plek te bewaren.
Variatie betekent verschillende soorten gegevens, zoals gestructureerde / ongestructureerde gegevens die uit meerdere bronnen komen.
Gestructureerde gegevens : De gegevens met een goede structuur of de gegevens die gemakkelijk in tabelvorm kunnen worden opgeslagen in relationele databases zoals Oracle, SQL Server of MySQL, staan bekend als gestructureerde gegevens. We kunnen het gemakkelijk en efficiënt verwerken of analyseren.
Een voorbeeld van gestructureerde gegevens zijn de gegevens die zijn opgeslagen in een relationele database en die kunnen worden beheerd met behulp van SQL (Structured Query Language). Bijvoorbeeld, Werknemersgegevens (naam, ID, aanduiding en salaris) kunnen in tabelvorm worden opgeslagen.
In een traditionele database kunnen we bewerkingen uitvoeren of ongestructureerde of semi-gestructureerde gegevens alleen verwerken nadat deze zijn geformatteerd of in de relationele database passen. Voorbeelden van gestructureerde gegevens zijn ERP, CRM, etc.
Semi-gestructureerde gegevens: Semi-gestructureerde gegevens zijn de gegevens die niet volledig zijn opgemaakt. Het wordt niet opgeslagen in gegevenstabellen of een database. Maar toch kunnen we het gemakkelijk voorbereiden en verwerken, aangezien deze gegevens tags of door komma's gescheiden waarden bevatten, enz. Voorbeeld van semi-gestructureerde gegevens zijn XML-bestanden, CSV-bestanden, enz.
Ongestructureerde gegevens: Ongestructureerde gegevens zijn de gegevens die geen enkele structuur hebben. Het kan in elke vorm zijn, er is geen voorgedefinieerd datamodel. We kunnen het niet opslaan in traditionele databases. Het is complex om het te doorzoeken en te verwerken.
Ook is het volume van ongestructureerde gegevens erg hoog. Voorbeeld van ongestructureerde gegevens zijn de inhoud van de e-mail, audio, video, afbeeldingen, behaalde documenten, enz.
Uitdagingen van traditionele databases
- De traditionele database ondersteunt geen verscheidenheid aan gegevens, d.w.z. het is niet in staat om ongestructureerde en semi-gestructureerde gegevens te verwerken.
- Een traditionele database is traag bij het verwerken van een grote hoeveelheid gegevens.
- In traditionele databases is het verwerken of analyseren van een grote hoeveelheid gegevens erg moeilijk.
- Een traditionele database kan gegevens opslaan in terabytes of petabytes.
- Een traditionele database kan geen historische gegevens en rapporten verwerken.
- Na een bepaalde tijd is het opschonen van gegevens van de database noodzakelijk.
- De kosten voor het onderhouden van een grote hoeveelheid gegevens zijn erg hoog met een traditionele database.
- De gegevensnauwkeurigheid is minder in de traditionele database omdat er geen volledige historische gegevens in worden bijgehouden.
Big dataVoordelen ten opzichte van traditionele databases
- Big Data is verantwoordelijk voor het behandelen, beheren en verwerken van verschillende soorten gegevens, zoals gestructureerd, semi-gestructureerd en ongestructureerd.
- Het is kosteneffectief in termen van het bijhouden van een grote hoeveelheid gegevens. Het werkt op een gedistribueerd databasesysteem.
- Met BigData-technieken kunnen we grote hoeveelheden data langdurig bewaren. Het is dus gemakkelijk om historische gegevens te verwerken en nauwkeurige rapporten te genereren.
- De gegevensverwerkingssnelheid is erg snel en daarom gebruiken sociale media Big Data-technieken.
- Data Accuracy is een groot voordeel van Big Data.
- Het stelt gebruikers in staat om efficiënte beslissingen te nemen voor hun bedrijf op basis van actuele en historische gegevens.
- Foutafhandeling, versiebeheer en klantervaring zijn zeer effectief in BigData.
Voorgestelde lezing => Big Data versus Big Data Analytics versus Data Science
Uitdagingen en risico's in BigData
Uitdagingen:
- Een van de grootste uitdagingen bij Big Data is het beheren van grote hoeveelheden data. Tegenwoordig komen data met variatie uit verschillende bronnen naar een systeem. Het is dus een hele grote uitdaging voor de bedrijven om het goed te managen. Bijvoorbeeld, om een rapport te genereren dat de gegevens van de afgelopen 20 jaar bevat, moet het de gegevens van de laatste 20 jaar van een systeem bewaren en onderhouden. Voor een nauwkeurig rapport is het nodig om alleen de relevante gegevens in het systeem te plaatsen. Het mag geen irrelevante of onnodige gegevens bevatten, anders wordt het bijhouden van die hoeveelheid gegevens een grote uitdaging voor de bedrijven.
- Een andere uitdaging bij deze technologie is de synchronisatie van verschillende soorten gegevens. Zoals we allemaal weten, ondersteunt Big Data gestructureerde, ongestructureerde en semi-gestructureerde gegevens afkomstig uit verschillende bronnen, het synchroniseren en het verkrijgen van de consistentie van gegevens is erg moeilijk.
- De volgende uitdaging waarmee bedrijven worden geconfronteerd, is de kloof van experts die kunnen helpen en de problemen waarmee ze worden geconfronteerd in het systeem kunnen implementeren. Er is een groot tekort aan talent op dit gebied.
- Omgaan met compliance-aspecten is duur.
- Gegevensverzameling, aggregatie, opslag, analyse en rapportage van BigData heeft enorme kosten. De organisatie moet al deze kosten kunnen beheersen.
Risico's:
- Het kan een verscheidenheid aan gegevens verwerken, maar als bedrijven de vereisten niet goed kunnen begrijpen en de gegevensbron niet kunnen beheersen, levert het gebrekkige resultaten op. Als gevolg hiervan zal het veel tijd en geld kosten om de resultaten te onderzoeken en te corrigeren.
- Gegevensbeveiliging is een ander risico met de BigData. Met een grote hoeveelheid gegevens is de kans groter dat iemand deze steelt. Gegevenshackers kunnen belangrijke informatie (inclusief historische gegevens) van het bedrijf stelen en verkopen.
- Gegevensprivacy is ook een ander risico voor BigData. Als we de persoonlijke en gevoelige gegevens van hackers willen beveiligen, moeten deze worden beschermd en moeten ze voldoen aan het privacybeleid.
Big Data-technologieën
Hieronder volgen de technologieën die kunnen worden gebruikt om Big Data te beheren:
- Apache Hadoop
- Microsoft HDInsight
- Geen SQL
- Bijenkorf
- Sqoop
- BigData in Excel
Een gedetailleerde beschrijving van deze technologieën zal worden behandeld in onze komende tutorials.
Tools om Big Data-concepten te gebruiken
Hieronder staan de open-sourcehulpmiddelen vermeld die kunnen helpen bij het gebruik van Big Data-concepten:
# 1) Apache Hadoop
# 2) Lumify
# 3) Apache Storm
# 4) Apache Samoa
# 5) Elasticsearch
# 6) MongoDB
# 7) HPCC-systeem BigData
Toepassingen van Big Data
Hieronder volgen de domeinen waarin het wordt gebruikt:
- Bankieren
- Media en entertainment
- Zorgverleners
- Verzekering
- Onderwijs
- Kleinhandel
- Productie
- Regering
BigData en datawarehouse
Datawarehouse is een basisconcept dat we moeten begrijpen voordat we Hadoop of BigData Testing bespreken.
Laten we Data Warehouse eens bekijken vanuit een realtime voorbeeld. Bijvoorbeeld , is er een bedrijf dat zijn vestigingen heeft gevestigd in drie verschillende landen, laten we aannemen dat er een vestiging is in India, Australië en Japan.
In elke vestiging worden de volledige klantgegevens opgeslagen in de Lokale Database. Deze lokale databases kunnen normale klassieke RDBMS'en zijn, zoals Oracle of MySQL of SQL Server enz. En alle klantgegevens worden daarin dagelijks opgeslagen.
Nu, elk kwartaal, halfjaarlijks of jaarlijks, wil de organisatie deze gegevens analyseren voor bedrijfsontwikkeling. Om hetzelfde te doen, zal de organisatie al deze gegevens uit meerdere bronnen verzamelen en deze vervolgens op één plek samenvoegen en deze plek heet 'Datawarehouse'.
Datawarehouse is een soort database die alle gegevens bevat die uit meerdere bronnen of meerdere databasetypen via het 'ETL' (welke is de IS xtract, T ransform en L. oad) proces. Als de data eenmaal klaar is in het Data Warehouse, kunnen we deze gebruiken voor analytische doeleinden.
Voor analyse kunnen we dus rapporten genereren op basis van de gegevens die beschikbaar zijn in het datawarehouse. Met Business Intelligence Tools kunnen meerdere grafieken en rapporten worden gegenereerd.
We hebben Data Warehouse nodig voor analytische doeleinden om het bedrijf te laten groeien en de juiste beslissingen te nemen voor de organisaties.
Er gebeuren drie dingen in dit proces. Ten eerste hebben we de gegevens uit meerdere bronnen gehaald en op een enkele locatie geplaatst: datawarehouse.
Hier gebruiken we het 'ETL' -proces, dus terwijl we de gegevens uit meerdere bronnen naar één plaats laden, zullen we deze toepassen in Transformation Roots en dan kunnen we hier verschillende soorten ETL-tools gebruiken.
Zodra de gegevens klaar zijn in Data Warehouse, kunnen we verschillende rapporten genereren om de bedrijfsgegevens te analyseren met behulp van Business Intelligence (BI) Tools of we noemen ze ook wel Reporting Tools. De tools zoals Tableau of Cognos kunnen worden gebruikt voor het genereren van de rapporten en DashBoards voor het analyseren van de gegevens voor het bedrijfsleven.
OLTP en OLAP
Laten we eens kijken wat OLTP en wat OLAP zijn?
Databases die lokaal worden onderhouden en voor transactiedoeleinden worden gebruikt, worden gebeld OLTP, d.w.z. online transactieverwerking. De dagelijkse transacties worden hier opgeslagen en onmiddellijk bijgewerkt en daarom hebben we ze OLTP-systeem genoemd.
Hier gebruiken we traditionele databases, we hebben meerdere tabellen en er zijn relaties, dus alles wordt systematisch gepland volgens de database. We gebruiken deze gegevens niet voor analytische doeleinden. Hier kunnen we klassieke RDMBS-databases gebruiken, zoals Oracle, MySQL, SQL Server, enz.
Als we bij het Data Warehouse-gedeelte komen, gebruiken we Teradata of Hadoop Systems, die ook een soort database zijn, maar de gegevens in een DataWarehouse worden meestal gebruikt voor analytische doeleinden en worden genoemd OLAP of Online analytische verwerking.
Hier kunnen de gegevens op kwartaal-, halfjaarlijkse of jaarlijkse basis worden bijgewerkt. Soms worden de gegevens ook 'Offerly' bijgewerkt, waarbij Offerly betekent dat de gegevens worden bijgewerkt en opgehaald voor analyse volgens de eisen van de klant.
Ook worden de gegevens voor analyse niet dagelijks bijgewerkt omdat we de gegevens uit meerdere bronnen halen, op een geplande basis en we deze ETL-taak kunnen uitvoeren. Dit is hoe het Online Analytical Processing System werkt.
qa tester interviewvragen en antwoorden
Ook hier kunnen BI Tools of Reporting Tools zowel rapporten als dashboards genereren, en op basis hiervan zullen de zakenmensen de beslissingen nemen om hun bedrijf te verbeteren.
Waar komt BigData in beeld?
BigData zijn de gegevens die de opslag- en verwerkingscapaciteit van conventionele databases te boven gaan en het zijn in de gestructureerde en ongestructureerde indeling, zodat ze niet kunnen worden verwerkt door lokale RDBMS-systemen.
Dit soort gegevens wordt gegenereerd in TeraBytes (TB) of PetaBytes (PB) of hoger en neemt tegenwoordig snel toe. Er zijn meerdere bronnen om dit soort gegevens te krijgen, zoals Facebook, WhatsApp (die gerelateerd zijn aan Social Networking); Amazon, Flipkart gerelateerd aan e-commerce; Gmail, Yahoo, Rediff gerelateerd aan e-mails en Google en andere zoekmachines. We krijgen ook bigdata van mobiele telefoons zoals sms-gegevens, oproepopname, oproeplogboeken, enz.
Gevolgtrekking
Big data is de oplossing om grote hoeveelheden data efficiënt en veilig te verwerken. Het is ook verantwoordelijk om historische gegevens bij te houden. Er zijn veel voordelen van deze technologie en daarom wil elk bedrijf overstappen op de Big data
Auteur: Vaishali Tarey, technisch leider bij Syntel
Aanbevolen literatuur
- Data Mart-zelfstudie - Typen, voorbeelden en implementatie van Data Mart
- Top 10 tools voor databaseontwerp om complexe datamodellen te bouwen
- 20+ MongoDB-zelfstudie voor beginners: gratis MongoDB-cursus
- Wat is een datameer | Datawarehouse versus Data Lake
- Top 10 gestructureerde gegevenstest- en validatietools voor SEO
- Dimensionaal gegevensmodel in datawarehouse - zelfstudie met voorbeelden
- Datamining: proces, technieken en grote problemen bij gegevensanalyse
- Gegevensgestuurde tests uitvoeren in SoapUI Pro - SoapUI-zelfstudie # 14