weka tutorial how download
Deze WEKA-tutorial legt uit wat de Weka Machine Learning-tool is, wat de functies ervan zijn en hoe je Weka Machine Learning-software downloadt, installeert en gebruikt:
In de Vorige tutorial , leerden we over Support Vector Machine in ML en aanverwante concepten zoals Hyperplane, Support Vectors & Applications of SVM.
Machine Learning is een wetenschapsgebied waar machines fungeren als een kunstmatig intelligent systeem. De machines kunnen zelf leren zonder expliciete codering. Het is een iteratief proces dat toegang krijgt tot gegevens, uit zichzelf leert en de uitkomst voorspelt. Voor het uitvoeren van machine learning-taken zijn veel tools en scripts vereist.
WEKA is een machine learning-platform dat bestaat uit veel tools die veel machine learning-activiteiten mogelijk maken.
Lees de complete serie Machine Learning-trainingen door
wat is uw aanpak bij het testen van mobiele applicaties
Wat je leert:
- Wat is WEKA
- Gevolgtrekking
Wat is WEKA
Weka is een open-source tool ontworpen en ontwikkeld door de wetenschappers / onderzoekers van de Universiteit van Waikato, Nieuw-Zeeland. WEKA staat voor Waikato Environment for Knowledge Analysis. Het is ontwikkeld door de internationale wetenschappelijke gemeenschap en gedistribueerd onder de gratis GNU GPL-licentie.
WEKA is volledig ontwikkeld in Java. Het biedt integratie met de SQL-database met behulp van Java Database-connectiviteit. Het biedt veel algoritmen voor machine learning om datamining-taken te implementeren. Deze algoritmen kunnen rechtstreeks worden gebruikt met de WEKA-tool of kunnen worden gebruikt met andere toepassingen die de programmeertaal Java gebruiken.
Het biedt veel tools voor het voorbewerken, classificeren, clusteren, regressieanalyse, het maken van associatieregels, het extraheren van objecten en het visualiseren van gegevens. Het is een krachtige tool die de ontwikkeling van nieuwe algoritmen in machine learning ondersteunt.
Waarom WEKA Machine Learning Tool gebruiken
Met WEKA zijn de algoritmen voor machine learning direct beschikbaar voor de gebruikers. De ML-specialisten kunnen deze methoden gebruiken om nuttige informatie uit grote hoeveelheden gegevens te halen. Hier kunnen de specialisten een omgeving creëren om nieuwe machine learning-methoden te ontwikkelen en deze op echte data te implementeren.
WEKA wordt gebruikt door machine learning en toegepaste wetenschappers voor leerdoeleinden. Het is een efficiënt hulpmiddel voor het uitvoeren van veel datamining-taken.
WEKA downloaden en installeren
# 1) Download de software van hier
Controleer de configuratie van het computersysteem en download de stabiele versie van WEKA (momenteel 3.8) vanaf deze pagina.
#twee) Na een succesvolle download opent u de bestandslocatie en dubbelklikt u op het gedownloade bestand. De Step Up-wizard zal verschijnen. Klik op Volgende.
# 3) De voorwaarden van de licentieovereenkomst worden geopend. Lees het aandachtig door en klik op 'Ik ga akkoord'.
# 4) Selecteer volgens uw vereisten de componenten die u wilt installeren. Volledige installatie van componenten wordt aanbevolen. Klik op Volgende.
# 5) Selecteer de bestemmingsmap en klik op Volgende.
# 6) Vervolgens begint de installatie.
# 7) Als Java niet op het systeem is geïnstalleerd, wordt eerst Java geïnstalleerd.
# 8) Nadat de installatie is voltooid, verschijnt het volgende venster. Klik op Volgende.
# 9) Schakel het selectievakje Start Weka in. Klik op Voltooien.
# 10) Het venster WEKA Tool en Explorer wordt geopend.
#elf) De WEKA-handleiding kan worden gedownload van hier.
Grafische gebruikersinterface van WEKA
De GUI van WEKA geeft vijf opties: Explorer, Experimenter, Knowledge Flow, Workbench en Simple CLI. Laten we elk van deze afzonderlijk begrijpen.
# 1) Eenvoudige CLI
Eenvoudige CLI is Weka Shell met opdrachtregel en uitvoer. Met “help” is het overzicht van alle commando's te zien. Eenvoudige CLI biedt toegang tot alle klassen, zoals classificaties, clusters en filters, enz.
Enkele van de eenvoudige CLI-opdrachten zijn:
- Breken: Om de huidige thread te stoppen
- Uitgang: Verlaat de CLI
- Helpen() : Voert de hulp uit voor de opgegeven opdracht
- -java weka.classifiers.trees.J48 -t c: /temp/iris.arff: Om een WEKA-klasse aan te roepen, voeg Java toe als voorvoegsel. Dit commando zal WEKA opdracht geven om de klasse te laden en uit te voeren met de gegeven parameters. In dit commando wordt de J48 classifier aangeroepen op de IRIS dataset.
# 2) Ontdekkingsreiziger
De WEKA Explorer-vensters tonen verschillende tabbladen die beginnen met preprocess. In eerste instantie is het tabblad preprocess actief, omdat eerst de dataset wordt voorbewerkt voordat er algoritmen op worden toegepast en de dataset wordt verkend.
De tabbladen zijn als volgt:
- Voorbewerking: Kies en wijzig de geladen gegevens.
- Classificeren: Pas training- en testalgoritmen toe op de gegevens die de gegevens classificeren en regresseren.
- TROS: Vorm clusters van de gegevens.
- Associëren: Verzamel de associatieregel voor de gegevens.
- Selecteer attributen: Attribuutselectiematen worden toegepast.
- Visualiseren: 2D-weergave van gegevens wordt gezien.
- Statusbalk: Het onderste gedeelte van het venster toont de statusbalk. Dit gedeelte laat zien wat er momenteel gebeurt in de vorm van een bericht, zoals een bestand dat wordt geladen. Klik hier met de rechtermuisknop op, Geheugen informatie kan worden gezien, en ook Rennen vuilnis verzamelaar om ruimte vrij te maken kan worden uitgevoerd.
- Log-knop: Het slaat een logboek op van alle acties in Weka met het tijdstempel. Logboeken worden in een apart venster getoond wanneer op de Log-knop wordt geklikt.
- WEKA Bird Icon: Aanwezig in de rechterbenedenhoek toont WEKA-vogel met het aantal processen dat gelijktijdig wordt uitgevoerd (door x.). Als het proces aan de gang is, zal de vogel zich verplaatsen.
# 3) Experimentator
Met de WEKA-experimenteerknop kunnen gebruikers verschillende schema's maken, uitvoeren en wijzigen in één experiment op een dataset. De onderzoeker heeft 2 soorten configuraties: Eenvoudig en geavanceerd. Met beide configuraties kunnen gebruikers experimenten lokaal en op externe computers uitvoeren.
- De 'Openen' en 'Nieuw' -knop openen een nieuw experimentvenster dat gebruikers kunnen doen.
- Resultaten: Stel het resultaatbestemmingsbestand in vanuit ARFF-, JDFC- en CSV-bestand.
- Experimenttype: De gebruiker kan kiezen tussen kruisvalidatie en het splitsen van het percentage train / test. De gebruiker kan kiezen tussen classificatie en regressie op basis van de gebruikte dataset en classificator.
- Datasets: De gebruiker kan vanaf hier door datasets bladeren en deze selecteren. Het relatieve pad-selectievakje wordt aangeklikt als u op verschillende machines werkt. Het formaat van de ondersteunde datasets is ARFF, C4.5, CSV, libsvm, bsi en XRFF.
- Iteratie: Het standaard iteratiegetal is ingesteld op 10. Eerst datasets en algoritmen helpen eerst bij het schakelen tussen dataset en algoritmen zodat algoritmen op alle datasets kunnen worden uitgevoerd.
- Algoritmen: Nieuwe algoritmen worden toegevoegd door 'New Button'. De gebruiker kan een classificatie kiezen.
- Sla het experiment op met de knop Opslaan.
- Voer het experiment uit met de knop Uitvoeren.
# 4) Kennisstroom
Kennisstroom toont een grafische weergave van WEKA-algoritmen. De gebruiker kan de componenten selecteren en een workflow maken om de datasets te analyseren. De gegevens kunnen batchgewijs of incrementeel worden verwerkt. Er kunnen parallelle workflows worden ontworpen en elk wordt in een aparte thread uitgevoerd.
De verschillende beschikbare componenten zijn Datasources, Datasavers, Filters, Classifiers, Clusters, Evaluatie en Visualisatie.
# 5) Werkbank
WEKA heeft een werkbankmodule die alle GUI's in één venster bevat.
Kenmerken van WEKA Explorer
# 1) Dataset
Een dataset is gemaakt van items. Het vertegenwoordigt een object bijvoorbeeld: in de marketingdatabase vertegenwoordigt het klanten en producten. De datasets worden beschreven door attributen. De dataset bevat datatupels in een database. Een dataset heeft attributen die nominaal, numeriek of string kunnen zijn. In Weka wordt de dataset vertegenwoordigd door weka.core. omstandigheden klasse.
Weergave van dataset met 5 voorbeelden:
@gegevens
zonnig, ONWAAR, 85,85, nee
zonnig, WAAR, 80,90, nee
bewolkt, ONWAAR, 83,86, ja
regenachtig, FALSE, 70,96, ja
regenachtig, FALSE, 68,80, ja
Wat is een kenmerk?
Een attribuut is een gegevensveld dat het kenmerk van een gegevensobject vertegenwoordigt. Bijvoorbeeld, in een klantendatabase zijn de attributen customer_id, customer_email, customer_address, etc. Attributen hebben verschillende typen.
Deze mogelijke typen zijn:
A) Nominale attributen: Attribuut dat betrekking heeft op een naam en vooraf gedefinieerde waarden heeft zoals kleur, weer. Deze attributen worden genoemd categorische attributen Deze attributen hebben geen enkele volgorde en hun waarden worden ook wel opsommingen genoemd.
@attribute outlook {zonnig, bewolkt, regenachtig}: verklaring van het nominale attribuut.
B) Binaire attributen: Deze attributen vertegenwoordigen alleen waarden 0 en 1. Dit zijn het type nominale attributen met slechts 2 categorieën. Deze attributen worden ook wel Boolean genoemd.
C) Rangtelkenmerken: De attributen die een bepaalde volgorde of rangorde behouden, zijn ordinale attributen. Opeenvolgende waarden kunnen niet worden voorspeld, maar alleen de volgorde wordt gehandhaafd. Voorbeeld: maat, kwaliteit, etc.
D) Numerieke attributen: Attributen die meetbare hoeveelheden vertegenwoordigen, zijn numerieke attributen. Deze worden weergegeven door reële getallen of gehele getallen. Voorbeeld: temperatuur, vochtigheid.
@attribuut vochtigheid echt: declaratie van een numeriek kenmerk
E) String-attributen: Deze attributen vertegenwoordigen een lijst met tekens die tussen dubbele aanhalingstekens worden weergegeven.
# 2) ARFF-gegevensformaat
WEKA werkt aan het ARFF-bestand voor data-analyse. ARFF staat voor Attribute Relation File Format. Het heeft 3 secties: relatie, attributen en gegevens. Elke sectie begint met '@'.
ARFF-bestanden hebben nominale, numerieke, tekenreeks-, datum- en relationele gegevensattributen. Enkele van de bekende machine learning-datasets zijn in WEKA aanwezig als ARFF.
Formaat voor ARFF is:
@relatie
@attribuut
@gegevens
Een voorbeeld van een ARFF-bestand is:
# 3) XRFF-gegevensformaat
XRFF staat voor het XML-attribuut Relation File Format. Het vertegenwoordigt gegevens die opmerkingen, attributen en instantiegewichten kunnen opslaan. Het heeft de extensie .xrff en de bestandsextensie .xrff.gz (gecomprimeerd formaat). De XRFF-bestanden vertegenwoordigden gegevens in XML-indeling.
# 4) Database-connectiviteit
Met WEKA is het eenvoudig om verbinding te maken met een database met behulp van een JDBC-stuurprogramma. JDBC-stuurprogramma is nodig om verbinding te maken met de database, voorbeeld:
MS SQL Server (com.microsoft.jdbc.sqlserver.SQLServerDriver)
Orakel (oracle.jdbc.driver.OracleDriver)
# 5) Classificatoren
Om de outputgegevens te voorspellen, bevat WEKA classificatoren. De classificatie-algoritmen die beschikbaar zijn om te leren zijn beslissingsbomen, ondersteunende vectormachines, op instanties gebaseerde classificaties en logistieke regressie, en Bayesiaanse netwerken. Afhankelijk van de behoefte kan de gebruiker met behulp van trial en test een geschikt algoritme vinden voor de analyse van gegevens. Classifiers worden gebruikt om de datasets te classificeren op basis van de kenmerken van de attributen.
# 6) Clustering
WEKA gebruikt het tabblad Cluster om de overeenkomsten in de dataset te voorspellen. Op basis van clustering kan de gebruiker de attributen achterhalen die nuttig zijn voor analyse en andere attributen negeren. De beschikbare algoritmen voor clustering in WEKA zijn k-mean, EM, Cobweb, X-mean, en FarhtestFirst.
# 7) Vereniging
Het enige algoritme dat in WEKA beschikbaar is om associatieregels te achterhalen, is Apriori.
# 8) Maatregelen voor kenmerksectie
WEKA gebruikt 2 benaderingen voor de beste attribuutselectie voor berekeningsdoeleinden:
- Met behulp van het zoekmethode-algoritme: Best-first, voorwaartse selectie, willekeurig, volledig, genetisch algoritme en rangschikkingsalgoritme.
- Algoritmen van de evaluatiemethode gebruiken: Op correlatie gebaseerd, wrapper, informatiewinst, chikwadraat.
# 9) Visualisatie
WEKA ondersteunt de 2D-weergave van gegevens, 3D-visualisaties met rotatie en 1D-weergave van een enkel attribuut. Het heeft de 'Jitter' -optie voor nominale attributen en 'verborgen' datapunten.
Andere belangrijke kenmerken van WEKA zijn:
- Het is een open-source tool met grafische gebruikersinterface in de vorm van 'Explorer', 'Experimenter' en 'Knowledge Flow'.
- Het is platformonafhankelijk.
- Het bevat 49 tools voor het voorbewerken van gegevens.
- 76 classificatie- en regressie-algoritmen, 8 clusteralgoritmen zijn aanwezig in WEKA
- Het heeft 15 algoritmen voor kenmerkselectie en 10 algoritmen voor kenmerkselectie.
- Het heeft 3 algoritmen voor het vinden van een associatieregel.
- Met behulp van WEKA kunnen gebruikers aangepaste code ontwikkelen voor machine learning.
Gevolgtrekking
In deze WEKA-tutorial hebben we een inleiding gegeven tot de open-source WEKA Machine Learning-software en stap voor stap uitgelegd hoe het download- en installatieproces plaatsvindt. We hebben ook de vijf opties gezien die beschikbaar zijn voor de grafische gebruikersinterface van Weka, namelijk Explorer, Experimenter, Knowledge flow, Workbench en Simple CLI.
We hebben ook geleerd over de kenmerken van WEKA met voorbeelden. De functies omvatten Dataset, ARFF Data-indeling, databaseconnectiviteit, enz.
Bezoek hier voor de exclusieve Machine Learning-serie
Aanbevolen literatuur
- WEKA-gegevensset, classificatie en J48-algoritme voor beslissingsboom
- WEKA Explorer: visualisatie, clustering, associatieregels mijnbouw
- 11 populairste softwaretools voor machine learning in 2021
- Een complete gids voor kunstmatig neuraal netwerk bij machinaal leren
- Datamining versus machine learning versus kunstmatige intelligentie versus diep leren
- Zelfstudie voor machine learning: inleiding tot ML en de toepassingen ervan
- Top 13 BESTE Machine Learning-bedrijven (bijgewerkte lijst voor 2021)
- Wat is Support Vector Machine (SVM) bij machine learning