Heute ist es endlich soweit! Wir richten unseren Hackathon auf der TDWI2019 in München aus. Unter dem Motto „Self-made Big Data Analytics“ bauen wir gemeinsam mit unseren Teilnehmern ein Big Data Cluster aus Raspberry Pis und Apache Hadoop. Wir zeigen, dass Big Data viel greifbarer ist als vielleicht zunächst gedacht und schon mit einem kleinen Investment erste Big Data Analytics-Versuche gestartet werden können.

Erfahren Sie mehr in unserem NEWSTICKER – Live von der TDWI:

8:50 Uhr: Alles ist vorbereitet für unseren großen live Hackathon und wir warten gespannt auf die ersten Teilnehmer für den technischen Part.

09:27 Uhr: Wie damals im Lego-Paradies: Einmal selbst Hand anlegen und mit Raspberry Pis basteln. Aus diesen vielen Einzelteilen soll ein Big Data Cluster werden?

10:39 Uhr: Es ist geschafft. Das erste Big Data Cluster ist fertig. Das “Gerüst” steht oder liegt. Hauptsache es läuft! Wahnsinn, wie viele spannende Leute hier gemeinsam daran arbeiten.

11:13 Uhr: Als nächstes wird JAVA installiert. Hier hakt es ein bisschen. Ob das etwas mit dem neuen Raspberry Pi 4 zu tun hat, welches kürzlich rauskam? Wer weiß! Es wird fleißig weiter probiert.

12:01 Uhr: Mittagspause. Heute gibt’s Kabelsalat. Um 14:45 treffen wir uns wieder zum analytischen Part. Dann geht’s rund mit Spark und Jupyter Notes. Bis gleich.

14:45 Uhr: Willkommen zurück! Die ersten Data Lakes werden vorbereitet. Jetzt ist es Zeit die Daten hochzuladen. Im See schwimmen heute Geschäftsberichte und Börsendaten der DAX30 Unternehmen.

15:21 Uhr: Damit in Windows 10 ohne Administrationsrechten gearbeitet werden kann, gibt’s PuTTY portable. So können alle Teilnehmer per Kommando-Shell auf die Raspberry Pis zugreifen.

15:52 Uhr: Schonmal das Filesystem von Hadoop gesehen? Die Teilnehmer machen sich vertraut mit der Oberfläche.

15:53 Uhr: Die erste Gruppe finalisiert bereits die Installation von Jupyter Notes. Wow!

16:02 Uhr Ooops – Fehlermeldung! Bei einer Gruppe hakt es noch ein bisschen. Beim Starten des HDFS Dateisystems konnte der Named Node Raspberry Pi die Data Nodes Raspberry Pis nicht finden. Der Named Node ist der „Master Pi“ und verteilt die Aufgaben an die Data Nodes – sozusagen an die ausführenden, arbeitenden Raspberry Pis.

Das Probleme: bei den Hostnamen für die einzelnen Raspberry Pis wurde ein „_“ verwendet. Merke, bei der Benennung der Pis besser keine „_“ verwenden. Das kostet Zeit. 😉

16:31 Uhr Nach Anpassungen der Hostnamen und der dementsprechenden Konfigurationsdateien läuft wieder alles rund. Jetzt gilt es aufzuholen und die Installation von Jupyter Notes bei allen Gruppen zu finalisieren.

16:46 Uhr Mit Jupyter Notes können nun die ersten Versuche bei der Big Data Analyse gestartet werden. Die ersten Daten werden über die zur Verfügung gestellten Skripte eingelesen und analysiert.

17:23 Uhr Jetzt gehen wir in die erste Analyse. Für den Start haben wir uns etwas Einfaches ausgesucht – den Wordcount der ausgewählten Geschäftsberichte. Um die Geschäftsberichte weiter analysieren zu können, eliminieren wir sogenannte Stopwords – Wörter, die immer wieder vorkommen, jedoch für die Analyse keine Bedeutung haben. Interessant ist, dass viele sehr positive Wörter verwendet werden.

17:34 Uhr Endspurt! Um alle Gruppen auf den gleichen Stand zu bringen und noch ein bisschen rumexperimentieren zu können, arbeiten wir nun in einer Großgruppe. Gemeinsam führen wir das Skript Jupyter Notes Word2Vec über verschiedene Geschäftsberichte aus. Uns ist wichtig zu zeigen, was alles möglich ist.

17:58 Uhr Puh! Geschafft. Das war viel Input. Ein voller Erfolg!

Simple Share Buttons
Simple Share Buttons