Apache Spark
Einheitliche Analyse-Engine für Big Data
1
Was ist Apache Spark?
Die Grundeigenschaft von Apache Spark kommt uns bereits sehr entgegen, da Spark nicht für einen konkreten Zweck, sondern allgemein gültig für schnelle Datenverarbeitung entwickelt wurde.
Spark bietet einheitliche Analyse-Engine für Big Data. Das heißt Daten müssen weder in einem bestimmten Format vorliegen, noch müssen diese gezwungenermaßen in einer bestimmten Art und Weise verarbeitet werden. Der Kern von Spark liefert bereits gängige Möglichkeiten Daten einzulesen und diese zu transformieren, auszuwerten und auch zu analysieren.
2
Welche Vorteile bietet mir Apache Spark?
- SQL und DataFrames erlauben relationale Abfragen auf Daten, die ursprünglich komplett unstrukturiert (Text) oder semi-strukturiert sind (z.B. Log- und Sensordaten, Tweets).
- High-Level-APIs in Java, Scala, Python und R sowie eine optimierte Engine, die allgemeine Ausführungsdiagramme unterstützt.
- Spark Streaming ist für einen kontinuierlichen Datenstrom einsetzbar, um Anwendungsgebiete wie Fraud Detection oder um Streams mit historischen Daten zu verknüpfen.
- MLlib ist die Spark-eigene Library für Machine Learning Aufgaben. Dies beinhaltet Algorithmen für Themen wie Klassifikation, Clustering, lineare Regression oder Recommendations.
- GraphX dient der Verarbeitung von Graphen. Analysen von sozialen Netzwerken, PageRank-Berechnungen oder Ähnliches werden dadurch ermöglicht.
Apache Spark in Kürze:
-
SQL und DataFrames
-
High-Level-APIs
-
Spark Streaming
-
MLlib
-
GraphX
3
Nutzen Sie das volle Potenzial von Apache Spark
Dadurch, dass Spark in-memory Verarbeitungen ermöglicht, kommt noch ein gewichtiger Geschwindigkeitsfaktor hinzu, der in vielen vergleichbaren Szenarien eine deutlich gesteigerte Performance zum Ergebnis hat. Zudem ist es Cluster-fähig und kann somit für Big Data eingesetzt werden. Spark kann mit anderen Tools und Werkzeugen zusammenarbeiten, mit denen wir uns bereits jahrelang beschäftigen: Apache Solr und Elasticsearch.
Sie interessieren sich für Apache Spark?