Spark Tutorials With Scala

Spark biedt ontwikkelaars en ingenieurs een Scala API. De Spark tutorials met Scala hieronder behandeld de Scala Spark API binnen Spark Core, Clustering, Spark SQL, Streaming, Machine Learning MLLib en meer.

u hebt toegang tot de tutorials in elke volgorde die u kiest.

de tutorials gaan uit van een algemeen begrip van Spark en het Spark ecosysteem, ongeacht de programmeertaal zoals Scala. Als je nieuw bent bij Apache Spark, is het aanbevolen pad begint vanaf de top en het maken van uw weg naar beneden naar de bodem.

Als u nieuw bent in zowel Scala als Spark en snel productief wilt worden, bekijk dan mijn Scala voor Spark cursus.

nieuwe Spark Tutorials worden hier vaak toegevoegd, dus zorg ervoor dat u vaak terug te controleren, bladwijzer of Meld u aan voor onze notificatielijst die elke maand updates stuurt.

Apache Spark Essentials

overzicht

om productief en zelfverzekerd te worden met Spark, is het essentieel dat u vertrouwd bent met de Spark concepten van veerkrachtige gedistribueerde Datasets (RDD), DataFrames, datasets, transformaties, acties. In de volgende tutorials worden de vonk fundamenten vanuit een Scala perspectief behandeld.

Tutorials

Wat is Apache Spark?
Spark transformatie voorbeelden in Scala
Spark actie voorbeelden in Scala

Met deze drie fundamentele concepten en Spark API voorbeelden hierboven, bent u in een betere positie om een van de volgende secties over clustering, SQL, Streaming en/of machine learning (MLlib) hieronder georganiseerd te verplaatsen.

Vonkclusters

Vonktoepassingen kunnen worden uitgevoerd als onafhankelijke reeksen parallelle processen die over talrijke knooppunten van computers worden verspreid. Talrijke knooppunten samenwerken is algemeen bekend als een”cluster”. Afhankelijk van uw versie van Spark worden gedistribueerde processen gecoördineerd door een SparkContext of SparkSession. De SparkContext kan verbinding maken met verschillende soorten clustermanagers, waaronder Mesos, garen of Spark ‘ s eigen interne Clustermanager genaamd “Standalone”. Zodra Spark verbonden is met Clusterbeheer, verwerft Spark uitvoerders op knooppunten binnen het cluster.

Tutorials

de volgende Spark clustering tutorials zullen u leren over Spark cluster mogelijkheden met Scala broncode voorbeelden.

Cluster deel 1 Run Standalone
Cluster deel 2 implementeer een Scala-programma op het Cluster
Spark Cluster implementeer probleemoplossing
Accumulators en Broadcast variabelen

voor meer informatie over Spark Clusters, zoals het uitvoeren en implementeren op Amazon ‘ s EC2, controleer dan de sectie integraties onderaan deze pagina.

Spark SQL met Scala

Spark SQL is de Spark-component voor gestructureerde gegevensverwerking. Spark SQL interfaces geven Spark inzicht in zowel de structuur van de gegevens als de processen die worden uitgevoerd. Er zijn meerdere manieren om te communiceren met Spark SQL, waaronder SQL, de dataframes API, en de datasets API. Ontwikkelaars kunnen kiezen tussen de verschillende Spark API benaderingen.

SQL

Spark SQL queries kunnen geschreven worden met behulp van een basis SQL syntaxis of HiveQL. Spark SQL kan ook worden gebruikt om gegevens van bestaande Hive-installaties te lezen. Bij het uitvoeren van SQL vanuit een programmeertaal zoals Python of Scala, zullen de resultaten worden geretourneerd als een DataFrame. U kunt ook communiceren met de SQL-interface met behulp van JDBC / ODBC.

DataFrames

een DataFrame is een gedistribueerde verzameling van gegevens georganiseerd in benoemde kolommen. DataFrames kunnen conceptueel worden beschouwd als gelijkwaardig aan een tabel in een relationele database, maar met rijkere optimalisaties. DataFrames kunnen worden gemaakt van bronnen zoals CSV ‘ s, JSON, tabellen in Hive, externe databases of bestaande RDDs.

Datasets

een Dataset is een nieuwe experimentele interface toegevoegd in Spark 1.6. Datasets proberen de voordelen van RDDs te bieden met de voordelen van de geoptimaliseerde execution engine van Spark SQL.

Spark SQL met Scala Tutorials

Spark SQL met CSV en Scala
Spark SQL met JSON en Scala
Spark SQL mySQL JDBC met Scala

lezers kunnen ook geïnteresseerd zijn in het nastreven van tutorials zoals Spark met Cassandra tutorials in de integratie sectie hieronder. Spark met Cassandra behandelt aspecten van Spark SQL ook.

Spark Streaming met Scala

Spark Streaming is de Spark module die stream processing van live data streams mogelijk maakt. Gegevens kunnen worden opgenomen uit vele bronnen zoals Kinesis, Kafka, Twitter, of TCP sockets met inbegrip van WebSockets. De streamgegevens kunnen worden verwerkt met functies op hoog niveau zoals `map`, `join` of `reduce`. Vervolgens kunnen verwerkte gegevens uit de pijplijn worden gepusht naar bestandssystemen, databases en dashboards.

Spark ‘ s MLLib algoritmen kunnen worden gebruikt op datastromen zoals weergegeven in onderstaande tutorials.

Spark Streaming ontvangt live input data streams door de gegevens te verdelen in configureerbare batches.

Spark Streaming biedt een abstractie op hoog niveau genaamd discretized stream of kortweg “DStream”. DStreams kunnen worden gemaakt van input data streams of door bewerkingen op andere DStreams toe te passen. Intern wordt een DStream weergegeven als een opeenvolging van RDDs.

Spark Streaming met Scala Tutorials

Spark Streaming Overzicht
Spark Streaming Bijvoorbeeld het Streamen van Slack
Spark Streaming met Kafka Tutorial
Spark Gestructureerde Streaming met Kafka inclusief JSON, CSV, Avro, en Samenvloeiende Schema Register
Spark Streaming met Kinesis Voorbeeld
Spark Streaming Testen

Spark Machine Learning

MLlib is Vonk ‘ s machine learning (ML) bibliotheek component. Het MLlib-doel is om machine learning gemakkelijker en breder beschikbaar te maken. Het bestaat uit populaire leeralgoritmen en hulpprogramma ‘ s zoals classificatie, regressie, clustering, collaboratieve filtering, dimensionaliteitsreductie.

Spark ‘ s MLlib is verdeeld in twee pakketten:

spark.mllib bevat de originele API gebouwd over RDDs
spark.ml gebouwd over DataFrames die worden gebruikt voor de bouw van ML-pijpleidingen

spark.ml is de aanbevolen aanpak omdat de dataframe API is veelzijdiger en flexibeler.

Spark MLlib with Scala Tutorials

Spark MLlib with Streaming Data from Scala Tutorial

Spark Performance Monitoring and Debugging

Spark Performance Monitoring with Metrics, Graphite and Grafana
Spark Performance Monitoring Tools – a List of Options
Spark Tutorial – Performance Monitoring with History Server
scala Spark debugging in IntelliJ

Spark met Scala integratie tutorials

De volgende scala Spark tutorials bouwen voort op de eerder behandelde onderwerpen in meer specifieke use cases

Spark Amazon S3 Tutorial
Spark Deploy to an EC2 Cluster Tutorial
Spark Cassandra from Scala Tutorial
Spark Scala in IntelliJ
Apache Spark Thrift server with Cassandra Tutorial
Apache Spark Thrift Server Load Testing Example

Spark Operations

de volgende scala Spark tutorials zijn gerelateerd aan operationele concepten

Spark submit command line argumenten in Scala
Spark Fair Scheduler voorbeeld

aanbevolen afbeelding aangepast van https://flic.kr/p/7zAZx7

delen! Delen! Delen! Chant het nu met mij

Adam Faliq

Spark Tutorials With Scala