- Spark Tutorials with Scala
- Apache Spark Essentials
- overzicht
- Tutorials
- Vonkclusters
- Tutorials
- Spark SQL met Scala
- SQL
- DataFrames
- Datasets
- Spark SQL met Scala Tutorials
- Spark Streaming met Scala
- Spark Streaming met Scala Tutorials
- Spark Machine Learning
- Spark MLlib with Scala Tutorials
- Spark Performance Monitoring and Debugging
- Spark met Scala integratie tutorials
- Spark Operations
Spark Tutorials with Scala
Spark biedt ontwikkelaars en ingenieurs een Scala API. De Spark tutorials met Scala hieronder behandeld de Scala Spark API binnen Spark Core, Clustering, Spark SQL, Streaming, Machine Learning MLLib en meer.
u hebt toegang tot de tutorials in elke volgorde die u kiest.
de tutorials gaan uit van een algemeen begrip van Spark en het Spark ecosysteem, ongeacht de programmeertaal zoals Scala. Als je nieuw bent bij Apache Spark, is het aanbevolen pad begint vanaf de top en het maken van uw weg naar beneden naar de bodem.
Als u nieuw bent in zowel Scala als Spark en snel productief wilt worden, bekijk dan mijn Scala voor Spark cursus.
nieuwe Spark Tutorials worden hier vaak toegevoegd, dus zorg ervoor dat u vaak terug te controleren, bladwijzer of Meld u aan voor onze notificatielijst die elke maand updates stuurt.
Apache Spark Essentials
overzicht
om productief en zelfverzekerd te worden met Spark, is het essentieel dat u vertrouwd bent met de Spark concepten van veerkrachtige gedistribueerde Datasets (RDD), DataFrames, datasets, transformaties, acties. In de volgende tutorials worden de vonk fundamenten vanuit een Scala perspectief behandeld.
Tutorials
- Wat is Apache Spark?
- Spark transformatie voorbeelden in Scala
- Spark actie voorbeelden in Scala
Met deze drie fundamentele concepten en Spark API voorbeelden hierboven, bent u in een betere positie om een van de volgende secties over clustering, SQL, Streaming en/of machine learning (MLlib) hieronder georganiseerd te verplaatsen.
Vonkclusters
Vonktoepassingen kunnen worden uitgevoerd als onafhankelijke reeksen parallelle processen die over talrijke knooppunten van computers worden verspreid. Talrijke knooppunten samenwerken is algemeen bekend als een”cluster”. Afhankelijk van uw versie van Spark worden gedistribueerde processen gecoördineerd door een SparkContext of SparkSession. De SparkContext kan verbinding maken met verschillende soorten clustermanagers, waaronder Mesos, garen of Spark ‘ s eigen interne Clustermanager genaamd “Standalone”. Zodra Spark verbonden is met Clusterbeheer, verwerft Spark uitvoerders op knooppunten binnen het cluster.
Tutorials
de volgende Spark clustering tutorials zullen u leren over Spark cluster mogelijkheden met Scala broncode voorbeelden.
- Cluster deel 1 Run Standalone
- Cluster deel 2 implementeer een Scala-programma op het Cluster
- Spark Cluster implementeer probleemoplossing
- Accumulators en Broadcast variabelen
voor meer informatie over Spark Clusters, zoals het uitvoeren en implementeren op Amazon ‘ s EC2, controleer dan de sectie integraties onderaan deze pagina.
Spark SQL met Scala
Spark SQL is de Spark-component voor gestructureerde gegevensverwerking. Spark SQL interfaces geven Spark inzicht in zowel de structuur van de gegevens als de processen die worden uitgevoerd. Er zijn meerdere manieren om te communiceren met Spark SQL, waaronder SQL, de dataframes API, en de datasets API. Ontwikkelaars kunnen kiezen tussen de verschillende Spark API benaderingen.
SQL
Spark SQL queries kunnen geschreven worden met behulp van een basis SQL syntaxis of HiveQL. Spark SQL kan ook worden gebruikt om gegevens van bestaande Hive-installaties te lezen. Bij het uitvoeren van SQL vanuit een programmeertaal zoals Python of Scala, zullen de resultaten worden geretourneerd als een DataFrame. U kunt ook communiceren met de SQL-interface met behulp van JDBC / ODBC.
DataFrames
een DataFrame is een gedistribueerde verzameling van gegevens georganiseerd in benoemde kolommen. DataFrames kunnen conceptueel worden beschouwd als gelijkwaardig aan een tabel in een relationele database, maar met rijkere optimalisaties. DataFrames kunnen worden gemaakt van bronnen zoals CSV ‘ s, JSON, tabellen in Hive, externe databases of bestaande RDDs.
Datasets
een Dataset is een nieuwe experimentele interface toegevoegd in Spark 1.6. Datasets proberen de voordelen van RDDs te bieden met de voordelen van de geoptimaliseerde execution engine van Spark SQL.
Spark SQL met Scala Tutorials
- Spark SQL met CSV en Scala
- Spark SQL met JSON en Scala
- Spark SQL mySQL JDBC met Scala
lezers kunnen ook geïnteresseerd zijn in het nastreven van tutorials zoals Spark met Cassandra tutorials in de integratie sectie hieronder. Spark met Cassandra behandelt aspecten van Spark SQL ook.
Spark Streaming met Scala
Spark Streaming is de Spark module die stream processing van live data streams mogelijk maakt. Gegevens kunnen worden opgenomen uit vele bronnen zoals Kinesis, Kafka, Twitter, of TCP sockets met inbegrip van WebSockets. De streamgegevens kunnen worden verwerkt met functies op hoog niveau zoals `map`, `join` of `reduce`. Vervolgens kunnen verwerkte gegevens uit de pijplijn worden gepusht naar bestandssystemen, databases en dashboards.
Spark ‘ s MLLib algoritmen kunnen worden gebruikt op datastromen zoals weergegeven in onderstaande tutorials.
Spark Streaming ontvangt live input data streams door de gegevens te verdelen in configureerbare batches.
Spark Streaming biedt een abstractie op hoog niveau genaamd discretized stream of kortweg “DStream”. DStreams kunnen worden gemaakt van input data streams of door bewerkingen op andere DStreams toe te passen. Intern wordt een DStream weergegeven als een opeenvolging van RDDs.
Spark Streaming met Scala Tutorials
- Spark Streaming Overzicht
- Spark Streaming Bijvoorbeeld het Streamen van Slack
- Spark Streaming met Kafka Tutorial
- Spark Gestructureerde Streaming met Kafka inclusief JSON, CSV, Avro, en Samenvloeiende Schema Register
- Spark Streaming met Kinesis Voorbeeld
- Spark Streaming Testen
Spark Machine Learning
MLlib is Vonk ‘ s machine learning (ML) bibliotheek component. Het MLlib-doel is om machine learning gemakkelijker en breder beschikbaar te maken. Het bestaat uit populaire leeralgoritmen en hulpprogramma ‘ s zoals classificatie, regressie, clustering, collaboratieve filtering, dimensionaliteitsreductie.
Spark ‘ s MLlib is verdeeld in twee pakketten:
- spark.mllib bevat de originele API gebouwd over RDDs
- spark.ml gebouwd over DataFrames die worden gebruikt voor de bouw van ML-pijpleidingen
spark.ml is de aanbevolen aanpak omdat de dataframe API is veelzijdiger en flexibeler.
Spark MLlib with Scala Tutorials
- Spark MLlib with Streaming Data from Scala Tutorial
Spark Performance Monitoring and Debugging
- Spark Performance Monitoring with Metrics, Graphite and Grafana
- Spark Performance Monitoring Tools – a List of Options
- Spark Tutorial – Performance Monitoring with History Server
- scala Spark debugging in IntelliJ
Spark met Scala integratie tutorials
De volgende scala Spark tutorials bouwen voort op de eerder behandelde onderwerpen in meer specifieke use cases
- Spark Amazon S3 Tutorial
- Spark Deploy to an EC2 Cluster Tutorial
- Spark Cassandra from Scala Tutorial
- Spark Scala in IntelliJ
- Apache Spark Thrift server with Cassandra Tutorial
- Apache Spark Thrift Server Load Testing Example
Spark Operations
de volgende scala Spark tutorials zijn gerelateerd aan operationele concepten
- Spark submit command line argumenten in Scala
- Spark Fair Scheduler voorbeeld
aanbevolen afbeelding aangepast van https://flic.kr/p/7zAZx7
delen! Delen! Delen! Chant het nu met mij