Spark Tutorials med Scala

Spark giver udviklere og ingeniører med en Scala API. Spark-tutorials med Scala, der er anført nedenfor, dækker Scala Spark API inden for Spark Core, klyngedannelse, Spark kvm, Streaming, Machine Learning MLLib og mere.

Du kan få adgang til tutorials i den rækkefølge, du vælger.

vejledningerne antager en generel forståelse af Spark og Spark-økosystemet uanset programmeringssprog som Scala. Hvis du er ny til Apache Spark, den anbefalede sti starter fra toppen og gør din vej ned til bunden.

hvis du er ny til både Scala og Spark og vil blive produktiv hurtigt, så tjek min Scala for Spark course.

nye Spark-Tutorials tilføjes her ofte, så sørg for at tjekke tilbage ofte, bogmærke eller tilmelde dig vores underretningsliste, der sender opdateringer hver måned.

Apache Spark Essentials

oversigt

for at blive produktiv og selvsikker med Spark er det vigtigt, at du er fortrolig med Spark-begreberne elastiske distribuerede datasæt (RDD), Dataframmer, datasæt, transformationer, handlinger. I de følgende tutorials er Spark fundaments dækket fra et Scala perspektiv.

Tutorials

hvad er Apache Spark?
Spark Transformation eksempler i Scala
Spark Action eksempler i Scala

Med disse tre grundlæggende begreber og Spark API eksempler ovenfor, du er i en bedre position til at flytte en af de følgende afsnit om klyngedannelse, kvm, Streaming og / eller machine learning (MLlib) organiseret nedenfor.

Gnistklynger

Spark-applikationer kan køre som uafhængige sæt parallelle processer fordelt på adskillige noder på computere. Talrige noder, der samarbejder sammen, er almindeligt kendt som en”klynge”. Afhængigt af din version af Spark koordineres distribuerede processer med en Sparkkontekst eller SparkSession. Sparkkonteksten kan oprette forbindelse til flere typer klyngeadministratorer, herunder Mesos, garn eller Sparks egen interne klyngemanager kaldet “Standalone”. Når Spark er forbundet til cluster manager, erhverver Spark eksekutorer på noder i klyngen.

Tutorials

følgende Spark clustering tutorials vil lære dig om Spark cluster kapaciteter med Scala kildekode eksempler.

Cluster Part 1 Kør Standalone
Cluster Part 2 Implementer et Scala-program til Cluster
Fejlfinding til installation af Spark Cluster
akkumulatorer og Udsendelsesvariabler

For mere information om Gnistklynger, f.eks.

Spark med Scala

Spark er Gnistkomponenten til struktureret databehandling. Sparks grænseflader giver Spark et indblik i både datastrukturen og de processer, der udføres. Der er flere måder at interagere med , herunder , DataFrames API og Datasets API. Udviklere kan vælge mellem de forskellige Spark API tilgange.

Spark-forespørgsler kan skrives ved hjælp af enten en grundlæggende syntaks eller Hivekl. Kan også bruges til at læse data fra eksisterende Hive installationer. Python eller Scala, vil resultaterne blive returneret som en DataFrame. Du kan også interagere med grænsefladen ved hjælp af JDBC/ODBC.

dataframe

en DataFrame er en distribueret samling af data organiseret i navngivne kolonner. Dataframmer kan betragtes som konceptuelt ækvivalente med en tabel i en relationsdatabase, men med rigere optimeringer. DataFrames kan oprettes fra kilder som CSV ‘er, JSON, tabeller i Hive, eksterne databaser eller eksisterende RDD’ er.

datasæt

et datasæt er en ny eksperimentel grænseflade Tilføjet i Spark 1.6. Datasæt forsøger at give fordelene ved RDDs med fordelene ved Sparks optimerede eksekveringsmotor.

Spark med Scala-Tutorials

Spark med CSV og Scala
Spark med JSON og Scala
Spark med JSON og Scala

Spark med JSON og Scala Spark med Scala ved hjælp af Scala

læsere kan også være interesserede i at forfølge tutorials som Spark med Cassandra-tutorials, der findes i Integrationsafsnittet nedenfor. Spark med Cassandra dækker også aspekter af Spark.

Spark Streaming med Scala

Spark Streaming er Gnistmodulet, der muliggør streambehandling af live datastrømme. Data kan indtages fra mange kilder som Kinesis, Kafka, kvidre, eller TCP stikkontakter, herunder stikkontakter. Strømdataene kan behandles med funktioner på højt niveau som `kort`, `Deltag` eller `reducer`. Derefter kan behandlede data skubbes ud af rørledningen til filsystemer, databaser og dashboards.Sparks mllib-algoritmer kan bruges på datastrømme som vist i tutorials nedenfor.Spark Streaming modtager Live input datastrømme ved at dividere dataene i konfigurerbare batches.Spark Streaming giver en abstraktion på højt niveau kaldet diskretiseret strøm eller” DStream ” for kort. DStreams kan oprettes enten fra input datastrømme eller ved at anvende operationer på andre DStreams. Internt er en DStream repræsenteret som en sekvens af RDDs.

Spark Streaming med Scala Tutorials

Spark Streaming oversigt
Spark Streaming eksempel Streaming fra Slack
Spark Streaming med Kafka Tutorial
Spark struktureret Streaming med Kafka inklusive JSON, CSV, Avro og Confluent Schema Registry
Spark Streaming med Kinesis eksempel
Spark Streaming Test

Spark Machine Learning

Mllib er Sparks Machine Learning (ML) bibliotekskomponent. MLlib-målet er at gøre maskinindlæring lettere og mere tilgængelig. Den består af populære læringsalgoritmer og værktøjer som klassificering, regression, klyngedannelse, samarbejdsfiltrering, dimensionalitetsreduktion.Sparks MLlib er opdelt i to pakker:

spark.mllib som indeholder den oprindelige API bygget over RDDs
spark.ml bygget over Dataframmer, der bruges til konstruktion af ML-rørledninger

spark.ml er den anbefalede tilgang, fordi DataFrame API er mere alsidig og fleksibel.

Spark Mllib med Scala Tutorials

Spark MLlib med Streaming Data fra Scala Tutorial

Spark Performance Monitoring and Debugging

Spark Performance Monitoring med Metrics, grafit og Grafana
Spark performance Monitoring Tools – en liste over muligheder
Spark Tutorial – Performance Monitoring med History Server
Scala Spark Debugging in IntelliJ

spark med Scala integration tutorials

følgende Scala Spark tutorials bygge videre på de tidligere dækkede emner i mere specifikke use cases

Spark Deploy til en EC2 Cluster Tutorial
Spark Cassandra fra Scala Tutorial
Spark Scala i IntelliJ
Apache Spark Thrift Server med Cassandra Tutorial
Apache Spark Thrift Server Load Testing eksempel

Spark Operations

følgende Scala Spark tutorials er relateret til operationelle koncepter

Spark Indsend kommandolinjeargumenter i Scala
spark fair Scheduler eksempel

Udvalgt billede tilpasset fra https://flic.kr/p/7zAZx7

del! Del! Del! Chant det med mig nu

Adam Faliq

Spark Tutorials med Scala