- Spark Tutorials med Scala
- Apache Spark Essentials
- oversigt
- Tutorials
- Gnistklynger
- Tutorials
- Spark med Scala
- dataframe
- datasæt
- Spark med Scala-Tutorials
- Spark Streaming med Scala
- Spark Streaming med Scala Tutorials
- Spark Machine Learning
- Spark Mllib med Scala Tutorials
- Spark Performance Monitoring and Debugging
- spark med Scala integration tutorials
- Spark Operations
Spark Tutorials med Scala
Spark giver udviklere og ingeniører med en Scala API. Spark-tutorials med Scala, der er anført nedenfor, dækker Scala Spark API inden for Spark Core, klyngedannelse, Spark kvm, Streaming, Machine Learning MLLib og mere.
Du kan få adgang til tutorials i den rækkefølge, du vælger.
vejledningerne antager en generel forståelse af Spark og Spark-økosystemet uanset programmeringssprog som Scala. Hvis du er ny til Apache Spark, den anbefalede sti starter fra toppen og gør din vej ned til bunden.
hvis du er ny til både Scala og Spark og vil blive produktiv hurtigt, så tjek min Scala for Spark course.
nye Spark-Tutorials tilføjes her ofte, så sørg for at tjekke tilbage ofte, bogmærke eller tilmelde dig vores underretningsliste, der sender opdateringer hver måned.
Apache Spark Essentials
oversigt
for at blive produktiv og selvsikker med Spark er det vigtigt, at du er fortrolig med Spark-begreberne elastiske distribuerede datasæt (RDD), Dataframmer, datasæt, transformationer, handlinger. I de følgende tutorials er Spark fundaments dækket fra et Scala perspektiv.
Tutorials
- hvad er Apache Spark?
- Spark Transformation eksempler i Scala
- Spark Action eksempler i Scala
Med disse tre grundlæggende begreber og Spark API eksempler ovenfor, du er i en bedre position til at flytte en af de følgende afsnit om klyngedannelse, kvm, Streaming og / eller machine learning (MLlib) organiseret nedenfor.
Gnistklynger
Spark-applikationer kan køre som uafhængige sæt parallelle processer fordelt på adskillige noder på computere. Talrige noder, der samarbejder sammen, er almindeligt kendt som en”klynge”. Afhængigt af din version af Spark koordineres distribuerede processer med en Sparkkontekst eller SparkSession. Sparkkonteksten kan oprette forbindelse til flere typer klyngeadministratorer, herunder Mesos, garn eller Sparks egen interne klyngemanager kaldet “Standalone”. Når Spark er forbundet til cluster manager, erhverver Spark eksekutorer på noder i klyngen.
Tutorials
følgende Spark clustering tutorials vil lære dig om Spark cluster kapaciteter med Scala kildekode eksempler.
- Cluster Part 1 Kør Standalone
- Cluster Part 2 Implementer et Scala-program til Cluster
- Fejlfinding til installation af Spark Cluster
- akkumulatorer og Udsendelsesvariabler
For mere information om Gnistklynger, f.eks.
Spark med Scala
Spark er Gnistkomponenten til struktureret databehandling. Sparks grænseflader giver Spark et indblik i både datastrukturen og de processer, der udføres. Der er flere måder at interagere med
Spark-forespørgsler kan skrives ved hjælp af enten en grundlæggende syntaks eller Hivekl. Kan også bruges til at læse data fra eksisterende Hive installationer. Python eller Scala, vil resultaterne blive returneret som en DataFrame. Du kan også interagere med grænsefladen ved hjælp af JDBC/ODBC.
dataframe
en DataFrame er en distribueret samling af data organiseret i navngivne kolonner. Dataframmer kan betragtes som konceptuelt ækvivalente med en tabel i en relationsdatabase, men med rigere optimeringer. DataFrames kan oprettes fra kilder som CSV ‘er, JSON, tabeller i Hive, eksterne databaser eller eksisterende RDD’ er.
datasæt
et datasæt er en ny eksperimentel grænseflade Tilføjet i Spark 1.6. Datasæt forsøger at give fordelene ved RDDs med fordelene ved Sparks optimerede eksekveringsmotor.
Spark med Scala-Tutorials
- Spark med CSV og Scala
- Spark med JSON og Scala
- Spark med JSON og Scala
Spark med JSON og Scala Spark med Scala ved hjælp af Scala
læsere kan også være interesserede i at forfølge tutorials som Spark med Cassandra-tutorials, der findes i Integrationsafsnittet nedenfor. Spark med Cassandra dækker også aspekter af Spark.
Spark Streaming med Scala
Spark Streaming er Gnistmodulet, der muliggør streambehandling af live datastrømme. Data kan indtages fra mange kilder som Kinesis, Kafka, kvidre, eller TCP stikkontakter, herunder stikkontakter. Strømdataene kan behandles med funktioner på højt niveau som `kort`, `Deltag` eller `reducer`. Derefter kan behandlede data skubbes ud af rørledningen til filsystemer, databaser og dashboards.Sparks mllib-algoritmer kan bruges på datastrømme som vist i tutorials nedenfor.Spark Streaming modtager Live input datastrømme ved at dividere dataene i konfigurerbare batches.Spark Streaming giver en abstraktion på højt niveau kaldet diskretiseret strøm eller” DStream ” for kort. DStreams kan oprettes enten fra input datastrømme eller ved at anvende operationer på andre DStreams. Internt er en DStream repræsenteret som en sekvens af RDDs.
Spark Streaming med Scala Tutorials
- Spark Streaming oversigt
- Spark Streaming eksempel Streaming fra Slack
- Spark Streaming med Kafka Tutorial
- Spark struktureret Streaming med Kafka inklusive JSON, CSV, Avro og Confluent Schema Registry
- Spark Streaming med Kinesis eksempel
- Spark Streaming Test
Spark Machine Learning
Mllib er Sparks Machine Learning (ML) bibliotekskomponent. MLlib-målet er at gøre maskinindlæring lettere og mere tilgængelig. Den består af populære læringsalgoritmer og værktøjer som klassificering, regression, klyngedannelse, samarbejdsfiltrering, dimensionalitetsreduktion.Sparks MLlib er opdelt i to pakker:
- spark.mllib som indeholder den oprindelige API bygget over RDDs
- spark.ml bygget over Dataframmer, der bruges til konstruktion af ML-rørledninger
spark.ml er den anbefalede tilgang, fordi DataFrame API er mere alsidig og fleksibel.
Spark Mllib med Scala Tutorials
- Spark MLlib med Streaming Data fra Scala Tutorial
Spark Performance Monitoring and Debugging
- Spark Performance Monitoring med Metrics, grafit og Grafana
- Spark performance Monitoring Tools – en liste over muligheder
- Spark Tutorial – Performance Monitoring med History Server
- Scala Spark Debugging in IntelliJ
spark med Scala integration tutorials
følgende Scala Spark tutorials bygge videre på de tidligere dækkede emner i mere specifikke use cases
- S3 Tutorial
- Spark Deploy til en EC2 Cluster Tutorial
- Spark Cassandra fra Scala Tutorial
- Spark Scala i IntelliJ
- Apache Spark Thrift Server med Cassandra Tutorial
- Apache Spark Thrift Server Load Testing eksempel
Spark Operations
følgende Scala Spark tutorials er relateret til operationelle koncepter
- Spark Indsend kommandolinjeargumenter i Scala
- spark fair Scheduler eksempel
Udvalgt billede tilpasset fra https://flic.kr/p/7zAZx7
del! Del! Del! Chant det med mig nu