Spark Tutorials med Scala

Spark gir utviklere og ingeniører Med En Scala API. Spark tutorials med Scala nedenfor dekker Scala Spark API innen Spark Core, Clustering, Spark SQL, Streaming, Machine Learning MLLib og mer.

du kan få tilgang til tutorials i den rekkefølgen du velger.opplæringene antar en generell forståelse Av Spark og Spark-økosystemet uavhengig av programmeringsspråket Som Scala. Hvis Du er ny På Apache Spark, starter den anbefalte banen fra toppen og gjør veien ned til bunnen.

hvis Du er ny På Både Scala og Spark og ønsker å bli produktiv raskt, sjekk ut Min Scala For Spark kurs.

Nye Spark Tutorials er lagt her ofte, så sørg for å sjekke tilbake ofte, bokmerke eller registrere deg for vår varslingsliste som sender oppdateringer hver måned.

Apache Spark Essentials

Oversikt

For å bli produktiv og trygg med Spark, er det viktig at Du er komfortabel med Spark-konseptene Resilient Distribuerte Datasett (RDD), DataFrames, Datasett, Transformasjoner, Handlinger. I de følgende veiledningene er Spark fundamentene dekket fra Et Scala-perspektiv.

Guider

Hva Er Apache Spark?
Spark Transformation Eksempler I Scala
Spark Action Eksempler I Scala

med disse tre grunnleggende begreper og Spark API eksemplene ovenfor, er du i en bedre posisjon til å flytte en av de følgende avsnittene om clustering, SQL, Streaming og/eller maskinlæring (MLlib) organisert nedenfor.

Gnistklynger

Gnistprogrammer kan kjøre som uavhengige sett med parallelle prosesser fordelt på flere noder av datamaskiner. Tallrike noder som samarbeider sammen er kjent som en «klynge». Avhengig av Din Versjon Av Spark koordineres distribuerte prosesser av En SparkContext eller SparkSession. Den SparkContext kan koble til flere typer cluster ledere inkludert Mesos, YARN eller Spark egen intern cluster manager kalt «Frittstående». Når du er koblet til klyngebehandleren, Kjøper Spark eksekutorer på noder i klyngen.

Tutorials

Følgende Spark clustering tutorials vil lære deg Om Spark cluster evner Med scala kildekode eksempler.

Cluster Part 1 Kjør Frittstående
Cluster Part 2 Distribuer Et Scala-program til Cluster
Spark Cluster Distribuer Feilsøking
Akkumulatorer og Kringkastingsvariabler

for mer informasjon om Spark-Klynger, for eksempel kjøring og distribusjon på Amazons EC2, må Du kontrollere Integrasjoner-delen nederst på denne siden.

Spark SQL med Scala

Spark SQL er Gnistkomponenten for strukturert databehandling. Spark SQL-grensesnitt gir Spark et innblikk i både strukturen til dataene og prosessene som utføres. Det er flere måter å samhandle med Spark SQL inkludert SQL, DataFrames API, Og Datasett API. Utviklere kan velge mellom De ulike Spark API tilnærminger.

SQL

Spark SQL-spørringer kan skrives med enten en grunnleggende SQL-syntaks eller HiveQL. Spark SQL kan også brukes til å lese data fra eksisterende Hive installasjoner. Når du kjører SQL fra et programmeringsspråk som Python eller Scala, vil resultatene bli returnert som En DataFrame. DU kan også samhandle MED SQL-grensesnittet ved HJELP AV JDBC/ODBC.

DataFrames

En DataFrame er en distribuert samling av data organisert i navngitte kolonner. DataFrames kan betraktes konseptuelt tilsvarer en tabell i en relasjonsdatabase, men med rikere optimaliseringer. DataFrames kan opprettes fra kilder som CSVs, JSON, tabeller I Hive, eksterne databaser, eller eksisterende RDDs.

Datasett

Et Datasett er et nytt eksperimentelt grensesnitt lagt Til I Spark 1.6. Datasett prøver å gi fordelene Med RDDs med fordelene Med Spark SQL optimalisert kjøring motoren.

Spark SQL Med Scala Tutorials

Spark SQL MED CSV og Scala

Spark SQL MED JSON og Scala Spark SQL mySQL jdbc ved Hjelp Av Scala

Leserne kan også være interessert i å forfølge tutorials som Spark Med Cassandra tutorials som ligger I Integrasjonsdelen nedenfor. Spark Med Cassandra dekker også aspekter Av Spark SQL.

Spark Streaming med Scala

Spark Streaming Er Gnistmodulen som muliggjør strømbehandling av live datastrømmer. Data kan inntas fra mange kilder som Kinesis, Kafka, Twitter, ELLER TCP sockets inkludert WebSockets. Strømmen data kan behandles med høyt nivå funksjoner som` kart’, ‘delta’, eller ‘redusere’. Deretter kan behandlede data skyves ut av rørledningen til filsystemer, databaser og dashbord.

Sparks MLLib-algoritmer kan brukes på datastrømmer som vist i veiledningene nedenfor.

Spark Streaming mottar live input datastrømmer ved å dele dataene i konfigurerbare grupper.Spark Streaming gir et høyt nivå abstraksjon kalt diskretisert strøm eller» DStream » for kort. DStreams kan opprettes enten fra inndatastrømmer eller ved å bruke operasjoner på andre DStreams. Internt er En DStream representert som en Sekvens Av RDDs.

Gnist Streaming Med Scala Tutorials

Gnist Streaming Eksempel Streaming Fra Slack
Gnist Streaming Med Kafka Tutorial
Gnist Strukturert Streaming MED Kafka inkludert Json, CSV, AVRO, Og Confluent Skjema Register
Gnist Streaming Med Kinesis Eksempel
Gnist Streaming Testing

Gnist Maskinlæring

mllib er sparks Maskinlæring (ml) bibliotek komponent. MLlib-målet er å gjøre maskinlæring enklere og mer tilgjengelig. Den består av populære læringsalgoritmer og verktøy som klassifisering, regresjon, clustering, samarbeidsfiltrering, dimensjonsreduksjon.

Sparks MLlib er delt inn i to pakker:

spark.mllib som inneholder den opprinnelige API bygget Over RDDs
spark.ml bygget over DataFrames som brukes til å bygge ML rørledninger

spark.ml er den anbefalte tilnærmingen fordi DataFrame API er mer allsidig og fleksibel.

Gnist MLlib med Scala Tutorials

Gnist MLlib Med Streaming Av Data fra Scala Tutorial

Gnist Ytelsesovervåking og Feilsøking

Gnist Ytelsesovervåking Med Beregninger, Grafitt og Grafana
Gnist Ytelsesovervåkingsverktøy – En Liste Over Alternativer
Gnist Tutorial – Ytelsesovervåking Med Historikkserver
Scala Spark Debugging i IntelliJ

li>

Spark Med scala Integration Tutorials

følgende scala Spark Tutorials Bygger på De tidligere dekket Emnene i mer spesifikke brukstilfeller

Spark Amazon S3 Tutorial
Spark Distribuere TIL EN EC2 Cluster Tutorial
Spark Cassandra Fra Scala Tutorial
Spark Scala I IntelliJ
Apache Spark Sparsommelighet Server Med Cassandra Tutorial
Apache Spark Sparsommelighet Server Belastning Testing Eksempel

Spark Operasjoner

Følgende Scala Spark tutorials er relatert til operasjonelle konsepter

Spark Submit kommandolinjeargumenter I Scala
spark fair Scheduler eksempel

utvalgt Bilde Tilpasset fra https://flic.kr/p/7zAZx7

Del! Del! Del! Sang det med meg nå

Adam Faliq

Spark Tutorials med Scala