- Spark Tutorials med Scala
- Apache Spark Essentials
- Oversikt
- Guider
- Gnistklynger
- Tutorials
- Spark SQL med Scala
- SQL
- DataFrames
- Datasett
- Spark SQL Med Scala Tutorials
- Spark Streaming med Scala
- Gnist Streaming Med Scala Tutorials
- Gnist Maskinlæring
- Gnist MLlib med Scala Tutorials
- Gnist Ytelsesovervåking og Feilsøking
- Spark Med scala Integration Tutorials
- Spark Operasjoner
Spark Tutorials med Scala
Spark gir utviklere og ingeniører Med En Scala API. Spark tutorials med Scala nedenfor dekker Scala Spark API innen Spark Core, Clustering, Spark SQL, Streaming, Machine Learning MLLib og mer.
du kan få tilgang til tutorials i den rekkefølgen du velger.opplæringene antar en generell forståelse Av Spark og Spark-økosystemet uavhengig av programmeringsspråket Som Scala. Hvis Du er ny På Apache Spark, starter den anbefalte banen fra toppen og gjør veien ned til bunnen.
hvis Du er ny På Både Scala og Spark og ønsker å bli produktiv raskt, sjekk ut Min Scala For Spark kurs.
Nye Spark Tutorials er lagt her ofte, så sørg for å sjekke tilbake ofte, bokmerke eller registrere deg for vår varslingsliste som sender oppdateringer hver måned.
Apache Spark Essentials
Oversikt
For å bli produktiv og trygg med Spark, er det viktig at Du er komfortabel med Spark-konseptene Resilient Distribuerte Datasett (RDD), DataFrames, Datasett, Transformasjoner, Handlinger. I de følgende veiledningene er Spark fundamentene dekket fra Et Scala-perspektiv.
Guider
- Hva Er Apache Spark?
- Spark Transformation Eksempler I Scala
- Spark Action Eksempler I Scala
med disse tre grunnleggende begreper og Spark API eksemplene ovenfor, er du i en bedre posisjon til å flytte en av de følgende avsnittene om clustering, SQL, Streaming og/eller maskinlæring (MLlib) organisert nedenfor.
Gnistklynger
Gnistprogrammer kan kjøre som uavhengige sett med parallelle prosesser fordelt på flere noder av datamaskiner. Tallrike noder som samarbeider sammen er kjent som en «klynge». Avhengig av Din Versjon Av Spark koordineres distribuerte prosesser av En SparkContext eller SparkSession. Den SparkContext kan koble til flere typer cluster ledere inkludert Mesos, YARN eller Spark egen intern cluster manager kalt «Frittstående». Når du er koblet til klyngebehandleren, Kjøper Spark eksekutorer på noder i klyngen.
Tutorials
Følgende Spark clustering tutorials vil lære deg Om Spark cluster evner Med scala kildekode eksempler.
- Cluster Part 1 Kjør Frittstående
- Cluster Part 2 Distribuer Et Scala-program til Cluster
- Spark Cluster Distribuer Feilsøking
- Akkumulatorer og Kringkastingsvariabler
for mer informasjon om Spark-Klynger, for eksempel kjøring og distribusjon på Amazons EC2, må Du kontrollere Integrasjoner-delen nederst på denne siden.
Spark SQL med Scala
Spark SQL er Gnistkomponenten for strukturert databehandling. Spark SQL-grensesnitt gir Spark et innblikk i både strukturen til dataene og prosessene som utføres. Det er flere måter å samhandle med Spark SQL inkludert SQL, DataFrames API, Og Datasett API. Utviklere kan velge mellom De ulike Spark API tilnærminger.
SQL
Spark SQL-spørringer kan skrives med enten en grunnleggende SQL-syntaks eller HiveQL. Spark SQL kan også brukes til å lese data fra eksisterende Hive installasjoner. Når du kjører SQL fra et programmeringsspråk som Python eller Scala, vil resultatene bli returnert som En DataFrame. DU kan også samhandle MED SQL-grensesnittet ved HJELP AV JDBC/ODBC.
DataFrames
En DataFrame er en distribuert samling av data organisert i navngitte kolonner. DataFrames kan betraktes konseptuelt tilsvarer en tabell i en relasjonsdatabase, men med rikere optimaliseringer. DataFrames kan opprettes fra kilder som CSVs, JSON, tabeller I Hive, eksterne databaser, eller eksisterende RDDs.
Datasett
Et Datasett er et nytt eksperimentelt grensesnitt lagt Til I Spark 1.6. Datasett prøver å gi fordelene Med RDDs med fordelene Med Spark SQL optimalisert kjøring motoren.
Spark SQL Med Scala Tutorials
- Spark SQL MED CSV og Scala
Spark SQL MED JSON og Scala Spark SQL mySQL jdbc ved Hjelp Av Scala
Leserne kan også være interessert i å forfølge tutorials som Spark Med Cassandra tutorials som ligger I Integrasjonsdelen nedenfor. Spark Med Cassandra dekker også aspekter Av Spark SQL.
Spark Streaming med Scala
Spark Streaming Er Gnistmodulen som muliggjør strømbehandling av live datastrømmer. Data kan inntas fra mange kilder som Kinesis, Kafka, Twitter, ELLER TCP sockets inkludert WebSockets. Strømmen data kan behandles med høyt nivå funksjoner som` kart’, ‘delta’, eller ‘redusere’. Deretter kan behandlede data skyves ut av rørledningen til filsystemer, databaser og dashbord.
Sparks MLLib-algoritmer kan brukes på datastrømmer som vist i veiledningene nedenfor.
Spark Streaming mottar live input datastrømmer ved å dele dataene i konfigurerbare grupper.Spark Streaming gir et høyt nivå abstraksjon kalt diskretisert strøm eller» DStream » for kort. DStreams kan opprettes enten fra inndatastrømmer eller ved å bruke operasjoner på andre DStreams. Internt er En DStream representert som en Sekvens Av RDDs.
Gnist Streaming Med Scala Tutorials
- Gnist Streaming Eksempel Streaming Fra Slack
- Gnist Streaming Med Kafka Tutorial
- Gnist Strukturert Streaming MED Kafka inkludert Json, CSV, AVRO, Og Confluent Skjema Register
- Gnist Streaming Med Kinesis Eksempel
- Gnist Streaming Testing
Gnist Maskinlæring
mllib er sparks Maskinlæring (ml) bibliotek komponent. MLlib-målet er å gjøre maskinlæring enklere og mer tilgjengelig. Den består av populære læringsalgoritmer og verktøy som klassifisering, regresjon, clustering, samarbeidsfiltrering, dimensjonsreduksjon.
Sparks MLlib er delt inn i to pakker:
- spark.mllib som inneholder den opprinnelige API bygget Over RDDs
- spark.ml bygget over DataFrames som brukes til å bygge ML rørledninger
spark.ml er den anbefalte tilnærmingen fordi DataFrame API er mer allsidig og fleksibel.
Gnist MLlib med Scala Tutorials
- Gnist MLlib Med Streaming Av Data fra Scala Tutorial
Gnist Ytelsesovervåking og Feilsøking
- Gnist Ytelsesovervåking Med Beregninger, Grafitt og Grafana
- Gnist Ytelsesovervåkingsverktøy – En Liste Over Alternativer
- Gnist Tutorial – Ytelsesovervåking Med Historikkserver
- Scala Spark Debugging i IntelliJ
li>
Spark Med scala Integration Tutorials
følgende scala Spark Tutorials Bygger på De tidligere dekket Emnene i mer spesifikke brukstilfeller
- Spark Amazon S3 Tutorial
- Spark Distribuere TIL EN EC2 Cluster Tutorial
- Spark Cassandra Fra Scala Tutorial
- Spark Scala I IntelliJ
- Apache Spark Sparsommelighet Server Med Cassandra Tutorial
- Apache Spark Sparsommelighet Server Belastning Testing Eksempel
Spark Operasjoner
Følgende Scala Spark tutorials er relatert til operasjonelle konsepter
- Spark Submit kommandolinjeargumenter I Scala
- spark fair Scheduler eksempel
utvalgt Bilde Tilpasset fra https://flic.kr/p/7zAZx7
Del! Del! Del! Sang det med meg nå