Spark Tutorials med Scala

Spark Tutorial med Scala

Spark Tutorials med Scala

Spark gir utviklere og ingeniører Med En Scala API. Spark tutorials med Scala nedenfor dekker Scala Spark API innen Spark Core, Clustering, Spark SQL, Streaming, Machine Learning MLLib og mer.

du kan få tilgang til tutorials i den rekkefølgen du velger.opplæringene antar en generell forståelse Av Spark og Spark-økosystemet uavhengig av programmeringsspråket Som Scala. Hvis Du er ny På Apache Spark, starter den anbefalte banen fra toppen og gjør veien ned til bunnen.

hvis Du er ny På Både Scala og Spark og ønsker å bli produktiv raskt, sjekk ut Min Scala For Spark kurs.

Nye Spark Tutorials er lagt her ofte, så sørg for å sjekke tilbake ofte, bokmerke eller registrere deg for vår varslingsliste som sender oppdateringer hver måned.

Apache Spark Essentials

Oversikt

For å bli produktiv og trygg med Spark, er det viktig at Du er komfortabel med Spark-konseptene Resilient Distribuerte Datasett (RDD), DataFrames, Datasett, Transformasjoner, Handlinger. I de følgende veiledningene er Spark fundamentene dekket fra Et Scala-perspektiv.

Guider

  • Hva Er Apache Spark?
  • Spark Transformation Eksempler I Scala
  • Spark Action Eksempler I Scala

med disse tre grunnleggende begreper og Spark API eksemplene ovenfor, er du i en bedre posisjon til å flytte en av de følgende avsnittene om clustering, SQL, Streaming og/eller maskinlæring (MLlib) organisert nedenfor.

Gnistklynger

Gnistprogrammer kan kjøre som uavhengige sett med parallelle prosesser fordelt på flere noder av datamaskiner. Tallrike noder som samarbeider sammen er kjent som en «klynge». Avhengig av Din Versjon Av Spark koordineres distribuerte prosesser av En SparkContext eller SparkSession. Den SparkContext kan koble til flere typer cluster ledere inkludert Mesos, YARN eller Spark egen intern cluster manager kalt «Frittstående». Når du er koblet til klyngebehandleren, Kjøper Spark eksekutorer på noder i klyngen.

Tutorials

Følgende Spark clustering tutorials vil lære deg Om Spark cluster evner Med scala kildekode eksempler.

  • Cluster Part 1 Kjør Frittstående
  • Cluster Part 2 Distribuer Et Scala-program til Cluster
  • Spark Cluster Distribuer Feilsøking
  • Akkumulatorer og Kringkastingsvariabler

for mer informasjon om Spark-Klynger, for eksempel kjøring og distribusjon på Amazons EC2, må Du kontrollere Integrasjoner-delen nederst på denne siden.

Spark SQL med Scala

Spark SQL er Gnistkomponenten for strukturert databehandling. Spark SQL-grensesnitt gir Spark et innblikk i både strukturen til dataene og prosessene som utføres. Det er flere måter å samhandle med Spark SQL inkludert SQL, DataFrames API, Og Datasett API. Utviklere kan velge mellom De ulike Spark API tilnærminger.

SQL

Spark SQL-spørringer kan skrives med enten en grunnleggende SQL-syntaks eller HiveQL. Spark SQL kan også brukes til å lese data fra eksisterende Hive installasjoner. Når du kjører SQL fra et programmeringsspråk som Python eller Scala, vil resultatene bli returnert som En DataFrame. DU kan også samhandle MED SQL-grensesnittet ved HJELP AV JDBC/ODBC.

DataFrames

En DataFrame er en distribuert samling av data organisert i navngitte kolonner. DataFrames kan betraktes konseptuelt tilsvarer en tabell i en relasjonsdatabase, men med rikere optimaliseringer. DataFrames kan opprettes fra kilder som CSVs, JSON, tabeller I Hive, eksterne databaser, eller eksisterende RDDs.

Datasett

Et Datasett er et nytt eksperimentelt grensesnitt lagt Til I Spark 1.6. Datasett prøver å gi fordelene Med RDDs med fordelene Med Spark SQL optimalisert kjøring motoren.

Spark SQL Med Scala Tutorials

  • Spark SQL MED CSV og Scala
  • Spark SQL MED JSON og Scala Spark SQL mySQL jdbc ved Hjelp Av Scala

Leserne kan også være interessert i å forfølge tutorials som Spark Med Cassandra tutorials som ligger I Integrasjonsdelen nedenfor. Spark Med Cassandra dekker også aspekter Av Spark SQL.

Spark Streaming med Scala

Spark Streaming Er Gnistmodulen som muliggjør strømbehandling av live datastrømmer. Data kan inntas fra mange kilder som Kinesis, Kafka, Twitter, ELLER TCP sockets inkludert WebSockets. Strømmen data kan behandles med høyt nivå funksjoner som` kart’, ‘delta’, eller ‘redusere’. Deretter kan behandlede data skyves ut av rørledningen til filsystemer, databaser og dashbord.

Sparks MLLib-algoritmer kan brukes på datastrømmer som vist i veiledningene nedenfor.

Spark Streaming mottar live input datastrømmer ved å dele dataene i konfigurerbare grupper.Spark Streaming gir et høyt nivå abstraksjon kalt diskretisert strøm eller» DStream » for kort. DStreams kan opprettes enten fra inndatastrømmer eller ved å bruke operasjoner på andre DStreams. Internt er En DStream representert som en Sekvens Av RDDs.

Gnist Streaming Med Scala Tutorials

  • Gnist Streaming Eksempel Streaming Fra Slack
  • Gnist Streaming Med Kafka Tutorial
  • Gnist Strukturert Streaming MED Kafka inkludert Json, CSV, AVRO, Og Confluent Skjema Register
  • Gnist Streaming Med Kinesis Eksempel
  • Gnist Streaming Testing

Gnist Maskinlæring

mllib er sparks Maskinlæring (ml) bibliotek komponent. MLlib-målet er å gjøre maskinlæring enklere og mer tilgjengelig. Den består av populære læringsalgoritmer og verktøy som klassifisering, regresjon, clustering, samarbeidsfiltrering, dimensjonsreduksjon.

Sparks MLlib er delt inn i to pakker:

  1. spark.mllib som inneholder den opprinnelige API bygget Over RDDs
  2. spark.ml bygget over DataFrames som brukes til å bygge ML rørledninger

spark.ml er den anbefalte tilnærmingen fordi DataFrame API er mer allsidig og fleksibel.

Gnist MLlib med Scala Tutorials

  • Gnist MLlib Med Streaming Av Data fra Scala Tutorial

Gnist Ytelsesovervåking og Feilsøking

  • Gnist Ytelsesovervåking Med Beregninger, Grafitt og Grafana
  • Gnist Ytelsesovervåkingsverktøy – En Liste Over Alternativer
  • Gnist Tutorial – Ytelsesovervåking Med Historikkserver
  • Scala Spark Debugging i IntelliJ
  • li>

Spark Med scala Integration Tutorials

følgende scala Spark Tutorials Bygger på De tidligere dekket Emnene i mer spesifikke brukstilfeller

  • Spark Amazon S3 Tutorial
  • Spark Distribuere TIL EN EC2 Cluster Tutorial
  • Spark Cassandra Fra Scala Tutorial
  • Spark Scala I IntelliJ
  • Apache Spark Sparsommelighet Server Med Cassandra Tutorial
  • Apache Spark Sparsommelighet Server Belastning Testing Eksempel

Spark Operasjoner

Følgende Scala Spark tutorials er relatert til operasjonelle konsepter

  • Spark Submit kommandolinjeargumenter I Scala
  • spark fair Scheduler eksempel

utvalgt Bilde Tilpasset fra https://flic.kr/p/7zAZx7

Del! Del! Del! Sang det med meg nå

Related Posts

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *