Spark Tutorials med Scala

Spark Tutorial med Scala

Spark Tutorials med Scala

Spark ger utvecklare och ingenjörer med en Scala API. Spark tutorials med Scala som anges nedan täcker Scala Spark API inom Spark Core, Clustering, Spark SQL, Streaming, Machine Learning MLLib och mer.

Du kan komma åt handledningarna i vilken ordning du väljer.

handledningarna antar en allmän förståelse för Spark och Spark-ekosystemet oavsett programmeringsspråk som Scala. Om du är ny på Apache Spark börjar den rekommenderade sökvägen från toppen och tar dig ner till botten.

om du är ny på både Scala och Spark och vill bli produktiv snabbt, kolla in min Scala för Spark course.

nya Spark Tutorials läggs här ofta, så se till att kolla tillbaka ofta, bokmärke eller registrera dig för vår anmälningslista som skickar uppdateringar varje månad.

Apache Spark Essentials

översikt

för att bli produktiv och säker med Spark är det viktigt att du är bekväm med Spark-koncepten av fjädrande distribuerade dataset (RDD), dataramar, dataset, transformationer, åtgärder. I följande handledning täcks Spark-fundamenten ur ett Scala-perspektiv.

Tutorials

  • Vad är Apache Spark?
  • Spark Transformation exempel i Scala
  • Spark Action exempel i Scala

med dessa tre grundläggande begrepp och Spark API exempel ovan, du är i en bättre position att flytta någon av följande avsnitt om kluster, SQL, Streaming och / eller maskininlärning (MLlib) organiserade nedan.

Spark Clusters

Spark-applikationer kan köras som oberoende uppsättningar parallella processer fördelade över många noder av datorer. Många noder som samarbetar tillsammans är allmänt känt som ett”kluster”. Beroende på din version av Spark samordnas distribuerade processer av en SparkContext eller SparkSession. SparkContext kan ansluta till flera typer av klusterhanterare inklusive Mesos, garn eller Sparks egen interna klusterhanterare som heter ”fristående”. När den är ansluten till klusterhanteraren förvärvar Spark exekutörer på noder i klustret.

Tutorials

följande Spark clustering tutorials kommer att lära dig om Spark cluster kapacitet med Scala källkod exempel.

  • Cluster Part 1 Kör fristående
  • Cluster Part 2 distribuera ett Scala-program till klustret
  • Spark Cluster Deploy felsökning
  • ackumulatorer och Sändningsvariabler

För mer information om Spark Clusters, som att köra och distribuera på Amazons EC2, se till att kontrollera Integrationsavsnittet längst ner på denna sida.

Spark SQL med Scala

Spark SQL är Gnistkomponenten för strukturerad databehandling. Spark SQL-gränssnitt ger Spark en inblick i både datastrukturen och de processer som utförs. Det finns flera sätt att interagera med Spark SQL inklusive SQL, DataFrames API och dataset API. Utvecklare kan välja mellan de olika Spark API-metoderna.

SQL

Spark SQL-frågor kan skrivas med antingen en grundläggande SQL-syntax eller HiveQL. Spark SQL kan också användas för att läsa data från befintliga Hive-installationer. När du kör SQL från ett programmeringsspråk som Python eller Scala, kommer resultaten att returneras som en DataFrame. Du kan också interagera med SQL-gränssnittet med JDBC/ODBC.

DataFrames

en DataFrame är en distribuerad samling data organiserade i namngivna kolumner. Dataramar kan betraktas som konceptuellt likvärdiga med en tabell i en relationsdatabas, men med rikare optimeringar. DataFrames kan skapas från källor som CSV, JSON, tabeller I Hive, externa databaser eller befintliga rdd.

dataset

en Dataset är ett nytt experimentellt gränssnitt som läggs till i Spark 1.6. Dataset försöker ge fördelarna med rdd med fördelarna med Spark SQL: s optimerade exekveringsmotor.

Spark SQL med Scala Tutorials

  • Spark SQL med CSV och Scala
  • Spark SQL med JSON och Scala
  • Spark SQL mySQL JDBC med Scala

läsare kan också vara intresserade av att driva handledning som Spark med Cassandra tutorials som finns i Integrationsavsnittet nedan. Spark med Cassandra täcker också aspekter av Spark SQL.

Spark Streaming med Scala

Spark Streaming är Gnistmodulen som möjliggör strömbehandling av levande dataströmmar. Data kan intas från många källor som Kinesis, Kafka, Twitter eller TCP-uttag inklusive WebSockets. Strömdata kan bearbetas med högnivåfunktioner som` map`,` join `eller`reduce’. Sedan kan bearbetade data skjutas ut ur rörledningen till filsystem, databaser och instrumentpaneler.

Sparks mllib-algoritmer kan användas på dataströmmar som visas i handledning nedan.

Spark Streaming tar emot live indataströmmar genom att dela data i konfigurerbara satser.

Spark Streaming ger en hög nivå abstraktion kallas diskretiserad ström eller ”DStream” för kort. DStreams kan skapas antingen från indataströmmar eller genom att tillämpa operationer på andra DStreams. Internt representeras en DStream som en sekvens av RDD.

Spark Streaming med Scala Tutorials

  • Spark Streaming översikt
  • Spark Streaming exempel Streaming från Slack
  • Spark Streaming med Kafka handledning
  • Spark strukturerad Streaming med Kafka inklusive JSON, CSV, Avro och Confluent Schema register
  • Spark Streaming med Kinesis exempel
  • Spark Streaming testning

Spark Machine Learning

mllib är Sparks maskininlärning (ml) bibliotekskomponent. MLlib: s mål är att göra maskininlärning enklare och mer tillgänglig. Den består av populära inlärningsalgoritmer och verktyg som klassificering, regression, kluster, samarbetsfiltrering, dimensioneringsreduktion.

Sparks MLlib är uppdelad i två paket:

  1. spark.mllib som innehåller den ursprungliga API byggt över rdd
  2. spark.ml byggd över dataramar som används för att konstruera ML rörledningar

spark.ml är det rekommenderade tillvägagångssättet eftersom DataFrame API är mer mångsidigt och flexibelt.

Spark Mllib med Scala Tutorials

  • Spark Mllib med strömmande Data från Scala Tutorial

Spark Performance Monitoring och felsökning

  • Spark Performance Monitoring Tools med mätvärden, grafit och Grafana
  • Spark Performance Monitoring Tools – en lista med alternativ
  • Spark Performance Monitoring Tools – en lista med alternativ
  • Spark Tutorial-Performance Monitoring with History Server
  • Scala Spark Debugging in IntelliJ

spark med Scala integration tutorials

följande Scala Spark Tutorials bygger på de tidigare täckta ämnena i mer specifika användningsfall

  • Spark Amazon S3 handledning
  • Spark distribuera till en EC2 kluster handledning
  • Spark Cassandra från Scala handledning
  • Spark Scala i IntelliJ
  • Apache Spark sparsamhet Server med Cassandra handledning
  • Apache Spark sparsamhet Server Load Testing exempel

Spark operationer

följande Scala Spark tutorials är relaterade till operativa begrepp

  • Spark skicka kommandoradsargument i Scala
  • spark Fair Scheduler exempel

Dagens bild anpassad från https://flic.kr/p/7zAZx7

dela! Dela! Dela! Sjung det med mig nu

Related Posts

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *