- Spark Tutorials med Scala
- Apache Spark Essentials
- översikt
- Tutorials
- Spark Clusters
- Tutorials
- Spark SQL med Scala
- SQL
- DataFrames
- dataset
- Spark SQL med Scala Tutorials
- Spark Streaming med Scala
- Spark Streaming med Scala Tutorials
- Spark Machine Learning
- Spark Mllib med Scala Tutorials
- Spark Performance Monitoring och felsökning
- spark med Scala integration tutorials
- Spark operationer
Spark Tutorials med Scala
Spark ger utvecklare och ingenjörer med en Scala API. Spark tutorials med Scala som anges nedan täcker Scala Spark API inom Spark Core, Clustering, Spark SQL, Streaming, Machine Learning MLLib och mer.
Du kan komma åt handledningarna i vilken ordning du väljer.
handledningarna antar en allmän förståelse för Spark och Spark-ekosystemet oavsett programmeringsspråk som Scala. Om du är ny på Apache Spark börjar den rekommenderade sökvägen från toppen och tar dig ner till botten.
om du är ny på både Scala och Spark och vill bli produktiv snabbt, kolla in min Scala för Spark course.
nya Spark Tutorials läggs här ofta, så se till att kolla tillbaka ofta, bokmärke eller registrera dig för vår anmälningslista som skickar uppdateringar varje månad.
Apache Spark Essentials
översikt
för att bli produktiv och säker med Spark är det viktigt att du är bekväm med Spark-koncepten av fjädrande distribuerade dataset (RDD), dataramar, dataset, transformationer, åtgärder. I följande handledning täcks Spark-fundamenten ur ett Scala-perspektiv.
Tutorials
- Vad är Apache Spark?
- Spark Transformation exempel i Scala
- Spark Action exempel i Scala
med dessa tre grundläggande begrepp och Spark API exempel ovan, du är i en bättre position att flytta någon av följande avsnitt om kluster, SQL, Streaming och / eller maskininlärning (MLlib) organiserade nedan.
Spark Clusters
Spark-applikationer kan köras som oberoende uppsättningar parallella processer fördelade över många noder av datorer. Många noder som samarbetar tillsammans är allmänt känt som ett”kluster”. Beroende på din version av Spark samordnas distribuerade processer av en SparkContext eller SparkSession. SparkContext kan ansluta till flera typer av klusterhanterare inklusive Mesos, garn eller Sparks egen interna klusterhanterare som heter ”fristående”. När den är ansluten till klusterhanteraren förvärvar Spark exekutörer på noder i klustret.
Tutorials
följande Spark clustering tutorials kommer att lära dig om Spark cluster kapacitet med Scala källkod exempel.
- Cluster Part 1 Kör fristående
- Cluster Part 2 distribuera ett Scala-program till klustret
- Spark Cluster Deploy felsökning
- ackumulatorer och Sändningsvariabler
För mer information om Spark Clusters, som att köra och distribuera på Amazons EC2, se till att kontrollera Integrationsavsnittet längst ner på denna sida.
Spark SQL med Scala
Spark SQL är Gnistkomponenten för strukturerad databehandling. Spark SQL-gränssnitt ger Spark en inblick i både datastrukturen och de processer som utförs. Det finns flera sätt att interagera med Spark SQL inklusive SQL, DataFrames API och dataset API. Utvecklare kan välja mellan de olika Spark API-metoderna.
SQL
Spark SQL-frågor kan skrivas med antingen en grundläggande SQL-syntax eller HiveQL. Spark SQL kan också användas för att läsa data från befintliga Hive-installationer. När du kör SQL från ett programmeringsspråk som Python eller Scala, kommer resultaten att returneras som en DataFrame. Du kan också interagera med SQL-gränssnittet med JDBC/ODBC.
DataFrames
en DataFrame är en distribuerad samling data organiserade i namngivna kolumner. Dataramar kan betraktas som konceptuellt likvärdiga med en tabell i en relationsdatabas, men med rikare optimeringar. DataFrames kan skapas från källor som CSV, JSON, tabeller I Hive, externa databaser eller befintliga rdd.
dataset
en Dataset är ett nytt experimentellt gränssnitt som läggs till i Spark 1.6. Dataset försöker ge fördelarna med rdd med fördelarna med Spark SQL: s optimerade exekveringsmotor.
Spark SQL med Scala Tutorials
- Spark SQL med CSV och Scala
- Spark SQL med JSON och Scala
- Spark SQL mySQL JDBC med Scala
läsare kan också vara intresserade av att driva handledning som Spark med Cassandra tutorials som finns i Integrationsavsnittet nedan. Spark med Cassandra täcker också aspekter av Spark SQL.
Spark Streaming med Scala
Spark Streaming är Gnistmodulen som möjliggör strömbehandling av levande dataströmmar. Data kan intas från många källor som Kinesis, Kafka, Twitter eller TCP-uttag inklusive WebSockets. Strömdata kan bearbetas med högnivåfunktioner som` map`,` join `eller`reduce’. Sedan kan bearbetade data skjutas ut ur rörledningen till filsystem, databaser och instrumentpaneler.
Sparks mllib-algoritmer kan användas på dataströmmar som visas i handledning nedan.
Spark Streaming tar emot live indataströmmar genom att dela data i konfigurerbara satser.
Spark Streaming ger en hög nivå abstraktion kallas diskretiserad ström eller ”DStream” för kort. DStreams kan skapas antingen från indataströmmar eller genom att tillämpa operationer på andra DStreams. Internt representeras en DStream som en sekvens av RDD.
Spark Streaming med Scala Tutorials
- Spark Streaming översikt
- Spark Streaming exempel Streaming från Slack
- Spark Streaming med Kafka handledning
- Spark strukturerad Streaming med Kafka inklusive JSON, CSV, Avro och Confluent Schema register
- Spark Streaming med Kinesis exempel
- Spark Streaming testning
Spark Machine Learning
mllib är Sparks maskininlärning (ml) bibliotekskomponent. MLlib: s mål är att göra maskininlärning enklare och mer tillgänglig. Den består av populära inlärningsalgoritmer och verktyg som klassificering, regression, kluster, samarbetsfiltrering, dimensioneringsreduktion.
Sparks MLlib är uppdelad i två paket:
- spark.mllib som innehåller den ursprungliga API byggt över rdd
- spark.ml byggd över dataramar som används för att konstruera ML rörledningar
spark.ml är det rekommenderade tillvägagångssättet eftersom DataFrame API är mer mångsidigt och flexibelt.
Spark Mllib med Scala Tutorials
- Spark Mllib med strömmande Data från Scala Tutorial
Spark Performance Monitoring och felsökning
- Spark Performance Monitoring Tools med mätvärden, grafit och Grafana
- Spark Performance Monitoring Tools – en lista med alternativ
- Spark Performance Monitoring Tools – en lista med alternativ
- Spark Tutorial-Performance Monitoring with History Server
- Scala Spark Debugging in IntelliJ
spark med Scala integration tutorials
följande Scala Spark Tutorials bygger på de tidigare täckta ämnena i mer specifika användningsfall
- Spark Amazon S3 handledning
- Spark distribuera till en EC2 kluster handledning
- Spark Cassandra från Scala handledning
- Spark Scala i IntelliJ
- Apache Spark sparsamhet Server med Cassandra handledning
- Apache Spark sparsamhet Server Load Testing exempel
Spark operationer
följande Scala Spark tutorials är relaterade till operativa begrepp
- Spark skicka kommandoradsargument i Scala
- spark Fair Scheduler exempel
Dagens bild anpassad från https://flic.kr/p/7zAZx7
dela! Dela! Dela! Sjung det med mig nu