Tutoriale Spark cu Scala

Spark oferă dezvoltatorilor și inginerilor un API Scala. Tutorialele Spark cu Scala enumerate mai jos acoperă API-ul Scala Spark din Spark Core, Clustering, Spark SQL, Streaming, Machine Learning MLLib și multe altele.

puteți accesa tutorialele în orice ordine alegeți.

tutorialele presupun o înțelegere generală a Spark și a ecosistemului Spark, indiferent de limbajul de programare, cum ar fi Scala. Dacă sunteți nou la Apache Spark, calea recomandată începe de sus și se îndreaptă spre partea de jos.

dacă sunteți nou atât La Scala și Spark și doriți să devină productiv rapid, a verifica afară meu Scala pentru Spark curs.

noi tutoriale Spark sunt adăugate aici de multe ori, deci asigurați-vă că pentru a verifica din nou de multe ori, marcaj sau semn sus pentru lista noastră de notificare care trimite actualizări în fiecare lună.

Apache Spark Essentials

Prezentare generală

pentru a deveni productiv și încrezător cu Spark, este esențial să vă simțiți confortabil cu conceptele Spark de seturi de date distribuite rezistente (RDD), cadre de date, seturi de date, transformări, acțiuni. În următoarele tutoriale, fundamentele Spark sunt acoperite dintr-o perspectivă Scala.

tutoriale

ce este Apache Spark?
Exemple de transformare Spark în Scala
Exemple de acțiune Spark în Scala

cu aceste trei concepte fundamentale și exemple API Spark de mai sus, sunteți într-o poziție mai bună pentru a muta oricare dintre următoarele secțiuni pe clustering, SQL, Streaming și / sau machine learning (MLlib) organizate mai jos.

clustere Spark

aplicațiile Spark pot rula ca seturi independente de procese paralele distribuite pe numeroase noduri de computere. Numeroase noduri care colaborează împreună sunt cunoscute în mod obișnuit ca „cluster”. În funcție de versiunea dvs. de Spark, procesele distribuite sunt coordonate de un SparkContext sau SparkSession. SparkContext se poate conecta la mai multe tipuri de manageri de cluster, inclusiv Mesos, fire sau propriul manager de cluster intern Spark numit „independent”. Odată conectat la managerul de cluster, Spark achiziționează executori pe noduri din cluster.

tutoriale

următoarele tutoriale Spark clustering vă va învăța despre capacitățile Spark cluster cu exemple de cod sursă Scala.

Cluster Part 1 Run Standalone
Cluster Part 2 implementați un program Scala în Cluster
Spark Cluster Deploy Troubleshooting
acumulatori și variabile de difuzare

Pentru mai multe informații despre clusterele Spark, cum ar fi rularea și implementarea pe EC2 Amazon, asigurați-vă că verificați secțiunea integrări din partea de jos a acestei pagini.

Spark SQL cu Scala

Spark SQL este componenta Spark pentru procesarea structurată a datelor. Interfețele Spark SQL oferă Spark o perspectivă atât asupra structurii datelor, cât și asupra proceselor efectuate. Există mai multe moduri de a interacționa cu Spark SQL, inclusiv SQL, API-ul DataFrames și API-ul seturilor de date. Dezvoltatorii pot alege între diferitele abordări API Spark.

SQL

interogările SQL Spark pot fi scrise folosind fie o sintaxă SQL de bază, fie HiveQL. Spark SQL poate fi, de asemenea, utilizat pentru a citi datele din instalațiile Hive existente. Când executați SQL dintr-un limbaj de programare, cum ar fi Python sau Scala, rezultatele vor fi returnate ca un cadru de date. De asemenea, puteți interacționa cu interfața SQL folosind JDBC/ODBC.

DataFrames

un DataFrame este o colecție distribuită de date organizate în coloane numite. Cadrele de date pot fi considerate conceptual echivalente cu un tabel dintr-o bază de date relațională, dar cu optimizări mai bogate. DataFrames pot fi create din surse, cum ar fi CSV-uri, JSON, tabele în stup, baze de date externe, sau RDDs existente.

Seturi de date

Un set de date este o nouă interfață experimentală adăugată în Spark 1.6. Seturile de date încearcă să ofere beneficiile RDDs cu beneficiile motorului de execuție optimizat Spark SQL.

Spark SQL cu Scala tutoriale

Spark SQL cu CSV și Scala
Spark SQL cu JSON și Scala
Spark SQL mySQL JDBC folosind Scala

cititorii pot fi, de asemenea, interesați să urmărească tutoriale precum Spark cu tutoriale Cassandra situate în secțiunea de integrare de mai jos. Spark cu Cassandra acoperă și aspecte ale Spark SQL.

Spark Streaming cu Scala

Spark Streaming este modulul Spark care permite procesarea fluxului de fluxuri de date live. Datele pot fi ingerate din mai multe surse, cum ar fi Kinesis, Kafka, Twitter sau TCP sockets, inclusiv WebSockets. Datele fluxului pot fi procesate cu funcții de nivel înalt, cum ar fi` map`,` join `sau`reduce’. Apoi, datele prelucrate pot fi împinse din conductă către sisteme de fișiere, baze de date și tablouri de bord.

algoritmii MLLib Spark pot fi utilizați pe fluxurile de date așa cum se arată în tutorialele de mai jos.

Spark Streaming primește fluxuri de date de intrare live prin împărțirea datelor în loturi configurabile.

streamingul Spark oferă o abstractizare la nivel înalt numită flux discretizat sau „DStream” pe scurt. DStreams pot fi create fie din fluxuri de date de intrare sau prin aplicarea operațiunilor pe alte DStreams. Pe plan intern, un DStream este reprezentat ca o secvență de RDDs.

Spark Streaming cu Scala tutoriale

Spark Streaming Prezentare generală
Spark Streaming exemplu Streaming de la Slack
Spark Streaming cu Kafka Tutorial
Spark Structured Streaming cu Kafka inclusiv json, CSV, Avro, și Confluent schema Registry
Spark Streaming cu Kinesis exemplu
Spark Streaming testare

Spark Machine Learning

mllib este componenta Bibliotecii Spark de învățare automată (ml). Scopul MLlib este de a face învățarea automată mai ușoară și mai disponibilă pe scară largă. Se compune din algoritmi și utilități populare de învățare, cum ar fi clasificarea, regresia, gruparea, filtrarea colaborativă, reducerea dimensionalității.

MLlib Spark este împărțit în două pachete:

spark.mllib care conține API-ul original construit peste RDDs
spark.ml construit peste DataFrames utilizate pentru construirea ml conducte

spark.ml este abordarea recomandată, deoarece API-ul DataFrame este mai versatil și flexibil.

Spark MLlib cu tutoriale Scala

Spark MLlib cu Streaming de date de La Scala Tutorial

monitorizarea performanței Spark și depanare

monitorizarea performanței Spark cu valori, grafit și Grafana
instrumente de monitorizare a performanței Spark – o listă de opțiuni
Spark Tutorial – monitorizarea performanței cu>

Spark cu tutoriale de integrare Scala

următoarele Tutoriale Scala Spark se bazează pe subiectele acoperite anterior în cazuri de utilizare mai specifice

Spark Amazon S3 Tutorial
Spark Deploy la un tutorial Cluster EC2
Spark Cassandra De La Scala Tutorial
Spark Scala în IntelliJ
Apache Spark Thrift Server cu Cassandra Tutorial
Apache Spark Thrift server de testare de încărcare exemplu

operațiuni Spark

următoarele Tutoriale Scala Spark sunt legate de concepte operaționale

trimiteți argumente în linia de comandă în Scala
spark Fair Scheduler exemplu

imagine prezentată adaptată de la https://flic.kr/p/7zAZx7

share! Distribuie! Distribuie! Cântă – l cu mine acum

Adam Faliq

Tutoriale Spark cu Scala