- tutoriale Spark cu Scala
- Apache Spark Essentials
- Prezentare generală
- tutoriale
- clustere Spark
- tutoriale
- Spark SQL cu Scala
- SQL
- DataFrames
- Seturi de date
- Spark SQL cu Scala tutoriale
- Spark Streaming cu Scala
- Spark Streaming cu Scala tutoriale
- Spark Machine Learning
- Spark MLlib cu tutoriale Scala
- monitorizarea performanței Spark și depanare
- Spark cu tutoriale de integrare Scala
- operațiuni Spark
tutoriale Spark cu Scala
Spark oferă dezvoltatorilor și inginerilor un API Scala. Tutorialele Spark cu Scala enumerate mai jos acoperă API-ul Scala Spark din Spark Core, Clustering, Spark SQL, Streaming, Machine Learning MLLib și multe altele.
puteți accesa tutorialele în orice ordine alegeți.
tutorialele presupun o înțelegere generală a Spark și a ecosistemului Spark, indiferent de limbajul de programare, cum ar fi Scala. Dacă sunteți nou la Apache Spark, calea recomandată începe de sus și se îndreaptă spre partea de jos.
dacă sunteți nou atât La Scala și Spark și doriți să devină productiv rapid, a verifica afară meu Scala pentru Spark curs.
noi tutoriale Spark sunt adăugate aici de multe ori, deci asigurați-vă că pentru a verifica din nou de multe ori, marcaj sau semn sus pentru lista noastră de notificare care trimite actualizări în fiecare lună.
Apache Spark Essentials
Prezentare generală
pentru a deveni productiv și încrezător cu Spark, este esențial să vă simțiți confortabil cu conceptele Spark de seturi de date distribuite rezistente (RDD), cadre de date, seturi de date, transformări, acțiuni. În următoarele tutoriale, fundamentele Spark sunt acoperite dintr-o perspectivă Scala.
tutoriale
- ce este Apache Spark?
- Exemple de transformare Spark în Scala
- Exemple de acțiune Spark în Scala
cu aceste trei concepte fundamentale și exemple API Spark de mai sus, sunteți într-o poziție mai bună pentru a muta oricare dintre următoarele secțiuni pe clustering, SQL, Streaming și / sau machine learning (MLlib) organizate mai jos.
clustere Spark
aplicațiile Spark pot rula ca seturi independente de procese paralele distribuite pe numeroase noduri de computere. Numeroase noduri care colaborează împreună sunt cunoscute în mod obișnuit ca „cluster”. În funcție de versiunea dvs. de Spark, procesele distribuite sunt coordonate de un SparkContext sau SparkSession. SparkContext se poate conecta la mai multe tipuri de manageri de cluster, inclusiv Mesos, fire sau propriul manager de cluster intern Spark numit „independent”. Odată conectat la managerul de cluster, Spark achiziționează executori pe noduri din cluster.
tutoriale
următoarele tutoriale Spark clustering vă va învăța despre capacitățile Spark cluster cu exemple de cod sursă Scala.
- Cluster Part 1 Run Standalone
- Cluster Part 2 implementați un program Scala în Cluster
- Spark Cluster Deploy Troubleshooting
- acumulatori și variabile de difuzare
Pentru mai multe informații despre clusterele Spark, cum ar fi rularea și implementarea pe EC2 Amazon, asigurați-vă că verificați secțiunea integrări din partea de jos a acestei pagini.
Spark SQL cu Scala
Spark SQL este componenta Spark pentru procesarea structurată a datelor. Interfețele Spark SQL oferă Spark o perspectivă atât asupra structurii datelor, cât și asupra proceselor efectuate. Există mai multe moduri de a interacționa cu Spark SQL, inclusiv SQL, API-ul DataFrames și API-ul seturilor de date. Dezvoltatorii pot alege între diferitele abordări API Spark.
SQL
interogările SQL Spark pot fi scrise folosind fie o sintaxă SQL de bază, fie HiveQL. Spark SQL poate fi, de asemenea, utilizat pentru a citi datele din instalațiile Hive existente. Când executați SQL dintr-un limbaj de programare, cum ar fi Python sau Scala, rezultatele vor fi returnate ca un cadru de date. De asemenea, puteți interacționa cu interfața SQL folosind JDBC/ODBC.
DataFrames
un DataFrame este o colecție distribuită de date organizate în coloane numite. Cadrele de date pot fi considerate conceptual echivalente cu un tabel dintr-o bază de date relațională, dar cu optimizări mai bogate. DataFrames pot fi create din surse, cum ar fi CSV-uri, JSON, tabele în stup, baze de date externe, sau RDDs existente.
Seturi de date
Un set de date este o nouă interfață experimentală adăugată în Spark 1.6. Seturile de date încearcă să ofere beneficiile RDDs cu beneficiile motorului de execuție optimizat Spark SQL.
Spark SQL cu Scala tutoriale
- Spark SQL cu CSV și Scala
- Spark SQL cu JSON și Scala
- Spark SQL mySQL JDBC folosind Scala
cititorii pot fi, de asemenea, interesați să urmărească tutoriale precum Spark cu tutoriale Cassandra situate în secțiunea de integrare de mai jos. Spark cu Cassandra acoperă și aspecte ale Spark SQL.
Spark Streaming cu Scala
Spark Streaming este modulul Spark care permite procesarea fluxului de fluxuri de date live. Datele pot fi ingerate din mai multe surse, cum ar fi Kinesis, Kafka, Twitter sau TCP sockets, inclusiv WebSockets. Datele fluxului pot fi procesate cu funcții de nivel înalt, cum ar fi` map`,` join `sau`reduce’. Apoi, datele prelucrate pot fi împinse din conductă către sisteme de fișiere, baze de date și tablouri de bord.
algoritmii MLLib Spark pot fi utilizați pe fluxurile de date așa cum se arată în tutorialele de mai jos.
Spark Streaming primește fluxuri de date de intrare live prin împărțirea datelor în loturi configurabile.
streamingul Spark oferă o abstractizare la nivel înalt numită flux discretizat sau „DStream” pe scurt. DStreams pot fi create fie din fluxuri de date de intrare sau prin aplicarea operațiunilor pe alte DStreams. Pe plan intern, un DStream este reprezentat ca o secvență de RDDs.
Spark Streaming cu Scala tutoriale
- Spark Streaming Prezentare generală
- Spark Streaming exemplu Streaming de la Slack
- Spark Streaming cu Kafka Tutorial
- Spark Structured Streaming cu Kafka inclusiv json, CSV, Avro, și Confluent schema Registry
- Spark Streaming cu Kinesis exemplu
- Spark Streaming testare
Spark Machine Learning
mllib este componenta Bibliotecii Spark de învățare automată (ml). Scopul MLlib este de a face învățarea automată mai ușoară și mai disponibilă pe scară largă. Se compune din algoritmi și utilități populare de învățare, cum ar fi clasificarea, regresia, gruparea, filtrarea colaborativă, reducerea dimensionalității.
MLlib Spark este împărțit în două pachete:
- spark.mllib care conține API-ul original construit peste RDDs
- spark.ml construit peste DataFrames utilizate pentru construirea ml conducte
spark.ml este abordarea recomandată, deoarece API-ul DataFrame este mai versatil și flexibil.
Spark MLlib cu tutoriale Scala
- Spark MLlib cu Streaming de date de La Scala Tutorial
monitorizarea performanței Spark și depanare
- monitorizarea performanței Spark cu valori, grafit și Grafana
- instrumente de monitorizare a performanței Spark – o listă de opțiuni
- Spark Tutorial – monitorizarea performanței cu>
Spark cu tutoriale de integrare Scala
următoarele Tutoriale Scala Spark se bazează pe subiectele acoperite anterior în cazuri de utilizare mai specifice
- Spark Amazon S3 Tutorial
- Spark Deploy la un tutorial Cluster EC2
- Spark Cassandra De La Scala Tutorial
- Spark Scala în IntelliJ
- Apache Spark Thrift Server cu Cassandra Tutorial
- Apache Spark Thrift server de testare de încărcare exemplu
operațiuni Spark
următoarele Tutoriale Scala Spark sunt legate de concepte operaționale
- trimiteți argumente în linia de comandă în Scala
- spark Fair Scheduler exemplu
imagine prezentată adaptată de la https://flic.kr/p/7zAZx7
share! Distribuie! Distribuie! Cântă – l cu mine acum