Spark Tutorials With Scala

Spark Tutorial with Scala

Spark Tutorials with Scala

Spark tarjoaa kehittäjille ja insinööreille Scala API: n. Spark tutorials kanssa Scala lueteltu alla kattaa Scala Spark API sisällä Spark Core, klusterointi, Spark SQL, Streaming, Koneoppiminen MLLib ja enemmän.

voit käyttää opetusohjelmia missä tahansa valitsemassasi järjestyksessä.

tutorialit omaksuvat yleisen käsityksen Sparkista ja Spark-ekosysteemistä riippumatta ohjelmointikielestä, kuten Scalasta. Jos olet uusi Apache Spark, suositeltu polku alkaa ylhäältä ja tekee tiesi alas.

jos Olet Uusi sekä Scalassa että Sparkissa ja haluat tulla nopeasti tuottavaksi, tutustu Scala for Spark-kurssiini.

uusia Kipinätutoriaaleja lisätään tähän usein, joten muista tarkistaa ne usein, kirjanmerkki tai ilmoittautua ilmoituslistallemme, joka lähettää päivityksiä joka kuukausi.

Apache Spark Essentials

Overview

tullaksesi tuottavaksi ja luottavaiseksi Sparkiin, on tärkeää, että olet sinut Spark-käsitteiden kanssa: Resilient Distributed Datasets (RDD), DataFrames, DataSets, Transformations, Actions. Seuraavissa tutoriaaleissa kipinä-fundamentteja käsitellään Scalan näkökulmasta.

Tutorials

  • mikä on apassien kipinä?
  • Spark Transformation Examples in Scala
  • Spark Action Examples in Scala

näiden kolmen peruskäsitteen ja Spark API-esimerkkien avulla voit paremmin siirtää minkä tahansa seuraavista osioista, jotka koskevat ryhmittelyä, SQL: ää, streamausta ja / tai koneoppimista (mllib) alla.

Kipinäsovellukset

Kipinäsovellukset voivat toimia itsenäisinä rinnakkaisten prosessien sarjoina, jotka jakautuvat lukuisiin tietokoneiden solmukohtiin. Lukuisia solmuja, jotka tekevät yhteistyötä, kutsutaan yleisesti ”klusteriksi”. Spark-versiostasi riippuen hajautettuja prosesseja koordinoi sparkcontext tai SparkSession. SparkContext voi muodostaa yhteyden useisiin eri klusterinhallintatyyppeihin, kuten Mesoihin, lankaan tai Sparkin omaan sisäiseen klusterinhallintaan, jota kutsutaan ”Standaloneksi”. Kun Spark on liitetty klusterinhallintaan, se hankkii toimeksiantajat klusterin solmuihin.

Tutorials

seuraavat Spark Cluster-tutorialit opettavat Spark cluster-ominaisuuksista Scala-lähdekoodiesimerkkien avulla.

  • klusteri Osa 1 suorita itsenäinen
  • klusteri Osa 2 Ota käyttöön Scala-ohjelma klusteriin
  • Kipuklusteri Ota käyttöön vianmääritys
  • Akut ja Lähetysmuuttujat

lisätietoja Kipuklustereista, kuten käynnissä ja käytössä Amazonin EC2: ssa, tarkista integraatiot-osio tämän sivun alalaidasta.

Spark SQL with Scala

Spark SQL on jäsennellyn tietojenkäsittelyn Kipukomponentti. Spark SQL-rajapinnat antavat Sparkille käsityksen sekä datan rakenteesta että suoritettavista prosesseista. On olemassa useita tapoja vuorovaikutuksessa Spark SQL kuten SQL, DataFrames API, ja Datasets API. Kehittäjät voivat valita eri Spark API lähestymistapoja.

SQL

Spark SQL-kyselyt voidaan kirjoittaa joko SQL: n perussyntaksilla tai HiveQL: llä. Spark SQL: ää voidaan käyttää myös olemassa olevien Hive-asennusten tietojen lukemiseen. Kun SQL: ää ajetaan ohjelmointikielellä, kuten Pythonilla tai Scalalla, tulokset palautetaan Datakehyksenä. Voit myös olla vuorovaikutuksessa SQL käyttöliittymä JDBC/ODBC.

dataframe

DataFrame on hajautettu tiedonkeruu, joka on järjestetty nimettyihin sarakkeisiin. Dataframesin voidaan katsoa käsitteellisesti vastaavan taulukkoa relaatiotietokannassa, mutta rikkaammilla optimoinneilla. DataFrames voidaan luoda lähteistä, kuten CSVs, JSON, taulukot Hive, ulkoiset tietokannat, tai olemassa RDD.

tietojoukot

tietojoukko on Spark 1.6: ssa lisätty uusi kokeellinen rajapinta. Tietokokonaisuudet yrittävät tarjota rdds: n edut Spark SQL: n optimoidun suoritusmoottorin hyödyillä.

Spark SQL with Scala Tutorials

  • Spark SQL with CSV ja Scala
  • Spark SQL with JSON ja Scala
  • Spark SQL mySQL JDBC using Scala

lukijoita saattaa myös kiinnostaa jatkaa tutorialeja, kuten Spark with Cassandra tutorials, jotka sijaitsevat alla olevassa integraatio-osassa. Kipinä Cassandra kattaa näkökohtia Spark SQL samoin.

Spark Streaming with Scala

Spark Streaming on Kipinämoduuli, joka mahdollistaa suorien datavirtojen streamauksen. Tiedot voidaan niellä monista lähteistä, kuten Kinesis, Kafka, Twitter, tai TCP pistorasiat kuten WebSockets. Stream-tietoja voidaan käsitellä korkean tason toiminnoilla, kuten ”map”, ”join” tai ”reduce”. Sitten, käsitelty data voidaan työntää ulos putkesta tiedostojärjestelmät, tietokannat, ja kojelaudat.

Sparkin MLLib-algoritmeja voidaan käyttää tietovirtoihin kuten alla olevissa tutoriaaleissa on esitetty.

Spark Streaming vastaanottaa live-syötetietovirtoja jakamalla tiedot konfiguroitaviin eriin.

Spark Streaming tarjoaa korkean tason abstraktiota, jota kutsutaan diskretisoiduksi streamiksi tai lyhyemmin ”Dstreamiksi”. DStreams voidaan luoda joko syöttötietovirrasta tai soveltamalla operaatioita muihin Dstreameihin. Sisäisesti, DStream on esitetty sekvenssi RDDs.

Spark Streaming with Scala Tutorials

  • Spark Streaming example Streaming from Slack
  • Spark Streaming with Kafka Tutorial
  • Spark Structured Streaming with Kafka including JSON, CSV, Avro, and Confluent Schema Registry
  • Spark Streaming with Kinesis Example
  • Spark Streaming Testing

Spark Machine Learning

mllib on Spark ’ s Machine Learning (ML) library component. Mllib: n tavoitteena on tehdä koneoppimisesta helpompaa ja laajempaa. Se koostuu suosituista oppimisalgoritmeista ja apuohjelmista, kuten luokittelusta, regressiosta, ryhmittelystä, yhteistoiminnallisesta suodatuksesta, dimensionaalisuuden vähentämisestä.

Spark ’ s MLlib on jaettu kahteen pakettiin:

  1. spark.mllib, joka sisältää alkuperäisen RDDS: n päälle rakennetun API: n
  2. spark.ml rakennettu ML-putkistojen rakentamiseen käytettyjen Datakehysten päälle

spark.ml on suositeltava lähestymistapa, koska DataFrame API on monipuolisempi ja joustavampi.

Spark Mllib with Scala Tutorials

  • Spark MLlib with Streaming Data from Scala Tutorial

Spark Performance Monitoring and Debugging

  • Spark Performance Monitoring with Metrics, Graphite and Grafana
  • Spark performance Monitoring Tools – a List of Options
  • Spark performance Monitoring with History Server
  • Scala Spark Debugging in IntelliJ

spark with Scala Integration tutorials

seuraavat Scala Spark Tutorials rakentavat aiemmin käsitellyistä aiheista tarkempia käyttötapauksia

  • Spark Amazon S3 Tutorial
  • Spark Deploy to an EC2 Cluster Tutorial
  • Spark Cassandra from Scala Tutorial
  • Spark Scala in IntelliJ
  • Apache Spark Thrift Server with Cassandra Tutorial
  • Apache Spark Thrift Server Load Testing Example

Spark Operations

seuraavat Scala Spark tutorialit liittyvät operatiivisiin käsitteisiin

    li>spark Submit komentoriviargumentit Scalassa

  • Spark Fair Scheduler example

featured image adapted from https://flic.kr/p/7zAZx7

share! Jaa! Jaa! Chant it with me now

Related Posts

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *