- Spark Tutorials with Scala
- Apache Spark Essentials
- Overview
- Tutorials
- Kipinäsovellukset
- Tutorials
- Spark SQL with Scala
- SQL
- dataframe
- tietojoukot
- Spark SQL with Scala Tutorials
- Spark Streaming with Scala
- Spark Streaming with Scala Tutorials
- Spark Machine Learning
- Spark Mllib with Scala Tutorials
- Spark Performance Monitoring and Debugging
- spark with Scala Integration tutorials
- Spark Operations
Spark Tutorials with Scala
Spark tarjoaa kehittäjille ja insinööreille Scala API: n. Spark tutorials kanssa Scala lueteltu alla kattaa Scala Spark API sisällä Spark Core, klusterointi, Spark SQL, Streaming, Koneoppiminen MLLib ja enemmän.
voit käyttää opetusohjelmia missä tahansa valitsemassasi järjestyksessä.
tutorialit omaksuvat yleisen käsityksen Sparkista ja Spark-ekosysteemistä riippumatta ohjelmointikielestä, kuten Scalasta. Jos olet uusi Apache Spark, suositeltu polku alkaa ylhäältä ja tekee tiesi alas.
jos Olet Uusi sekä Scalassa että Sparkissa ja haluat tulla nopeasti tuottavaksi, tutustu Scala for Spark-kurssiini.
uusia Kipinätutoriaaleja lisätään tähän usein, joten muista tarkistaa ne usein, kirjanmerkki tai ilmoittautua ilmoituslistallemme, joka lähettää päivityksiä joka kuukausi.
Apache Spark Essentials
Overview
tullaksesi tuottavaksi ja luottavaiseksi Sparkiin, on tärkeää, että olet sinut Spark-käsitteiden kanssa: Resilient Distributed Datasets (RDD), DataFrames, DataSets, Transformations, Actions. Seuraavissa tutoriaaleissa kipinä-fundamentteja käsitellään Scalan näkökulmasta.
Tutorials
- mikä on apassien kipinä?
- Spark Transformation Examples in Scala
- Spark Action Examples in Scala
näiden kolmen peruskäsitteen ja Spark API-esimerkkien avulla voit paremmin siirtää minkä tahansa seuraavista osioista, jotka koskevat ryhmittelyä, SQL: ää, streamausta ja / tai koneoppimista (mllib) alla.
Kipinäsovellukset
Kipinäsovellukset voivat toimia itsenäisinä rinnakkaisten prosessien sarjoina, jotka jakautuvat lukuisiin tietokoneiden solmukohtiin. Lukuisia solmuja, jotka tekevät yhteistyötä, kutsutaan yleisesti ”klusteriksi”. Spark-versiostasi riippuen hajautettuja prosesseja koordinoi sparkcontext tai SparkSession. SparkContext voi muodostaa yhteyden useisiin eri klusterinhallintatyyppeihin, kuten Mesoihin, lankaan tai Sparkin omaan sisäiseen klusterinhallintaan, jota kutsutaan ”Standaloneksi”. Kun Spark on liitetty klusterinhallintaan, se hankkii toimeksiantajat klusterin solmuihin.
Tutorials
seuraavat Spark Cluster-tutorialit opettavat Spark cluster-ominaisuuksista Scala-lähdekoodiesimerkkien avulla.
- klusteri Osa 1 suorita itsenäinen
- klusteri Osa 2 Ota käyttöön Scala-ohjelma klusteriin
- Kipuklusteri Ota käyttöön vianmääritys
- Akut ja Lähetysmuuttujat
lisätietoja Kipuklustereista, kuten käynnissä ja käytössä Amazonin EC2: ssa, tarkista integraatiot-osio tämän sivun alalaidasta.
Spark SQL with Scala
Spark SQL on jäsennellyn tietojenkäsittelyn Kipukomponentti. Spark SQL-rajapinnat antavat Sparkille käsityksen sekä datan rakenteesta että suoritettavista prosesseista. On olemassa useita tapoja vuorovaikutuksessa Spark SQL kuten SQL, DataFrames API, ja Datasets API. Kehittäjät voivat valita eri Spark API lähestymistapoja.
SQL
Spark SQL-kyselyt voidaan kirjoittaa joko SQL: n perussyntaksilla tai HiveQL: llä. Spark SQL: ää voidaan käyttää myös olemassa olevien Hive-asennusten tietojen lukemiseen. Kun SQL: ää ajetaan ohjelmointikielellä, kuten Pythonilla tai Scalalla, tulokset palautetaan Datakehyksenä. Voit myös olla vuorovaikutuksessa SQL käyttöliittymä JDBC/ODBC.
dataframe
DataFrame on hajautettu tiedonkeruu, joka on järjestetty nimettyihin sarakkeisiin. Dataframesin voidaan katsoa käsitteellisesti vastaavan taulukkoa relaatiotietokannassa, mutta rikkaammilla optimoinneilla. DataFrames voidaan luoda lähteistä, kuten CSVs, JSON, taulukot Hive, ulkoiset tietokannat, tai olemassa RDD.
tietojoukot
tietojoukko on Spark 1.6: ssa lisätty uusi kokeellinen rajapinta. Tietokokonaisuudet yrittävät tarjota rdds: n edut Spark SQL: n optimoidun suoritusmoottorin hyödyillä.
Spark SQL with Scala Tutorials
- Spark SQL with CSV ja Scala
- Spark SQL with JSON ja Scala
- Spark SQL mySQL JDBC using Scala
lukijoita saattaa myös kiinnostaa jatkaa tutorialeja, kuten Spark with Cassandra tutorials, jotka sijaitsevat alla olevassa integraatio-osassa. Kipinä Cassandra kattaa näkökohtia Spark SQL samoin.
Spark Streaming with Scala
Spark Streaming on Kipinämoduuli, joka mahdollistaa suorien datavirtojen streamauksen. Tiedot voidaan niellä monista lähteistä, kuten Kinesis, Kafka, Twitter, tai TCP pistorasiat kuten WebSockets. Stream-tietoja voidaan käsitellä korkean tason toiminnoilla, kuten ”map”, ”join” tai ”reduce”. Sitten, käsitelty data voidaan työntää ulos putkesta tiedostojärjestelmät, tietokannat, ja kojelaudat.
Sparkin MLLib-algoritmeja voidaan käyttää tietovirtoihin kuten alla olevissa tutoriaaleissa on esitetty.
Spark Streaming vastaanottaa live-syötetietovirtoja jakamalla tiedot konfiguroitaviin eriin.
Spark Streaming tarjoaa korkean tason abstraktiota, jota kutsutaan diskretisoiduksi streamiksi tai lyhyemmin ”Dstreamiksi”. DStreams voidaan luoda joko syöttötietovirrasta tai soveltamalla operaatioita muihin Dstreameihin. Sisäisesti, DStream on esitetty sekvenssi RDDs.
Spark Streaming with Scala Tutorials
- Spark Streaming example Streaming from Slack
- Spark Streaming with Kafka Tutorial
- Spark Structured Streaming with Kafka including JSON, CSV, Avro, and Confluent Schema Registry
- Spark Streaming with Kinesis Example
- Spark Streaming Testing
Spark Machine Learning
mllib on Spark ’ s Machine Learning (ML) library component. Mllib: n tavoitteena on tehdä koneoppimisesta helpompaa ja laajempaa. Se koostuu suosituista oppimisalgoritmeista ja apuohjelmista, kuten luokittelusta, regressiosta, ryhmittelystä, yhteistoiminnallisesta suodatuksesta, dimensionaalisuuden vähentämisestä.
Spark ’ s MLlib on jaettu kahteen pakettiin:
- spark.mllib, joka sisältää alkuperäisen RDDS: n päälle rakennetun API: n
- spark.ml rakennettu ML-putkistojen rakentamiseen käytettyjen Datakehysten päälle
spark.ml on suositeltava lähestymistapa, koska DataFrame API on monipuolisempi ja joustavampi.
Spark Mllib with Scala Tutorials
- Spark MLlib with Streaming Data from Scala Tutorial
Spark Performance Monitoring and Debugging
- Spark Performance Monitoring with Metrics, Graphite and Grafana
- Spark performance Monitoring Tools – a List of Options
- Spark performance Monitoring with History Server
- Scala Spark Debugging in IntelliJ
spark with Scala Integration tutorials
seuraavat Scala Spark Tutorials rakentavat aiemmin käsitellyistä aiheista tarkempia käyttötapauksia
- Spark Amazon S3 Tutorial
- Spark Deploy to an EC2 Cluster Tutorial
- Spark Cassandra from Scala Tutorial
- Spark Scala in IntelliJ
- Apache Spark Thrift Server with Cassandra Tutorial
- Apache Spark Thrift Server Load Testing Example
Spark Operations
seuraavat Scala Spark tutorialit liittyvät operatiivisiin käsitteisiin
- li>spark Submit komentoriviargumentit Scalassa
- Spark Fair Scheduler example
featured image adapted from https://flic.kr/p/7zAZx7
share! Jaa! Jaa! Chant it with me now