Spark oktatóanyagok Scala

Spark bemutató Scala

Spark oktatóanyagok Scala

Spark biztosít a fejlesztők és mérnökök egy Scala API. A Spark oktatóanyagok Scala alább felsorolt kiterjed a Scala Spark API belül Spark Core, klaszterezés, Spark SQL, Streaming, Gépi tanulás MLLib stb.

az oktatóanyagokat bármilyen sorrendben elérheti.

az oktatóanyagok a Spark és a Spark ökoszisztéma általános megértését feltételezik, függetlenül a programozási nyelvtől, például a Scala-tól. Ha új vagy az Apache Spark-ban, az ajánlott útvonal felülről indul, lefelé haladva.

ha új vagy mind a Scala, mind a Spark számára, és gyorsan produktívvá akarsz válni, nézd meg a Scala-t a Spark tanfolyamra.

az új Spark oktatóanyagokat gyakran adják hozzá, ezért ügyeljen arra, hogy gyakran nézzen vissza, könyvjelzővel vagy regisztráljon az értesítési listánkra, amely havonta frissítéseket küld.

Apache Szikra Essentials

Áttekintés

lesz eredményes, s benne a Szikra, nagyon fontos, hogy kényelmes a Szikra fogalmak Rugalmas Elosztott Adatok (RDD), DataFrames, Adatsorok, Transzformációk, Akciók. A következő útmutatókban a szikra fundamentumokat Scala szempontból fedjük le.

oktatóanyagok

  • mi az Apache Spark?
  • Szikra Átalakulás Példák a Scala
  • Szikra Akció Példák a Scala

ezzel A három alapvető fogalmakat, valamint Szikra API fenti példák vannak jobb helyzetben, hogy mozduljon meg az alábbi szakaszok a klaszterezés, SQL, Folyamatos és/vagy gépi tanulás (MLlib) szervezett alatt.

Spark klaszterek

A Spark alkalmazások a számítógépek számos csomópontján elosztott párhuzamos folyamatok független halmazaként működhetnek. Számos csomópont együttműködik együtt közismert nevén a “klaszter”. A Spark verziójától függően az elosztott folyamatokat egy SparkContext vagy SparkSession koordinálja. A SparkContext többféle klaszterkezelőhöz kapcsolódhat, beleértve a Mesos – t, a fonalat vagy a Spark saját belső klaszterkezelőjét, az úgynevezett “Standalone” – t. Miután csatlakozott a klaszterkezelőhöz, a Spark végrehajtókat szerez a klaszter csomópontjain.

oktatóanyagok

a következő szikra klaszter oktatóanyagok megtanítják a Spark klaszter képességeiről a Scala forráskódú példákkal.

  • Klaszter 1. Rész Fut Önálló
  • Klaszter 2. Rész Telepíteni egy Scala program a Klaszter
  • Szikra Klaszter Telepíteni Hibaelhárítás
  • Akkumulátorok, valamint Adás változók

további információ a Szikra, Klaszterek, mint a futás, majd bevetni az Amazon EC2, ellenőrizze az Integrációs szakasz alján ezt az oldalt.

Spark SQL a Scala

Spark SQL a Spark komponens strukturált adatfeldolgozás. A Spark SQL interfészek betekintést nyújtanak a Sparkba mind az adatok szerkezetébe, mind az elvégzendő folyamatokba. A Spark SQL-vel való interakciónak többféle módja van, beleértve az SQL-t, a DataFrames API-t, valamint a Datasets API-t. A fejlesztők választhatnak a különböző Spark API megközelítések között.

SQL

Spark SQL lekérdezések írhatók akár egy alapvető SQL szintaxis vagy HiveQL. Spark SQL is fel lehet használni, hogy olvassa el az adatokat a meglévő Hive létesítmények. Ha SQL-t futtat egy programozási nyelvből, például a Python vagy a Scala, Az eredmények DataFrame-ként kerülnek vissza. Az SQL interfésszel JDBC/ODBC segítségével is kölcsönhatásba léphet.

DataFrames

a DataFrame egy elosztott adatgyűjtés szervezett nevű oszlopokat. DataFrames lehet tekinteni fogalmilag egyenértékű egy táblázatot egy relációs adatbázis, de gazdagabb optimalizálás. DataFrames lehet létrehozni forrásokból, mint a CSVs, JSON, táblázatok Hive, külső adatbázisok, vagy a meglévő RDD-k.

adatkészletek

az adatkészlet egy új kísérleti felület, amelyet a Spark 1.6-ban adtak hozzá. Az adatkészletek megpróbálják biztosítani az RDD-k előnyeit a Spark SQL optimalizált végrehajtási motorjának előnyeivel.

Szikra SQL a Scala Oktató

  • Szikra SQL a CSV-s Scala
  • Szikra SQL a JSON-t pedig Scala
  • Szikra, SQL, mySQL JDBC segítségével Scala

az Olvasók is lehet feszegetni az oktató, mint a Szikra, a Cassandra oktató található az Integrációs szakasz alatt. A szikra Cassandrával a Spark SQL aspektusait is lefedi.

Spark Streaming A Scala

Spark Streaming A Spark modul, amely lehetővé teszi az élő adatfolyamok stream feldolgozását. Az adatokat számos forrásból lehet lenyelni, például Kinesis, Kafka, Twitter vagy TCP aljzatok, beleértve a Websocketeket is. A stream adatok olyan magas szintű funkciókkal dolgozhatók fel, mint a “térkép”, a “csatlakozás” vagy a “csökkentés”. Ezután a feldolgozott adatokat ki lehet tolni a csővezetékből fájlrendszerekbe, adatbázisokba és irányítópultokba.

A Spark MLLib algoritmusai használhatók adatfolyamokon, amint az az alábbi útmutatókban látható.

A Spark Streaming Élő bemeneti adatfolyamokat kap úgy, hogy az adatokat konfigurálható tételekre osztja.

A Spark Streaming egy magas szintű absztrakciót biztosít, amelyet diszkretizált streamnek vagy röviden “Dstreamnek” neveznek. DStreams lehet létrehozni akár bemeneti adatfolyamok vagy alkalmazásával műveleteket más DStreams. Belsőleg a DStream az RDD-k sorozataként jelenik meg.

Szikra Streaming a Scala Oktató

  • Szikra Streaming Áttekintés
  • Szikra Streaming Például a Streaming a Laza
  • Szikra Streaming a Kafka Bemutató
  • Szikra Strukturált Streaming a Kafka-beleértve a JSON-t, CSV, Avro, pedig Egybefolyó Séma Registry
  • Szikra Streaming a Kinesis Példa
  • Szikra Streaming Vizsgálati

Szikra Gépi Tanulás

MLlib a Szikra gépi tanulás (ML) könyvtár alkatrész. Az MLlib célja, hogy könnyebbé és szélesebb körben elérhetővé tegye a gépi tanulást. Népszerű tanulási algoritmusokból és segédprogramokból áll, mint például osztályozás, regresszió, klaszterezés, kollaboratív szűrés, dimenziócsökkentés.

Spark Mlib van osztva két csomag:

  1. spark.mllib, amely tartalmazza az eredeti API beépített RDDs
  2. spark.ml ml csővezetékek építéséhez használt Adatkramek

spark.ml az ajánlott megközelítés, mivel a DataFrame API sokoldalúbb és rugalmasabb.

Szikra MLlib a Scala Oktató

  • Szikra MLlib a Streaming Adatok a Scala Bemutató

Szikra Teljesítmény Monitoring, valamint Hibakeresés

  • Szikra Teljesítmény Monitoring Mutatók, Grafit, Grafana
  • Szikra Teljesítmény Monitoring Eszközök – Opciók Listáját
  • Szikra Bemutató – Teljesítmény Monitoring a Történelem Server
  • Scala Szikra Hibakeresés az IntelliJ

Szikra a Scala Integráció Oktató

A következő Scala Szikra oktató építeni a korábban tartozó témákat több konkrét használati esetek

  • Szikra Amazon S3 Bemutató
  • Szikra Telepíteni, hogy az EC2 Klaszter Bemutató
  • Szikra Cassandra a Scala Bemutató
  • Szikra Scala az IntelliJ
  • Apache Szikra Használtruha Szerver Cassandra Bemutató
  • Apache Szikra Használtruha Szerver Terhelés Vizsgálata Példa

Szikra Műveletek

A következő Scala Szikra oktató kapcsolódó operatív fogalom

  • Szikra nyújt be a parancssori Argumentumok a Scala
  • Szikra FAIR Ütemező Példa

Kiemelt Kép átvéve https://flic.kr/p/7zAZx7

Megosztás! Oszd meg! Oszd meg! Énekelj velem most

Related Posts

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük