Zapalovací Návody S Scala

Jiskra Tutoriál s Scala

Jiskra Návody s Scala

Spark poskytuje vývojáři a inženýři s Scala API. Spark tutoriály s Scala uvedeny níže pokrývají Scala Spark API v rámci Spark Core, Clustering, Spark SQL, Streaming, strojové učení MLLib a další.

můžete přistupovat k výukové programy v libovolném pořadí, které si vyberete.

návody předpokládají obecné pochopení ekosystému Spark a spark bez ohledu na programovací jazyk, jako je Scala. Pokud jste v Apache Spark nováčkem, doporučená cesta začíná shora a postupuje dolů.

pokud jste novým Scala a Spark a chcete se stát produktivní rychle, podívejte se na můj Scala pro Spark kurz.

nové Spark návody jsou zde přidány často, takže se ujistěte, že zkontrolovat zpět často, záložku nebo se zaregistrovat do našeho seznamu oznámení, který odesílá aktualizace každý měsíc.

Apache Spark Essentials

Přehled

, Aby se stal produktivní a sebevědomý s Jiskrou, je důležité, že jsou pohodlné s Jiskrou pojmy Odolné Distribuované datové sady (RDD), datové části rámců, datových souborů, Proměny, Akce. V následujících tutoriálech jsou základy Spark pokryty z pohledu Scala.

Návody

  • co je Apache Spark?
  • Jiskra Transformace Příklady v Scala
  • Jiskra Akční Příklady v Scala

S těmito třemi základními pojmy a Spark API výše uvedené příklady, ty jsou v lepší pozici, aby přesunout některý z následujících částí na clustering, SQL, Streamování a/nebo strojového učení (MLlib) organizované níže.

Spark clustery

Spark aplikace mohou běžet jako nezávislé sady paralelních procesů distribuovaných v mnoha uzlech počítačů. Mnoho uzlů spolupracujících společně je běžně známé jako „cluster“. V závislosti na vaší verzi Spark, distribuované procesy jsou koordinovány SparkContext nebo SparkSession. Sparkcontext se může připojit k několika typům správců klastrů, včetně Mezos, příze nebo vlastního interního Správce klastrů Spark s názvem „samostatný“. Po připojení ke správci clusteru získává Spark vykonavatele na uzlech v klastru.

Návody

následující výukové programy Spark clustering vás naučí o schopnostech Spark clusteru s příklady zdrojového kódu Scala.

  • Cluster Část 1 Spustit Samostatně
  • Cluster Část 2 Nasadit Scala program Clusteru
  • Jiskra Clusteru Nasazení řešení Problémů
  • Akumulátory a Vysílání proměnné

podrobnější informace o Zapalovací Klastrů, jako je běh a nasazení na Amazon EC2, ujistěte se, že zkontrolovat Integrace ve spodní části této stránky.

Spark SQL s Scala

Spark SQL je komponenta Spark pro strukturované zpracování dat. Spark SQL rozhraní poskytují Spark s nahlédnutím jak do struktury dat, tak do procesů, které jsou prováděny. Existuje několik způsobů, jak komunikovat s Spark SQL, včetně SQL, DataFrames API, a datové sady API. Vývojáři si mohou vybrat mezi různými přístupy Spark API.

SQL

Spark SQL dotazy mohou být psány buď pomocí základní syntaxe SQL nebo HiveQL. Spark SQL lze také použít ke čtení dat z existujících instalací úlu. Při spuštění SQL z programovacího jazyka, jako je Python nebo Scala, budou výsledky vráceny jako datový rámec. Můžete také komunikovat s rozhraním SQL pomocí JDBC / ODBC.

datové rámce

datový rámec je distribuovaná sbírka dat uspořádaná do pojmenovaných sloupců. Datové rámce lze považovat za koncepčně ekvivalentní tabulce v relační databázi, ale s bohatšími optimalizacemi. Datové rámce mohou být vytvořeny ze zdrojů, jako jsou CSV, JSON, tabulky v úlu, externí databáze nebo existující RDD.

datové sady

Dataset je nové experimentální rozhraní přidané v Spark 1.6. Datové sady se snaží poskytnout výhody RDDs s výhodami optimalizovaného spouštěcího motoru Spark SQL.

Spark SQL s Scala Návody

  • Spark SQL s CSV a Scala
  • Spark SQL s JSON a Scala
  • Spark SQL mySQL JDBC pomocí Scala

Čtenáři, může být také zájem tutoriály, jako jsou Spark s Cassandrou návody nachází v Integraci sekci níže. Spark s Cassandrou pokrývá také aspekty Spark SQL.

Spark Streaming s Scala

Spark Streaming je Spark modul, který umožňuje zpracování proudu živých datových toků. Data mohou být přijímána z mnoha zdrojů, jako jsou Kinesis, Kafka, Twitter nebo TCP sockety včetně WebSockets. Data streamu mohou být zpracovávána pomocí funkcí na vysoké úrovni, jako je „mapa“ ` „připojit se“ nebo „snížit“` Poté mohou být zpracovaná data vytlačena z potrubí do souborových systémů, databází a dashboardů.

Spark MLLib algoritmy mohou být použity na datových proudů, jak je uvedeno v návodech níže.

Spark Streaming přijímá živé vstupní datové toky rozdělením dat do konfigurovatelných dávek.

Spark Streaming poskytuje abstrakci na vysoké úrovni zvanou diskretizovaný proud nebo zkráceně „DStream“. DStreams mohou být vytvořeny buď ze vstupních datových toků, nebo použitím operací na jiných Dstreamech. Interně je DStream reprezentován jako sekvence RDD.

Spark Streaming s Scala Návody

  • Spark Streaming Přehled
  • Spark Streaming Příklad Streaming z Slack
  • Spark Streaming s Kafka Tutorial
  • Jiskra Strukturované Streaming s Kafka včetně JSON, CSV, Avro, a Splývající Schématu Registru
  • Spark Streaming s Kinesis Příklad
  • Spark Streaming Testování

Jiskra Strojového Učení

MLlib je Jiskra strojového učení (ML) součástí knihovny. Cílem MLlib je usnadnit a rozšířit strojové učení. Skládá se z populárních učebních algoritmů a nástrojů, jako je klasifikace, regrese, shlukování, kolaborativní filtrování, redukce dimenzionality.

Spark MLlib je rozdělen do dvou balíčků:

  1. spark.mllib, které obsahuje původní API postavené nad RDDs
  2. jiskru.ml postaven přes datové části rámců používaných pro konstrukci ML potrubí

spark.ml je doporučený postup, protože Datovém rozhraní API je více univerzální a flexibilní.

Jiskra MLlib s Scala Návody

  • Jiskra MLlib s Streamování Dat od Takových památek, jak Výuka

Jiskra, Sledování Výkonu a Ladění

  • Jiskra Sledování Výkonu Metriky, Grafit a Grafana
  • Jiskra Monitorování Výkonnosti Nástroje – Seznam Možností
  • Jiskra Tutorial – Sledování Výkonu s Historií Server
  • Scala Jiskra Ladění v IntelliJ

Spark s Scala Integrace Návody

následující Scala Jiskra návody stavět na dříve probírané téma do více konkrétní případy užití,

  • Jiskra Amazon S3 Tutorial
  • Jiskra Nasadit na EC2 Clusteru Tutorial
  • Jiskra Cassandra od Takových památek, jak Výuka
  • Jiskra Scala v IntelliJ
  • Apache Spark Thrift Server s Cassandrou Tutorial
  • Apache Spark Šetrnost Zatížení Serveru, Testování Příkladu

Jiskra Operace

Následující Scala Jiskra návody se vztahují k provozní koncepty,

  • Jiskra Předložit Argumenty Příkazového Řádku v Scala
  • Jiskra FAIR Scheduler Příklad

Nejlepší Obrázek převzat z https://flic.kr/p/7zAZx7

Podělte se! Sdílet! Sdílet! Zpívejte to se mnou teď

Related Posts

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *