- Jiskra Návody s Scala
- Apache Spark Essentials
- Přehled
- Návody
- Spark clustery
- Návody
- Spark SQL s Scala
- SQL
- datové rámce
- datové sady
- Spark SQL s Scala Návody
- Spark Streaming s Scala
- Spark Streaming s Scala Návody
- Jiskra Strojového Učení
- Jiskra MLlib s Scala Návody
- Jiskra, Sledování Výkonu a Ladění
- Spark s Scala Integrace Návody
- Jiskra Operace
Spark poskytuje vývojáři a inženýři s Scala API. Spark tutoriály s Scala uvedeny níže pokrývají Scala Spark API v rámci Spark Core, Clustering, Spark SQL, Streaming, strojové učení MLLib a další.
můžete přistupovat k výukové programy v libovolném pořadí, které si vyberete.
návody předpokládají obecné pochopení ekosystému Spark a spark bez ohledu na programovací jazyk, jako je Scala. Pokud jste v Apache Spark nováčkem, doporučená cesta začíná shora a postupuje dolů.
pokud jste novým Scala a Spark a chcete se stát produktivní rychle, podívejte se na můj Scala pro Spark kurz.
nové Spark návody jsou zde přidány často, takže se ujistěte, že zkontrolovat zpět často, záložku nebo se zaregistrovat do našeho seznamu oznámení, který odesílá aktualizace každý měsíc.
Apache Spark Essentials
Přehled
, Aby se stal produktivní a sebevědomý s Jiskrou, je důležité, že jsou pohodlné s Jiskrou pojmy Odolné Distribuované datové sady (RDD), datové části rámců, datových souborů, Proměny, Akce. V následujících tutoriálech jsou základy Spark pokryty z pohledu Scala.
- co je Apache Spark?
- Jiskra Transformace Příklady v Scala
- Jiskra Akční Příklady v Scala
S těmito třemi základními pojmy a Spark API výše uvedené příklady, ty jsou v lepší pozici, aby přesunout některý z následujících částí na clustering, SQL, Streamování a/nebo strojového učení (MLlib) organizované níže.
Spark clustery
Spark aplikace mohou běžet jako nezávislé sady paralelních procesů distribuovaných v mnoha uzlech počítačů. Mnoho uzlů spolupracujících společně je běžně známé jako „cluster“. V závislosti na vaší verzi Spark, distribuované procesy jsou koordinovány SparkContext nebo SparkSession. Sparkcontext se může připojit k několika typům správců klastrů, včetně Mezos, příze nebo vlastního interního Správce klastrů Spark s názvem „samostatný“. Po připojení ke správci clusteru získává Spark vykonavatele na uzlech v klastru.
následující výukové programy Spark clustering vás naučí o schopnostech Spark clusteru s příklady zdrojového kódu Scala.
- Cluster Část 1 Spustit Samostatně
- Cluster Část 2 Nasadit Scala program Clusteru
- Jiskra Clusteru Nasazení řešení Problémů
- Akumulátory a Vysílání proměnné
podrobnější informace o Zapalovací Klastrů, jako je běh a nasazení na Amazon EC2, ujistěte se, že zkontrolovat Integrace ve spodní části této stránky.
Spark SQL s Scala
Spark SQL je komponenta Spark pro strukturované zpracování dat. Spark SQL rozhraní poskytují Spark s nahlédnutím jak do struktury dat, tak do procesů, které jsou prováděny. Existuje několik způsobů, jak komunikovat s Spark SQL, včetně SQL, DataFrames API, a datové sady API. Vývojáři si mohou vybrat mezi různými přístupy Spark API.
SQL
Spark SQL dotazy mohou být psány buď pomocí základní syntaxe SQL nebo HiveQL. Spark SQL lze také použít ke čtení dat z existujících instalací úlu. Při spuštění SQL z programovacího jazyka, jako je Python nebo Scala, budou výsledky vráceny jako datový rámec. Můžete také komunikovat s rozhraním SQL pomocí JDBC / ODBC.
datové rámce
datový rámec je distribuovaná sbírka dat uspořádaná do pojmenovaných sloupců. Datové rámce lze považovat za koncepčně ekvivalentní tabulce v relační databázi, ale s bohatšími optimalizacemi. Datové rámce mohou být vytvořeny ze zdrojů, jako jsou CSV, JSON, tabulky v úlu, externí databáze nebo existující RDD.
datové sady
Dataset je nové experimentální rozhraní přidané v Spark 1.6. Datové sady se snaží poskytnout výhody RDDs s výhodami optimalizovaného spouštěcího motoru Spark SQL.
- Spark SQL s CSV a Scala
- Spark SQL s JSON a Scala
- Spark SQL mySQL JDBC pomocí Scala
Čtenáři, může být také zájem tutoriály, jako jsou Spark s Cassandrou návody nachází v Integraci sekci níže. Spark s Cassandrou pokrývá také aspekty Spark SQL.
Spark Streaming s Scala
Spark Streaming je Spark modul, který umožňuje zpracování proudu živých datových toků. Data mohou být přijímána z mnoha zdrojů, jako jsou Kinesis, Kafka, Twitter nebo TCP sockety včetně WebSockets. Data streamu mohou být zpracovávána pomocí funkcí na vysoké úrovni, jako je „mapa“ ` „připojit se“ nebo „snížit“` Poté mohou být zpracovaná data vytlačena z potrubí do souborových systémů, databází a dashboardů.
Spark MLLib algoritmy mohou být použity na datových proudů, jak je uvedeno v návodech níže.
Spark Streaming přijímá živé vstupní datové toky rozdělením dat do konfigurovatelných dávek.
Spark Streaming poskytuje abstrakci na vysoké úrovni zvanou diskretizovaný proud nebo zkráceně „DStream“. DStreams mohou být vytvořeny buď ze vstupních datových toků, nebo použitím operací na jiných Dstreamech. Interně je DStream reprezentován jako sekvence RDD.
- Spark Streaming Přehled
- Spark Streaming Příklad Streaming z Slack
- Spark Streaming s Kafka Tutorial
- Jiskra Strukturované Streaming s Kafka včetně JSON, CSV, Avro, a Splývající Schématu Registru
- Spark Streaming s Kinesis Příklad
- Spark Streaming Testování
Jiskra Strojového Učení
MLlib je Jiskra strojového učení (ML) součástí knihovny. Cílem MLlib je usnadnit a rozšířit strojové učení. Skládá se z populárních učebních algoritmů a nástrojů, jako je klasifikace, regrese, shlukování, kolaborativní filtrování, redukce dimenzionality.
Spark MLlib je rozdělen do dvou balíčků:
- spark.mllib, které obsahuje původní API postavené nad RDDs
- jiskru.ml postaven přes datové části rámců používaných pro konstrukci ML potrubí
spark.ml je doporučený postup, protože Datovém rozhraní API je více univerzální a flexibilní.
- Jiskra MLlib s Streamování Dat od Takových památek, jak Výuka
Jiskra, Sledování Výkonu a Ladění
- Jiskra Sledování Výkonu Metriky, Grafit a Grafana
- Jiskra Monitorování Výkonnosti Nástroje – Seznam Možností
- Jiskra Tutorial – Sledování Výkonu s Historií Server
- Scala Jiskra Ladění v IntelliJ
následující Scala Jiskra návody stavět na dříve probírané téma do více konkrétní případy užití,
- Jiskra Amazon S3 Tutorial
- Jiskra Nasadit na EC2 Clusteru Tutorial
- Jiskra Cassandra od Takových památek, jak Výuka
- Jiskra Scala v IntelliJ
- Apache Spark Thrift Server s Cassandrou Tutorial
- Apache Spark Šetrnost Zatížení Serveru, Testování Příkladu
Jiskra Operace
Následující Scala Jiskra návody se vztahují k provozní koncepty,
- Jiskra Předložit Argumenty Příkazového Řádku v Scala
- Jiskra FAIR Scheduler Příklad
Nejlepší Obrázek převzat z https://flic.kr/p/7zAZx7
Podělte se! Sdílet! Sdílet! Zpívejte to se mnou teď