Zapalovací Návody S Scala

Jiskra Tutoriál s Scala

Jiskra Návody s Scala
Apache Spark Essentials
Přehled
Návody
Spark clustery
Návody
Spark SQL s Scala
SQL
datové rámce
datové sady
Spark SQL s Scala Návody
Spark Streaming s Scala
Spark Streaming s Scala Návody
Jiskra Strojového Učení
Jiskra MLlib s Scala Návody
Jiskra, Sledování Výkonu a Ladění
Spark s Scala Integrace Návody
Jiskra Operace

Jiskra Návody s Scala

Spark poskytuje vývojáři a inženýři s Scala API. Spark tutoriály s Scala uvedeny níže pokrývají Scala Spark API v rámci Spark Core, Clustering, Spark SQL, Streaming, strojové učení MLLib a další.

můžete přistupovat k výukové programy v libovolném pořadí, které si vyberete.

návody předpokládají obecné pochopení ekosystému Spark a spark bez ohledu na programovací jazyk, jako je Scala. Pokud jste v Apache Spark nováčkem, doporučená cesta začíná shora a postupuje dolů.

pokud jste novým Scala a Spark a chcete se stát produktivní rychle, podívejte se na můj Scala pro Spark kurz.

nové Spark návody jsou zde přidány často, takže se ujistěte, že zkontrolovat zpět často, záložku nebo se zaregistrovat do našeho seznamu oznámení, který odesílá aktualizace každý měsíc.

Apache Spark Essentials

Přehled

, Aby se stal produktivní a sebevědomý s Jiskrou, je důležité, že jsou pohodlné s Jiskrou pojmy Odolné Distribuované datové sady (RDD), datové části rámců, datových souborů, Proměny, Akce. V následujících tutoriálech jsou základy Spark pokryty z pohledu Scala.

Návody

co je Apache Spark?
Jiskra Transformace Příklady v Scala
Jiskra Akční Příklady v Scala

S těmito třemi základními pojmy a Spark API výše uvedené příklady, ty jsou v lepší pozici, aby přesunout některý z následujících částí na clustering, SQL, Streamování a/nebo strojového učení (MLlib) organizované níže.

Spark clustery

Spark aplikace mohou běžet jako nezávislé sady paralelních procesů distribuovaných v mnoha uzlech počítačů. Mnoho uzlů spolupracujících společně je běžně známé jako „cluster“. V závislosti na vaší verzi Spark, distribuované procesy jsou koordinovány SparkContext nebo SparkSession. Sparkcontext se může připojit k několika typům správců klastrů, včetně Mezos, příze nebo vlastního interního Správce klastrů Spark s názvem „samostatný“. Po připojení ke správci clusteru získává Spark vykonavatele na uzlech v klastru.

Návody

následující výukové programy Spark clustering vás naučí o schopnostech Spark clusteru s příklady zdrojového kódu Scala.

Cluster Část 1 Spustit Samostatně
Cluster Část 2 Nasadit Scala program Clusteru
Jiskra Clusteru Nasazení řešení Problémů
Akumulátory a Vysílání proměnné

podrobnější informace o Zapalovací Klastrů, jako je běh a nasazení na Amazon EC2, ujistěte se, že zkontrolovat Integrace ve spodní části této stránky.

Spark SQL s Scala

Spark SQL je komponenta Spark pro strukturované zpracování dat. Spark SQL rozhraní poskytují Spark s nahlédnutím jak do struktury dat, tak do procesů, které jsou prováděny. Existuje několik způsobů, jak komunikovat s Spark SQL, včetně SQL, DataFrames API, a datové sady API. Vývojáři si mohou vybrat mezi různými přístupy Spark API.

SQL

Spark SQL dotazy mohou být psány buď pomocí základní syntaxe SQL nebo HiveQL. Spark SQL lze také použít ke čtení dat z existujících instalací úlu. Při spuštění SQL z programovacího jazyka, jako je Python nebo Scala, budou výsledky vráceny jako datový rámec. Můžete také komunikovat s rozhraním SQL pomocí JDBC / ODBC.

datové rámce

datový rámec je distribuovaná sbírka dat uspořádaná do pojmenovaných sloupců. Datové rámce lze považovat za koncepčně ekvivalentní tabulce v relační databázi, ale s bohatšími optimalizacemi. Datové rámce mohou být vytvořeny ze zdrojů, jako jsou CSV, JSON, tabulky v úlu, externí databáze nebo existující RDD.

datové sady

Dataset je nové experimentální rozhraní přidané v Spark 1.6. Datové sady se snaží poskytnout výhody RDDs s výhodami optimalizovaného spouštěcího motoru Spark SQL.

Spark SQL s Scala Návody

Spark SQL s CSV a Scala
Spark SQL s JSON a Scala
Spark SQL mySQL JDBC pomocí Scala

Čtenáři, může být také zájem tutoriály, jako jsou Spark s Cassandrou návody nachází v Integraci sekci níže. Spark s Cassandrou pokrývá také aspekty Spark SQL.

Spark Streaming s Scala

Spark Streaming je Spark modul, který umožňuje zpracování proudu živých datových toků. Data mohou být přijímána z mnoha zdrojů, jako jsou Kinesis, Kafka, Twitter nebo TCP sockety včetně WebSockets. Data streamu mohou být zpracovávána pomocí funkcí na vysoké úrovni, jako je „mapa“ ` „připojit se“ nebo „snížit“` Poté mohou být zpracovaná data vytlačena z potrubí do souborových systémů, databází a dashboardů.

Spark MLLib algoritmy mohou být použity na datových proudů, jak je uvedeno v návodech níže.

Spark Streaming přijímá živé vstupní datové toky rozdělením dat do konfigurovatelných dávek.

Spark Streaming poskytuje abstrakci na vysoké úrovni zvanou diskretizovaný proud nebo zkráceně „DStream“. DStreams mohou být vytvořeny buď ze vstupních datových toků, nebo použitím operací na jiných Dstreamech. Interně je DStream reprezentován jako sekvence RDD.

Spark Streaming s Scala Návody

Spark Streaming Přehled
Spark Streaming Příklad Streaming z Slack
Spark Streaming s Kafka Tutorial
Jiskra Strukturované Streaming s Kafka včetně JSON, CSV, Avro, a Splývající Schématu Registru
Spark Streaming s Kinesis Příklad
Spark Streaming Testování

Jiskra Strojového Učení

MLlib je Jiskra strojového učení (ML) součástí knihovny. Cílem MLlib je usnadnit a rozšířit strojové učení. Skládá se z populárních učebních algoritmů a nástrojů, jako je klasifikace, regrese, shlukování, kolaborativní filtrování, redukce dimenzionality.

Spark MLlib je rozdělen do dvou balíčků:

spark.mllib, které obsahuje původní API postavené nad RDDs
jiskru.ml postaven přes datové části rámců používaných pro konstrukci ML potrubí

spark.ml je doporučený postup, protože Datovém rozhraní API je více univerzální a flexibilní.

Jiskra MLlib s Scala Návody

Jiskra MLlib s Streamování Dat od Takových památek, jak Výuka

Jiskra, Sledování Výkonu a Ladění

Jiskra Sledování Výkonu Metriky, Grafit a Grafana
Jiskra Monitorování Výkonnosti Nástroje – Seznam Možností
Jiskra Tutorial – Sledování Výkonu s Historií Server
Scala Jiskra Ladění v IntelliJ

Spark s Scala Integrace Návody

následující Scala Jiskra návody stavět na dříve probírané téma do více konkrétní případy užití,

Jiskra Amazon S3 Tutorial
Jiskra Nasadit na EC2 Clusteru Tutorial
Jiskra Cassandra od Takových památek, jak Výuka
Jiskra Scala v IntelliJ
Apache Spark Thrift Server s Cassandrou Tutorial
Apache Spark Šetrnost Zatížení Serveru, Testování Příkladu

Jiskra Operace

Následující Scala Jiskra návody se vztahují k provozní koncepty,

Jiskra Předložit Argumenty Příkazového Řádku v Scala
Jiskra FAIR Scheduler Příklad

Nejlepší Obrázek převzat z https://flic.kr/p/7zAZx7

Podělte se! Sdílet! Sdílet! Zpívejte to se mnou teď

Adam Faliq

Zapalovací Návody S Scala

Jiskra Návody s Scala

Apache Spark Essentials

Přehled

Návody

Spark clustery

Návody

Spark SQL s Scala

SQL

datové rámce

datové sady

Spark SQL s Scala Návody

Spark Streaming s Scala

Spark Streaming s Scala Návody

Jiskra Strojového Učení

Jiskra MLlib s Scala Návody

Jiskra, Sledování Výkonu a Ladění

Spark s Scala Integrace Návody

Jiskra Operace

Napsat komentář Zrušit odpověď na komentář

Jiskra Návody s Scala

Apache Spark Essentials

Přehled

Návody

Spark clustery

Návody

Spark SQL s Scala

SQL

datové rámce

datové sady

Spark SQL s Scala Návody

Spark Streaming s Scala

Spark Streaming s Scala Návody

Jiskra Strojového Učení

Jiskra MLlib s Scala Návody

Jiskra, Sledování Výkonu a Ladění

Spark s Scala Integrace Návody

Jiskra Operace

Related Posts

物理地質学

Fysisk Geologi

물리적 지질학

fysisk Geologi

Geología física

Géologie physique

Napsat komentář Zrušit odpověď na komentář