Spark Tutorials With Scala

Spark zapewnia programistom i inżynierom API Scala. Samouczki Spark dla Scali wymienione poniżej obejmują Scala Spark API w rdzeniach Spark, Klastrowaniu, Spark SQL,streamingu, uczeniu maszynowym MLLib i innych.

możesz uzyskać dostęp do samouczków w dowolnej kolejności.

samouczki zakładają ogólne zrozumienie Spark i ekosystemu Spark niezależnie od języka programowania, takiego jak Scala. Jeśli dopiero zaczynasz korzystać z Apache Spark, zalecana ścieżka zaczyna się od góry i prowadzi w dół do dołu.

jeśli jesteś nowy w Scali i Spark i chcesz szybko stać się produktywny, sprawdź mój kurs Scala for Spark.

nowe samouczki Spark są tu często dodawane, więc pamiętaj, aby często sprawdzać, zakładać zakładki lub zapisywać się na naszą listę powiadomień, która wysyła aktualizacje co miesiąc.

Apache Spark Essentials

przegląd

aby stać się produktywnym i pewnym siebie z firmą Spark, ważne jest, abyś czuł się komfortowo z koncepcjami Spark dotyczącymi odpornych rozproszonych zestawów danych (RDD), RAM danych, zestawów danych, transformacji i działań. W poniższych samouczkach podstawy iskry są omówione z perspektywy Scali.

Poradniki

czym jest Apache Spark?
przykłady transformacji Spark w Scali
przykłady akcji Spark w Scali

dzięki tym trzem podstawowym pojęciom i powyższym przykładom API Spark możesz lepiej przenieść jedną z poniższych sekcji dotyczących klastrowania, SQL, strumieniowania i / lub uczenia maszynowego (MLlib) zorganizowanych poniżej.

klastry Spark

aplikacje Spark mogą działać jako niezależne zestawy równoległych procesów rozproszonych w wielu węzłach komputerów. Liczne węzły współpracujące ze sobą są powszechnie znane jako „klaster”. W zależności od wersji Spark, procesy rozproszone są koordynowane przez sparkcontext lub SparkSession. SparkContext może łączyć się z kilkoma typami menedżerów klastrów, w tym Mesos, YARN lub własnym wewnętrznym menedżerem klastrów Spark o nazwie „Standalone”. Po połączeniu z menedżerem klastra Spark przejmuje wykonawców na węzłach w klastrze.

samouczki

poniższe samouczki dotyczące klastrowania Spark nauczą Cię o możliwościach klastra Spark z przykładami kodu źródłowego Scala.

Klaster Część 1 Uruchamianie samodzielnego
Klaster część 2 wdrażanie programu Scala w klastrze
Klaster Spark wdrażanie rozwiązywania problemów
Akumulatory i zmienne nadawcze

aby uzyskać więcej informacji na temat klastrów Spark, takich jak uruchamianie i wdrażanie w EC2 Amazon, sprawdź sekcję integracje na dole tej strony.

Spark SQL ze Scala

Spark SQL jest komponentem Spark do strukturalnego przetwarzania danych. Interfejsy Spark SQL zapewniają Spark wgląd zarówno w strukturę danych, jak i w wykonywane procesy. Istnieje wiele sposobów interakcji z Spark SQL, w tym SQL, API DataFrames i API zbiorów danych. Programiści mogą wybierać pomiędzy różnymi podejściami API Spark.

SQL

zapytania Spark SQL mogą być pisane przy użyciu podstawowej składni SQL lub HiveQL. Spark SQL może być również używany do odczytu danych z istniejących instalacji Hive. Podczas uruchamiania SQL z poziomu języka programowania, takiego jak Python lub Scala, wyniki będą zwracane jako ramka danych. Możesz również wchodzić w interakcje z interfejsem SQL za pomocą JDBC / ODBC.

ramki danych

ramka danych jest rozproszonym zbiorem danych zorganizowanym w nazwane kolumny. Ramki danych można uznać za koncepcyjnie równoważne z tabelą w relacyjnej bazie danych, ale z bogatszymi optymalizacjami. Ramki danych mogą być tworzone ze źródeł takich jak CSV, JSON, tabele w Hive, zewnętrzne bazy danych lub istniejące RDD.

Datasets

Dataset jest nowym eksperymentalnym interfejsem dodanym w Spark 1.6. Zbiory danych starają się zapewnić korzyści z RDD z korzyściami zoptymalizowanego silnika wykonawczego Spark SQL.

Spark SQL z samouczkami Scala

Spark SQL z CSV i Scala
Spark SQL z JSON i Scala
Spark SQL mySQL JDBC z wykorzystaniem Scala

czytelnicy mogą również być zainteresowani realizacją samouczków, takich jak samouczki Spark z Cassandrą znajdujące się w sekcji Integracja poniżej. Spark with Cassandra obejmuje również aspekty Spark SQL.

Spark Streaming with Scala

Spark Streaming to moduł Spark, który umożliwia przetwarzanie strumieniowe strumieni danych na żywo. Dane mogą być pobierane z wielu źródeł, takich jak Kinesis, Kafka, Twitter lub gniazd TCP, w tym Websocketów. Dane strumienia mogą być przetwarzane za pomocą funkcji wysokiego poziomu, takich jak „map”, „join” lub „reduce”. Następnie przetworzone dane można wypchnąć z potoku do systemów plików, baz danych i pulpitów nawigacyjnych.

algorytmy MLLib Spark mogą być używane w strumieniach danych, jak pokazano w tutorialach poniżej.

Spark Streaming odbiera strumienie danych wejściowych na żywo, dzieląc dane na konfigurowalne partie.

Spark Streaming zapewnia abstrakcję wysokiego poziomu zwaną dyskretnym strumieniem lub w skrócie „DStream”. Strumienie dstream mogą być tworzone z wejściowych strumieni danych lub przez zastosowanie operacji na innych strumieniach Dstream. Wewnętrznie DStream jest reprezentowany jako sekwencja RDDs.

strumieniowanie Spark za pomocą samouczków Scala

przegląd strumieniowania Spark
przykład strumieniowania Spark strumieniowanie ze Slack
strumieniowanie Spark za pomocą Kafki Tutorial
strumieniowanie Spark za pomocą Kafki, w tym JSON, CSV, Avro i rejestru schematów Konfluent
strumieniowanie Spark za pomocą przykładu Kinesis
testowanie strumieniowania Spark

Spark Machine Learning /h3>

MLlib jest komponentem Biblioteki Spark Machine Learning (ml). Celem MLlib jest ułatwienie i upowszechnienie uczenia maszynowego. Składa się z popularnych algorytmów uczenia się i narzędzi, takich jak klasyfikacja, regresja, klastrowanie, filtrowanie oparte na współpracy, redukcja wymiarowości.

MLlib Spark jest podzielony na dwa pakiety:

spark.mllib, który zawiera oryginalne API zbudowane na RDDs
spark.ml wbudowane ramki danych wykorzystywane do budowy rurociągów ML

spark.ml jest zalecanym podejściem, ponieważ interfejs API DataFrame jest bardziej wszechstronny i elastyczny.

Spark MLlib z samouczkami Scala

Spark MLlib ze strumieniowaniem danych z samouczka Scala

monitorowanie i debugowanie wydajności Spark

monitorowanie wydajności Spark z Metrics, Graphite i Grafana
narzędzia do monitorowania wydajności Spark – lista opcji
Spark Tutorial – monitorowanie wydajności z serwerem historii
Scala Spark debugowanie w IntelliJ

Spark with scala integration tutorials

następujące tutoriale Scala Spark opierają się na wcześniej omówionych tematach w bardziej konkretnych przypadkach użycia

Spark Amazon S3 Tutorial
Spark Deploy to an EC2 Cluster Tutorial
Spark Cassandra from Scala Tutorial
Spark Scala in IntelliJ
Apache Spark Thrift Server with Cassandra Tutorial
przykład testowania obciążenia serwera Apache Spark Thrift

Spark Operations

następujące samouczki Scala Spark są związane z koncepcjami operacyjnymi

Spark Submit Command argumenty liniowe w Scali
przykład programu Spark fair scheduler

wyróżniony Obraz zaadaptowany z https://flic.kr/p/7zAZx7

Udostępnij! Podziel się! Podziel się! Chant it with me now

Adam Faliq

Spark Tutorials With Scala