- Spark Tutorials with Scala
- Apache Spark Essentials
- przegląd
- Poradniki
- klastry Spark
- samouczki
- Spark SQL ze Scala
- SQL
- ramki danych
- Datasets
- Spark SQL z samouczkami Scala
- Spark Streaming with Scala
- strumieniowanie Spark za pomocą samouczków Scala
- Spark Machine Learning /h3>
- Spark MLlib z samouczkami Scala
- monitorowanie i debugowanie wydajności Spark
- Spark with scala integration tutorials
- Spark Operations
Spark Tutorials with Scala
Spark zapewnia programistom i inżynierom API Scala. Samouczki Spark dla Scali wymienione poniżej obejmują Scala Spark API w rdzeniach Spark, Klastrowaniu, Spark SQL,streamingu, uczeniu maszynowym MLLib i innych.
możesz uzyskać dostęp do samouczków w dowolnej kolejności.
samouczki zakładają ogólne zrozumienie Spark i ekosystemu Spark niezależnie od języka programowania, takiego jak Scala. Jeśli dopiero zaczynasz korzystać z Apache Spark, zalecana ścieżka zaczyna się od góry i prowadzi w dół do dołu.
jeśli jesteś nowy w Scali i Spark i chcesz szybko stać się produktywny, sprawdź mój kurs Scala for Spark.
nowe samouczki Spark są tu często dodawane, więc pamiętaj, aby często sprawdzać, zakładać zakładki lub zapisywać się na naszą listę powiadomień, która wysyła aktualizacje co miesiąc.
Apache Spark Essentials
przegląd
aby stać się produktywnym i pewnym siebie z firmą Spark, ważne jest, abyś czuł się komfortowo z koncepcjami Spark dotyczącymi odpornych rozproszonych zestawów danych (RDD), RAM danych, zestawów danych, transformacji i działań. W poniższych samouczkach podstawy iskry są omówione z perspektywy Scali.
Poradniki
- czym jest Apache Spark?
- przykłady transformacji Spark w Scali
- przykłady akcji Spark w Scali
dzięki tym trzem podstawowym pojęciom i powyższym przykładom API Spark możesz lepiej przenieść jedną z poniższych sekcji dotyczących klastrowania, SQL, strumieniowania i / lub uczenia maszynowego (MLlib) zorganizowanych poniżej.
klastry Spark
aplikacje Spark mogą działać jako niezależne zestawy równoległych procesów rozproszonych w wielu węzłach komputerów. Liczne węzły współpracujące ze sobą są powszechnie znane jako „klaster”. W zależności od wersji Spark, procesy rozproszone są koordynowane przez sparkcontext lub SparkSession. SparkContext może łączyć się z kilkoma typami menedżerów klastrów, w tym Mesos, YARN lub własnym wewnętrznym menedżerem klastrów Spark o nazwie „Standalone”. Po połączeniu z menedżerem klastra Spark przejmuje wykonawców na węzłach w klastrze.
samouczki
poniższe samouczki dotyczące klastrowania Spark nauczą Cię o możliwościach klastra Spark z przykładami kodu źródłowego Scala.
- Klaster Część 1 Uruchamianie samodzielnego
- Klaster część 2 wdrażanie programu Scala w klastrze
- Klaster Spark wdrażanie rozwiązywania problemów
- Akumulatory i zmienne nadawcze
aby uzyskać więcej informacji na temat klastrów Spark, takich jak uruchamianie i wdrażanie w EC2 Amazon, sprawdź sekcję integracje na dole tej strony.
Spark SQL ze Scala
Spark SQL jest komponentem Spark do strukturalnego przetwarzania danych. Interfejsy Spark SQL zapewniają Spark wgląd zarówno w strukturę danych, jak i w wykonywane procesy. Istnieje wiele sposobów interakcji z Spark SQL, w tym SQL, API DataFrames i API zbiorów danych. Programiści mogą wybierać pomiędzy różnymi podejściami API Spark.
SQL
zapytania Spark SQL mogą być pisane przy użyciu podstawowej składni SQL lub HiveQL. Spark SQL może być również używany do odczytu danych z istniejących instalacji Hive. Podczas uruchamiania SQL z poziomu języka programowania, takiego jak Python lub Scala, wyniki będą zwracane jako ramka danych. Możesz również wchodzić w interakcje z interfejsem SQL za pomocą JDBC / ODBC.
ramki danych
ramka danych jest rozproszonym zbiorem danych zorganizowanym w nazwane kolumny. Ramki danych można uznać za koncepcyjnie równoważne z tabelą w relacyjnej bazie danych, ale z bogatszymi optymalizacjami. Ramki danych mogą być tworzone ze źródeł takich jak CSV, JSON, tabele w Hive, zewnętrzne bazy danych lub istniejące RDD.
Datasets
Dataset jest nowym eksperymentalnym interfejsem dodanym w Spark 1.6. Zbiory danych starają się zapewnić korzyści z RDD z korzyściami zoptymalizowanego silnika wykonawczego Spark SQL.
Spark SQL z samouczkami Scala
- Spark SQL z CSV i Scala
- Spark SQL z JSON i Scala
- Spark SQL mySQL JDBC z wykorzystaniem Scala
czytelnicy mogą również być zainteresowani realizacją samouczków, takich jak samouczki Spark z Cassandrą znajdujące się w sekcji Integracja poniżej. Spark with Cassandra obejmuje również aspekty Spark SQL.
Spark Streaming with Scala
Spark Streaming to moduł Spark, który umożliwia przetwarzanie strumieniowe strumieni danych na żywo. Dane mogą być pobierane z wielu źródeł, takich jak Kinesis, Kafka, Twitter lub gniazd TCP, w tym Websocketów. Dane strumienia mogą być przetwarzane za pomocą funkcji wysokiego poziomu, takich jak „map”, „join” lub „reduce”. Następnie przetworzone dane można wypchnąć z potoku do systemów plików, baz danych i pulpitów nawigacyjnych.
algorytmy MLLib Spark mogą być używane w strumieniach danych, jak pokazano w tutorialach poniżej.
Spark Streaming odbiera strumienie danych wejściowych na żywo, dzieląc dane na konfigurowalne partie.
Spark Streaming zapewnia abstrakcję wysokiego poziomu zwaną dyskretnym strumieniem lub w skrócie „DStream”. Strumienie dstream mogą być tworzone z wejściowych strumieni danych lub przez zastosowanie operacji na innych strumieniach Dstream. Wewnętrznie DStream jest reprezentowany jako sekwencja RDDs.
strumieniowanie Spark za pomocą samouczków Scala
- przegląd strumieniowania Spark
- przykład strumieniowania Spark strumieniowanie ze Slack
- strumieniowanie Spark za pomocą Kafki Tutorial
- strumieniowanie Spark za pomocą Kafki, w tym JSON, CSV, Avro i rejestru schematów Konfluent
- strumieniowanie Spark za pomocą przykładu Kinesis
- testowanie strumieniowania Spark
Spark Machine Learning /h3>
MLlib jest komponentem Biblioteki Spark Machine Learning (ml). Celem MLlib jest ułatwienie i upowszechnienie uczenia maszynowego. Składa się z popularnych algorytmów uczenia się i narzędzi, takich jak klasyfikacja, regresja, klastrowanie, filtrowanie oparte na współpracy, redukcja wymiarowości.
MLlib Spark jest podzielony na dwa pakiety:
- spark.mllib, który zawiera oryginalne API zbudowane na RDDs
- spark.ml wbudowane ramki danych wykorzystywane do budowy rurociągów ML
spark.ml jest zalecanym podejściem, ponieważ interfejs API DataFrame jest bardziej wszechstronny i elastyczny.
Spark MLlib z samouczkami Scala
- Spark MLlib ze strumieniowaniem danych z samouczka Scala
monitorowanie i debugowanie wydajności Spark
- monitorowanie wydajności Spark z Metrics, Graphite i Grafana
- narzędzia do monitorowania wydajności Spark – lista opcji
- Spark Tutorial – monitorowanie wydajności z serwerem historii
- Scala Spark debugowanie w IntelliJ
Spark with scala integration tutorials
następujące tutoriale Scala Spark opierają się na wcześniej omówionych tematach w bardziej konkretnych przypadkach użycia
- Spark Amazon S3 Tutorial
- Spark Deploy to an EC2 Cluster Tutorial
- Spark Cassandra from Scala Tutorial
- Spark Scala in IntelliJ
- Apache Spark Thrift Server with Cassandra Tutorial
- przykład testowania obciążenia serwera Apache Spark Thrift
Spark Operations
następujące samouczki Scala Spark są związane z koncepcjami operacyjnymi
- Spark Submit Command argumenty liniowe w Scali
- przykład programu Spark fair scheduler
wyróżniony Obraz zaadaptowany z https://flic.kr/p/7zAZx7
Udostępnij! Podziel się! Podziel się! Chant it with me now