Spark Tutorials With Scala

Sparkは開発者とエンジニアにScala APIを提供します。以下にリストされているScalaを使用したSparkチュートリアルでは、Spark Core、クラスタリング、Spark SQL、ストリーミング、機械学習MLLibなどのScala Spark APIをカバーしています。

チュートリアルには、選択した順序でアクセスできます。

チュートリアルでは、Scalaなどのプログラミング言語に関係なく、SparkとSparkエコシステムの一般的な理解を前提としています。 Apache Sparkを初めて使用する場合、推奨されるパスは上から下に向かって下に向かっています。ScalaとSparkの両方に慣れていて、すぐに生産性を高めたい場合は、私のScala for Sparkコースをチェックしてください。

新しいSparkチュートリアルは頻繁にここに追加されますので、頻繁にチェックしたり、ブックマークしたり、毎月更新を送信する通知リストにサインア

Apache Spark Essentials

概要

Sparkの生産性と自信を高めるためには、Resilient Distributed Datasets(RDD)、DataFrames、DataSets、Transformations、ActionsというSparkの概念に慣れていることが不可欠です。以下のチュートリアルでは、Sparkの基本事項をScalaの観点から説明します。

チュートリアル

Apache Sparkとは何ですか？
ScalaのSpark Transformation Examples
ScalaのSpark Action Examples

これらの三つの基本的な概念とSpark APIの例を使用すると、以下のクラスタリング、SQL、ストリーミング、および/または機械学習（MLlib）

Spark Clusters

Sparkアプリケーションは、コンピュータの多数のノードに分散された並列プロセスの独立したセットとして実行できます。多数のノードが共同作業を行うことは、一般に「クラスター」として知られています。 Sparkのバージョンに応じて、分散プロセスはSparkContextまたはSparkSessionによって調整されます。 SparkContextは、Mesos、YARN、または”Standalone”と呼ばれるSpark独自の内部クラスターマネージャを含むいくつかのタイプのクラスターマネージャに接続できます。クラスターマネージャーに接続すると、Sparkはクラスター内のノード上のエグゼキューターを取得します。

チュートリアル

以下のSparkクラスタリングチュートリアルでは、Scalaのソースコード例を使用してSparkクラスター機能について教

Cluster Part1Run Standalone
Cluster Part2Scalaプログラムをクラスターにデプロイする
Spark Cluster Deploy Troubleshooting
アキュムレータとブロードキャスト変数

AmazonのEC2での実行やデプロイなど、Sparkクラスターの詳細については、このページの下部にある統合セクションを確認してください。Spark SQL with Scala spark SQLは、構造化データ処理のためのSparkコンポーネントです。 Spark SQLインターフェイスは、データの構造と実行されるプロセスの両方についての洞察をSparkに提供します。 Spark SQLと対話するには、SQL、DataFrames API、Datasets APIなど、複数の方法があります。開発者は、さまざまなSpark APIアプローチのいずれかを選択できます。Spark SQLクエリは、基本的なSQL構文またはHiveQLのいずれかを使用して記述できます。 Spark SQLは、既存のHiveインストールからデータを読み取るためにも使用できます。 PythonやScalaなどのプログラミング言語内からSQLを実行すると、結果はDataFrameとして返されます。 JDBC/ODBCを使用してSQLインタフェースと対話することもできます。

Dataframe

DataFrameは、名前付き列に編成されたデータの分散コレクションです。データフレームは、概念的にはリレーショナルデータベースのテーブルと同等であると考えることができますが、より豊富な最適化があります。データフレームは、Csv、JSON、Hive内のテーブル、外部データベース、または既存のRddなどのソースから作成できます。

Datasets

Datasetは、Spark1.6で追加された新しい実験的なインターフェイスです。データセットは、Spark SQLの最適化された実行エンジンの利点を備えたRDDsの利点を提供しようとします。

Scalaチュートリアルを使用したSpark SQL

CSVとScalaを使用したSpark SQL
JSONとScalaを使用したSpark SQL
Scalaを使用したspark SQL mySQL JDBC

読者は、以下の統合セクションにあるSpark with cassandraチュートリアルのようなチュートリアルを追求することに興味があるかもしれません。 Spark with Cassandraは、Spark SQLの側面もカバーしています。Spark Streamingは、ライブデータストリームのストリーム処理を可能にするSparkモジュールです。データは、Kinesis、Kafka、Twitter、Websocketを含むTCPソケットなどの多くのソースから取り込むことができます。ストリームデータは、`map’、’join’、または`reduce`のような高レベル関数で処理することができます。その後、処理されたデータをパイプラインからファイルシステム、データベース、およびダッシュボードにプッシュできます。

SparkのMLLibアルゴリズムは、以下のチュートリアルに示すように、データストリームで使用できます。

Spark Streamingは、データを構成可能なバッチに分割することによって、ライブ入力データストリームを受信します。Spark Streamingは、離散化されたストリームまたは略して”DStream”と呼ばれる高レベルの抽象化を提供します。 Dストリームは、入力データストリームから作成するか、他のDストリームに操作を適用することによって作成できます。内部的には、DStreamは一連のRddとして表されます。

Spark Streaming with Scalaチュートリアル

Spark Streaming概要
Spark StreamingサンプルSlackからのストリーミング
SPARK Streaming With KAFKAチュートリアル
JSON、CSV、Avro、およびConfluentスキーマレジストリを含むSPARK Structured Streaming With Kafka
Spark Streaming With Kinesisの例
Spark Streaming Testing

Spark Machine Learning

MLlibはsparkの機械学習（ml）ライブラリコンポーネントです。 MLlibの目標は、機械学習をより簡単に、より広く利用できるようにすることです。これは、分類、回帰、クラスタリング、協調フィルタリング、次元削減などの一般的な学習アルゴリズムとユーティリティで構成されています。SparkのMLlibは2つのパッケージに分かれています：

spark。RDDs上に構築された元のAPIを含むmllib
spark.ml MLパイプラインの構築に使用されるデータフレーム上に構築された

spark.ml DataFrame APIはより汎用性と柔軟性があるため、推奨されるアプローチです。

Spark MLlib With Scala Tutorials

Spark MLlib with Streaming Data from Scala Tutorial

Spark Performance Monitoring and Debugging

Spark Performance Monitoring with Metrics,Graphite and Grafana
Spark Performance Monitoring Tools–オプションのリスト
Spark Tutorial–History Server
Scala Spark Debugging in IntelliJ

spark with scala integration Tutorials

以下のscala sparkチュートリアルは、以前にカバーしたトピックに基づいて、より具体的なユースケースに基づいて構築されています

Spark Amazon S3Tutorial
SPARK EC2クラスターへのデプロイTutorial
ScalaからのSpark Cassandra Tutorial
IntelliJのSpark Scala
Apache Spark Thrift Server With Cassandra Tutorial
Apache Spark Thrift Server Load Testing Example

Spark Operations

以下のScala Sparkチュートリアルは、運用概念に関連しています

Spark SubmitコマンドScalaの行引数
spark fair schedulerの例

から適応注目の画像https://flic.kr/p/7zAZx7

共有！シェア！シェア！今私と一緒にそれを唱える

Adam Faliq

Spark Tutorials With Scala