Spark Tutorials With Scala

Spark Tutorials with Scala

Spark Tutorials with Scala

Sparkは開発者とエンジニアにScala APIを提供します。 以下にリストされているScalaを使用したSparkチュートリアルでは、Spark Core、クラスタリング、Spark SQL、ストリーミング、機械学習MLLibなどのScala Spark APIをカバーしています。

チュートリアルには、選択した順序でアクセスできます。

チュートリアルでは、Scalaなどのプログラミング言語に関係なく、SparkとSparkエコシステムの一般的な理解を前提としています。 Apache Sparkを初めて使用する場合、推奨されるパスは上から下に向かって下に向かっています。ScalaとSparkの両方に慣れていて、すぐに生産性を高めたい場合は、私のScala for Sparkコースをチェックしてください。

新しいSparkチュートリアルは頻繁にここに追加されますので、頻繁にチェックしたり、ブックマークしたり、毎月更新を送信する通知リストにサインア

Apache Spark Essentials

概要

Sparkの生産性と自信を高めるためには、Resilient Distributed Datasets(RDD)、DataFrames、DataSets、Transformations、ActionsというSparkの概念に慣れていることが不可欠です。 以下のチュートリアルでは、Sparkの基本事項をScalaの観点から説明します。

チュートリアル

  • Apache Sparkとは何ですか?
  • ScalaのSpark Transformation Examples
  • ScalaのSpark Action Examples

これらの三つの基本的な概念とSpark APIの例を使用すると、以下のクラスタリング、SQL、ストリーミング、および/または機械学習(MLlib)

Spark Clusters

Sparkアプリケーションは、コンピュータの多数のノードに分散された並列プロセスの独立したセットとして実行できます。 多数のノードが共同作業を行うことは、一般に「クラスター」として知られています。 Sparkのバージョンに応じて、分散プロセスはSparkContextまたはSparkSessionによって調整されます。 SparkContextは、Mesos、YARN、または”Standalone”と呼ばれるSpark独自の内部クラスターマネージャを含むいくつかのタイプのクラスターマネージャに接続できます。 クラスターマネージャーに接続すると、Sparkはクラスター内のノード上のエグゼキューターを取得します。

チュートリアル

以下のSparkクラスタリングチュートリアルでは、Scalaのソースコード例を使用してSparkクラスター機能について教

  • Cluster Part1Run Standalone
  • Cluster Part2Scalaプログラムをクラスターにデプロイする
  • Spark Cluster Deploy Troubleshooting
  • アキュムレータとブロードキャスト変数

AmazonのEC2での実行やデプロイなど、Sparkクラスターの詳細については、このページの下部にある統合セクションを確認してください。Spark SQL with Scala spark SQLは、構造化データ処理のためのSparkコンポーネントです。 Spark SQLインターフェイスは、データの構造と実行されるプロセスの両方についての洞察をSparkに提供します。 Spark SQLと対話するには、SQL、DataFrames API、Datasets APIなど、複数の方法があります。 開発者は、さまざまなSpark APIアプローチのいずれかを選択できます。Spark SQLクエリは、基本的なSQL構文またはHiveQLのいずれかを使用して記述できます。 Spark SQLは、既存のHiveインストールからデータを読み取るためにも使用できます。 PythonやScalaなどのプログラミング言語内からSQLを実行すると、結果はDataFrameとして返されます。 JDBC/ODBCを使用してSQLインタフェースと対話することもできます。

Dataframe

DataFrameは、名前付き列に編成されたデータの分散コレクションです。 データフレームは、概念的にはリレーショナルデータベースのテーブルと同等であると考えることができますが、より豊富な最適化があります。 データフレームは、Csv、JSON、Hive内のテーブル、外部データベース、または既存のRddなどのソースから作成できます。

Datasets

Datasetは、Spark1.6で追加された新しい実験的なインターフェイスです。 データセットは、Spark SQLの最適化された実行エンジンの利点を備えたRDDsの利点を提供しようとします。

Scalaチュートリアルを使用したSpark SQL

  • CSVとScalaを使用したSpark SQL
  • JSONとScalaを使用したSpark SQL
  • Scalaを使用したspark SQL mySQL JDBC

読者は、以下の統合セクションにあるSpark with cassandraチュートリアルのようなチュートリアルを追求することに興味があるかもしれません。 Spark with Cassandraは、Spark SQLの側面もカバーしています。Spark Streamingは、ライブデータストリームのストリーム処理を可能にするSparkモジュールです。 データは、Kinesis、Kafka、Twitter、Websocketを含むTCPソケットなどの多くのソースから取り込むことができます。 ストリームデータは、`map’、’join’、または`reduce`のような高レベル関数で処理することができます。 その後、処理されたデータをパイプラインからファイルシステム、データベース、およびダッシュボードにプッシュできます。

SparkのMLLibアルゴリズムは、以下のチュートリアルに示すように、データストリームで使用できます。

Spark Streamingは、データを構成可能なバッチに分割することによって、ライブ入力データストリームを受信します。Spark Streamingは、離散化されたストリームまたは略して”DStream”と呼ばれる高レベルの抽象化を提供します。 Dストリームは、入力データストリームから作成するか、他のDストリームに操作を適用することによって作成できます。 内部的には、DStreamは一連のRddとして表されます。

Spark Streaming with Scalaチュートリアル

  • Spark Streaming概要
  • Spark StreamingサンプルSlackからのストリーミング
  • SPARK Streaming With KAFKAチュートリアル
  • JSON、CSV、Avro、およびConfluentスキーマレジストリを含むSPARK Structured Streaming With Kafka
  • Spark Streaming With Kinesisの例
  • Spark Streaming Testing

Spark Machine Learning

MLlibはsparkの機械学習(ml)ライブラリコンポーネントです。 MLlibの目標は、機械学習をより簡単に、より広く利用できるようにすることです。 これは、分類、回帰、クラスタリング、協調フィルタリング、次元削減などの一般的な学習アルゴリズムとユーティリティで構成されています。SparkのMLlibは2つのパッケージに分かれています:

  1. spark。RDDs上に構築された元のAPIを含むmllib
  2. spark.ml MLパイプラインの構築に使用されるデータフレーム上に構築された

spark.ml DataFrame APIはより汎用性と柔軟性があるため、推奨されるアプローチです。

Spark MLlib With Scala Tutorials

  • Spark MLlib with Streaming Data from Scala Tutorial

Spark Performance Monitoring and Debugging

  • Spark Performance Monitoring with Metrics,Graphite and Grafana
  • Spark Performance Monitoring Tools–オプションのリスト
  • Spark Tutorial–History Server
  • Scala Spark Debugging in IntelliJ

spark with scala integration Tutorials

以下のscala sparkチュートリアルは、以前にカバーしたトピックに基づいて、より具体的なユースケースに基づいて構築されています

  • Spark Amazon S3Tutorial
  • SPARK EC2クラスターへのデプロイTutorial
  • ScalaからのSpark Cassandra Tutorial
  • IntelliJのSpark Scala
  • Apache Spark Thrift Server With Cassandra Tutorial
  • Apache Spark Thrift Server Load Testing Example

Spark Operations

以下のScala Sparkチュートリアルは、運用概念に関連しています

  • Spark SubmitコマンドScalaの行引数
  • spark fair schedulerの例

から適応注目の画像https://flic.kr/p/7zAZx7

共有! シェア! シェア! 今私と一緒にそれを唱える

Related Posts

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です