Tutorial Spark con Scala

Tutorial Spark con Scala

Tutorial Spark con Scala

Spark fornisce a sviluppatori e ingegneri un’API Scala. I tutorial Spark con Scala elencati di seguito coprono l’API Scala Spark all’interno di Spark Core, Clustering, Spark SQL, Streaming, Machine Learning MLLib e altro ancora.

Puoi accedere ai tutorial in qualsiasi ordine tu scelga.

I tutorial presuppongono una comprensione generale di Spark e dell’ecosistema Spark indipendentemente dal linguaggio di programmazione come Scala. Se sei nuovo di Apache Spark, il percorso consigliato inizia dall’alto e scende verso il basso.

Se sei nuovo di Scala e Spark e vuoi diventare produttivo rapidamente, controlla il mio corso Scala for Spark.

Nuovi tutorial Spark vengono aggiunti qui spesso, quindi assicuratevi di controllare spesso, segnalibro o registrarsi per la nostra lista di notifica che invia aggiornamenti ogni mese.

Apache Spark Essentials

Panoramica

Per diventare produttivi e sicuri con Spark, è essenziale che tu abbia dimestichezza con i concetti Spark di Resilient Distributed Dataset (RDD), dataframe, Dataset, Trasformazioni, azioni. Nei seguenti tutorial, i fondamenti Spark sono trattati da una prospettiva Scala.

Tutorial

  • Che cos’è Apache Spark?
  • Esempi di trasformazione Spark in Scala
  • Esempi di azione Spark in Scala

Con questi tre concetti fondamentali e gli esempi di API Spark sopra, sei in una posizione migliore per spostare una delle seguenti sezioni su clustering, SQL, Streaming e/o machine learning (MLlib) organizzati di seguito.

Cluster Spark

Le applicazioni Spark possono essere eseguite come insiemi indipendenti di processi paralleli distribuiti su numerosi nodi di computer. Numerosi nodi che collaborano insieme è comunemente noto come un”cluster”. A seconda della versione di Spark, i processi distribuiti sono coordinati da SparkContext o SparkSession. SparkContext può connettersi a diversi tipi di gestori di cluster, tra cui Mesos, YARN o il gestore di cluster interno di Spark chiamato “Standalone”. Una volta connesso al gestore cluster, Spark acquisisce gli esecutori sui nodi all’interno del cluster.

Tutorial

I seguenti tutorial sul clustering Spark ti insegneranno le funzionalità del cluster Spark con esempi di codice sorgente Scala.

  • Cluster Parte 1 Esegui standalone
  • Cluster Parte 2 Distribuisci un programma Scala nel Cluster
  • Spark Cluster Deploy Risoluzione dei problemi
  • Accumulatori e variabili Broadcast

Per ulteriori informazioni sui Cluster Spark, come l’esecuzione e la distribuzione su EC2 di Amazon, assicurati di controllare la sezione Integrazioni in fondo a questa pagina.

Spark SQL con Scala

Spark SQL è il componente Spark per l’elaborazione dei dati strutturati. Le interfacce SQL Spark forniscono a Spark una panoramica sia della struttura dei dati che dei processi eseguiti. Esistono diversi modi per interagire con Spark SQL, tra cui SQL, l’API DataFrames e l’API Dataset. Gli sviluppatori possono scegliere tra i vari approcci API Spark.

SQL

Le query SQL Spark possono essere scritte utilizzando una sintassi SQL di base o HiveQL. Spark SQL può anche essere utilizzato per leggere i dati da installazioni Hive esistenti. Quando si esegue SQL da un linguaggio di programmazione come Python o Scala, i risultati verranno restituiti come DataFrame. È inoltre possibile interagire con l’interfaccia SQL utilizzando JDBC/ODBC.

Dataframe

Un DataFrame è una raccolta distribuita di dati organizzati in colonne denominate. I dataframe possono essere considerati concettualmente equivalenti a una tabella in un database relazionale, ma con ottimizzazioni più ricche. I dataframe possono essere creati da fonti come CSV, JSON, tabelle in Hive, database esterni o RDD esistenti.

Dataset

Un Dataset è una nuova interfaccia sperimentale aggiunta in Spark 1.6. I set di dati cercano di fornire i vantaggi degli RDD con i vantaggi del motore di esecuzione ottimizzato di Spark SQL.

Spark SQL con tutorial Scala

  • Spark SQL con CSV e Scala
  • Spark SQL con JSON e Scala
  • Spark SQL MySQL JDBC utilizzando Scala

I lettori potrebbero anche essere interessati a perseguire tutorial come Spark con tutorial Cassandra situati nella sezione Integrazione di seguito. Spark con Cassandra copre anche aspetti di Spark SQL.

Spark Streaming con Scala

Spark Streaming è il modulo Spark che consente l’elaborazione in streaming di flussi di dati in tempo reale. I dati possono essere ingeriti da molte fonti come Kinesis, Kafka, Twitter o socket TCP, inclusi i WebSocket. I dati del flusso possono essere elaborati con funzioni di alto livello come “mappa”, “join” o “reduce”. Quindi, i dati elaborati possono essere spinti fuori dalla pipeline a filesystem, database e dashboard.

Gli algoritmi MLLib di Spark possono essere utilizzati su flussi di dati come mostrato nelle esercitazioni di seguito.

Spark Streaming riceve flussi di dati di input in tempo reale dividendo i dati in batch configurabili.

Spark Streaming fornisce un’astrazione di alto livello chiamata flusso discretizzato o “DStream” in breve. I DSTREAM possono essere creati da flussi di dati di input o applicando operazioni su altri DSTREAM. Internamente, un DStream è rappresentato come una sequenza di RDD.

Scintilla in Streaming con Scala Tutorial

  • Scintilla Streaming Panoramica
  • Scintilla Esempio Streaming Streaming dal margine di flessibilità
  • Scintilla, Streaming di Kafka Tutorial
  • Scintilla Strutturato in Streaming con Kafka tra cui JSON, CSV, Avro, e Confluenti Schema del Registro di sistema
  • Scintilla in Streaming con Kinesis Esempio
  • Scintilla Streaming di Test

Scintilla di Machine Learning

MLlib è Scintilla del machine learning (ML) componente di libreria. L’obiettivo di MLlib è quello di rendere l’apprendimento automatico più facile e più ampiamente disponibile. Consiste di algoritmi di apprendimento popolari e utilità come classificazione, regressione, clustering, filtraggio collaborativo, riduzione della dimensionalità.

Il MLlib di Spark è diviso in due pacchetti:

  1. spark.mllib che contiene l’API originale costruita su RDDs
  2. spark.ml costruito su dataframe utilizzati per la costruzione di pipeline ML

spark.ml è l’approccio consigliato perché l’API DataFrame è più versatile e flessibile.

Scintilla MLlib con Scala Tutorial

  • Scintilla MLlib con lo Streaming dei Dati da Scala Tutorial

Scintilla di Monitoraggio delle Prestazioni e di Debug

  • Scintilla di Monitoraggio delle Prestazioni con la Metrica, Grafite e Grafana
  • Scintilla Prestazioni Strumenti di Monitoraggio – Un Elenco di Opzioni
  • Scintilla Tutorial – il Monitoraggio delle Prestazioni con la Storia del Server
  • Scala Scintilla di Debug in IntelliJ

Scintilla con Scala di Integrazione Tutorial

La seguente Scala Scintilla tutorial costruire sugli argomenti trattati in precedenza in più specifici casi d’uso

  • Spark Amazon S3 Tutorial
  • Scintilla la Distribuzione a un EC2 Cluster Tutorial
  • Scintilla Cassandra da Scala Tutorial
  • Scintilla Scala di IntelliJ
  • Apache Scintilla Parsimonia Server con Cassandra Tutorial
  • Apache Scintilla Parsimonia Server di Test di Carico di Esempio

Scintilla Operazioni

La seguente Scala Scintilla tutorial sono legati a concetti operativi

  • Scintilla Presentare Argomenti della Riga di Comando in Scala
  • Scintilla FAIR Scheduler Esempio

primo piano Immagine adattata da https://flic.kr/p/7zAZx7

Condividi! Condividi! Condividi! Cantalo con me ora

Related Posts

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *