Spark Tutorials With Scala

Spark provides developers and engineers with a Scala API. Os tutoriais de Spark com Scala listados abaixo cobrem a API de Spark Scala dentro do núcleo de Spark, Clustering, Spark SQL, Streaming, aprendizagem de máquina MLLib e muito mais.

Você pode acessar os tutoriais em qualquer ordem que você escolher.os tutoriais assumem uma compreensão geral do Spark e do ecossistema Spark, independentemente da linguagem de programação como Scala. Se você é novo no Apache Spark, o caminho recomendado está começando de cima e fazendo o seu caminho para baixo.

Se você é novo tanto para Scala e Spark e quer se tornar produtivo rapidamente, confira meu Scala para curso de Spark.

novos tutoriais Spark são adicionados aqui muitas vezes, por isso certifique-se de verificar de volta frequentemente, marcar ou Inscrever-se para a nossa lista de notificações que envia atualizações a cada mês.

Apache Spark Essentials

Overview

To become productive and confiant with Spark, it is essential you are comfortable with the Spark concepts of Resilient Distributed Datasets (RDD), DataFrames, DataSets, Transformations, Actions. Nos tutoriais a seguir, os fundamentos da faísca são cobertos a partir de uma perspectiva Scala.o que é o Apache Spark?exemplos de transformação de faíscas em Scala exemplos de acção de faísca em Scala exemplos de acção de faísca em Scala SQL, Streaming e / ou aprendizagem de máquinas (MLlib) organizados abaixo.

Spark Clusters

Spark applications may run as independent sets of parallel processes distributed across numerous nodes of computers. Numerosos nós colaborando juntos é comumente conhecido como um”aglomerado”. Dependendo da sua versão de Spark, os processos distribuídos são coordenados por um SparkContext ou SparkSession. O SparkContext pode se conectar a vários tipos de gerentes de clusters, incluindo mesa, fio ou próprio gerente de clusters interno da Spark chamado “Standalone”. Uma vez conectado ao Gerenciador de clusters, Spark adquire executores em nós dentro do cluster.

tutoriais

os seguintes tutoriais de aglomeração de faíscas irão ensinar-lhe sobre capacidades de aglomerado de faíscas com exemplos de código fonte Scala.Cluster Part 1 Run Standalone Cluster Part 2 imply a Scala program to the Cluster Spark Cluster Deploy Troubleshooting

Acumuladores and Broadcast variables

For more information on Spark Clusters, such as running and deploying on Amazon’s EC2, make sure to check the Integrations section at the bottom of this page.Spark SQL com Scala SQL é o componente Spark para processamento de dados estruturado. As interfaces Spark SQL fornecem Spark com uma visão tanto da estrutura dos dados como dos processos que estão sendo realizados. Existem várias maneiras de interagir com o Spark SQL, incluindo o SQL, a API DataFrames e a API de Datasets. Os desenvolvedores podem escolher entre as várias abordagens da API Spark.

SQL

Spark SQL queries may be written using either a basic SQL syntax or HiveQL. Spark SQL também pode ser usado para ler dados de instalações de Colmeias existentes. Ao executar SQL dentro de uma linguagem de programação como Python ou Scala, os resultados serão retornados como um DataFrame. Você também pode interagir com a interface SQL usando JDBC/ODBC.

DataFrames

um DataFrame é uma coleção distribuída de dados organizados em colunas nomeadas. DataFrames podem ser considerados conceitualmente equivalentes a uma tabela em um banco de dados relacional, mas com otimizações mais ricas. Os nomes de dados podem ser criados a partir de fontes como CSVs, JSON, tabelas em Colmeia, bases de dados externas ou RDDs existentes.um conjunto de dados é uma nova interface experimental adicionada ao Spark 1.6. Os conjuntos de dados tentam proporcionar os benefícios do RDDs com os benefícios do motor de execução otimizado da Spark SQL.

Spark SQL with Scala Tutorials

Spark SQL with CSV and Scala

Spark SQL with JSON and ScalaSpark SQL mySQL JDBC using Scala

os leitores podem também estar interessados em prosseguir tutoriais, tais como Spark with Cassandra tutorials, localizados na secção de integração abaixo. Spark with Cassandra cobre aspectos de Spark SQL também.o streaming de faísca é o módulo de faísca que permite o processamento de fluxos de dados vivos. Dados podem ser ingeridos de muitas fontes como Kinesis, Kafka, Twitter ou sockets TCP, incluindo WebSockets. Os dados do fluxo podem ser processados com funções de alto nível, tais como “map”, “join” ou “reduce”. Em seguida, os dados processados podem ser empurrados para fora do pipeline para filesystems, bases de dados e painéis.os algoritmos MLlib de Spark podem ser usados em fluxos de dados, como mostrado em tutoriais abaixo.

Spark Streaming recebe fluxos de dados de entrada ao vivo dividindo os dados em lotes configuráveis.

Spark Streaming provides a high-level abstraction called discretized stream or “DStream” for short. DStreams pode ser criado a partir de fluxos de dados de entrada ou aplicando operações em outros DStreams. Internamente, um DStream é representado como uma sequência de RDDs.Spark Streaming Overview streaming Example Streaming from Slack Streaming Streaming from Kafka Tutorial Spark Streaming with Kafka tutorial Spark Streaming Structured Streaming with Kafka including JSON, CSV, Avro, and Confaming Schema Registry Spark Streaming with Kinesis Example a aprendizagem por faísca (Spark Machine Learning) é o componente da biblioteca de aprendizagem por máquina (ml) da Spark. O objetivo do MLlib é tornar a aprendizagem de máquinas mais fácil e mais amplamente disponível. Consiste em algoritmos de aprendizagem populares e utilitários como classificação, regressão, agrupamento, filtragem colaborativa, redução de dimensionalidade.a MLlib da faísca divide-se em duas embalagens:mllib que contém o original API construída sobre RDDs

faísca.ml construído ao longo de DataFrames utilizado para a construção ML dutos

faísca.ml é a abordagem recomendada porque o DataFrame API é mais versátil e flexível.

Faísca MLlib com Scala Tutoriais

Faísca MLlib com a Transmissão de Dados a partir de Scala Tutorial

Faísca de Monitoramento de Desempenho e Depuração

Faísca de Monitoramento de Desempenho com Métricas, Grafite e Grafana
Faísca Ferramentas de Monitoramento de Desempenho – Uma Lista de Opções
Faísca Tutorial – Acompanhamento do Desempenho com a História Servidor
Scala Faísca de Depuração no IntelliJ

de Ignição com Scala Integração Tutoriais

O seguinte Scala Faísca tutoriais construir sobre o anteriormente abordados temas mais específicos casos de uso

Faísca Amazon S3 Tutorial
Faísca Implantar um EC2 Cluster Tutorial
Faísca Cassandra de Scala Tutorial
Faísca Scala no IntelliJ
Apache Faísca Thrift Servidor com Cassandra Tutorial
Apache Faísca Thrift Servidor de Testes de Carga Exemplo

Faísca Operações

O seguinte Scala Faísca tutoriais relacionados aos conceitos operacionais

Faísca Apresentar Argumentos de Linha de Comando no Scala
Faísca JUSTO Programador de Exemplo

Imagem de Destaque adaptado de https://flic.kr/p/7zAZx7

Compartilhe! Partilha! Partilha! Canta Comigo agora.

Adam Faliq

Spark Tutorials With Scala