Spark Tutorials with Scala
Spark provides developers and engineers with a Scala API. Os tutoriais de Spark com Scala listados abaixo cobrem a API de Spark Scala dentro do núcleo de Spark, Clustering, Spark SQL, Streaming, aprendizagem de máquina MLLib e muito mais.
Você pode acessar os tutoriais em qualquer ordem que você escolher.os tutoriais assumem uma compreensão geral do Spark e do ecossistema Spark, independentemente da linguagem de programação como Scala. Se você é novo no Apache Spark, o caminho recomendado está começando de cima e fazendo o seu caminho para baixo.
Se você é novo tanto para Scala e Spark e quer se tornar produtivo rapidamente, confira meu Scala para curso de Spark.
novos tutoriais Spark são adicionados aqui muitas vezes, por isso certifique-se de verificar de volta frequentemente, marcar ou Inscrever-se para a nossa lista de notificações que envia atualizações a cada mês.
Apache Spark Essentials
Overview
To become productive and confiant with Spark, it is essential you are comfortable with the Spark concepts of Resilient Distributed Datasets (RDD), DataFrames, DataSets, Transformations, Actions. Nos tutoriais a seguir, os fundamentos da faísca são cobertos a partir de uma perspectiva Scala.o que é o Apache Spark?exemplos de transformação de faíscas em Scala exemplos de acção de faísca em Scala exemplos de acção de faísca em Scala SQL, Streaming e / ou aprendizagem de máquinas (MLlib) organizados abaixo.
Spark Clusters
Spark applications may run as independent sets of parallel processes distributed across numerous nodes of computers. Numerosos nós colaborando juntos é comumente conhecido como um”aglomerado”. Dependendo da sua versão de Spark, os processos distribuídos são coordenados por um SparkContext ou SparkSession. O SparkContext pode se conectar a vários tipos de gerentes de clusters, incluindo mesa, fio ou próprio gerente de clusters interno da Spark chamado “Standalone”. Uma vez conectado ao Gerenciador de clusters, Spark adquire executores em nós dentro do cluster.
tutoriais
os seguintes tutoriais de aglomeração de faíscas irão ensinar-lhe sobre capacidades de aglomerado de faíscas com exemplos de código fonte Scala.Cluster Part 1 Run Standalone Cluster Part 2 imply a Scala program to the Cluster Spark Cluster Deploy Troubleshooting
For more information on Spark Clusters, such as running and deploying on Amazon’s EC2, make sure to check the Integrations section at the bottom of this page.Spark SQL com Scala SQL é o componente Spark para processamento de dados estruturado. As interfaces Spark SQL fornecem Spark com uma visão tanto da estrutura dos dados como dos processos que estão sendo realizados. Existem várias maneiras de interagir com o Spark SQL, incluindo o SQL, a API DataFrames e a API de Datasets. Os desenvolvedores podem escolher entre as várias abordagens da API Spark.
SQL
Spark SQL queries may be written using either a basic SQL syntax or HiveQL. Spark SQL também pode ser usado para ler dados de instalações de Colmeias existentes. Ao executar SQL dentro de uma linguagem de programação como Python ou Scala, os resultados serão retornados como um DataFrame. Você também pode interagir com a interface SQL usando JDBC/ODBC.
DataFrames
um DataFrame é uma coleção distribuída de dados organizados em colunas nomeadas. DataFrames podem ser considerados conceitualmente equivalentes a uma tabela em um banco de dados relacional, mas com otimizações mais ricas. Os nomes de dados podem ser criados a partir de fontes como CSVs, JSON, tabelas em Colmeia, bases de dados externas ou RDDs existentes.um conjunto de dados é uma nova interface experimental adicionada ao Spark 1.6. Os conjuntos de dados tentam proporcionar os benefícios do RDDs com os benefícios do motor de execução otimizado da Spark SQL.
Spark SQL with Scala Tutorials
- Spark SQL with CSV and Scala
Spark SQL with JSON and ScalaSpark SQL mySQL JDBC using Scala
os leitores podem também estar interessados em prosseguir tutoriais, tais como Spark with Cassandra tutorials, localizados na secção de integração abaixo. Spark with Cassandra cobre aspectos de Spark SQL também.o streaming de faísca é o módulo de faísca que permite o processamento de fluxos de dados vivos. Dados podem ser ingeridos de muitas fontes como Kinesis, Kafka, Twitter ou sockets TCP, incluindo WebSockets. Os dados do fluxo podem ser processados com funções de alto nível, tais como “map”, “join” ou “reduce”. Em seguida, os dados processados podem ser empurrados para fora do pipeline para filesystems, bases de dados e painéis.os algoritmos MLlib de Spark podem ser usados em fluxos de dados, como mostrado em tutoriais abaixo.
Spark Streaming recebe fluxos de dados de entrada ao vivo dividindo os dados em lotes configuráveis.
Spark Streaming provides a high-level abstraction called discretized stream or “DStream” for short. DStreams pode ser criado a partir de fluxos de dados de entrada ou aplicando operações em outros DStreams. Internamente, um DStream é representado como uma sequência de RDDs.Spark Streaming Overview streaming Example Streaming from Slack Streaming Streaming from Kafka Tutorial Spark Streaming with Kafka tutorial Spark Streaming Structured Streaming with Kafka including JSON, CSV, Avro, and Confaming Schema Registry Spark Streaming with Kinesis Example a aprendizagem por faísca (Spark Machine Learning) é o componente da biblioteca de aprendizagem por máquina (ml) da Spark. O objetivo do MLlib é tornar a aprendizagem de máquinas mais fácil e mais amplamente disponível. Consiste em algoritmos de aprendizagem populares e utilitários como classificação, regressão, agrupamento, filtragem colaborativa, redução de dimensionalidade.a MLlib da faísca divide-se em duas embalagens:mllib que contém o original API construída sobre RDDs
faísca.ml é a abordagem recomendada porque o DataFrame API é mais versátil e flexível.
Faísca MLlib com Scala Tutoriais
- Faísca MLlib com a Transmissão de Dados a partir de Scala Tutorial
Faísca de Monitoramento de Desempenho e Depuração
- Faísca de Monitoramento de Desempenho com Métricas, Grafite e Grafana
- Faísca Ferramentas de Monitoramento de Desempenho – Uma Lista de Opções
- Faísca Tutorial – Acompanhamento do Desempenho com a História Servidor
- Scala Faísca de Depuração no IntelliJ
de Ignição com Scala Integração Tutoriais
O seguinte Scala Faísca tutoriais construir sobre o anteriormente abordados temas mais específicos casos de uso
- Faísca Amazon S3 Tutorial
- Faísca Implantar um EC2 Cluster Tutorial
- Faísca Cassandra de Scala Tutorial
- Faísca Scala no IntelliJ
- Apache Faísca Thrift Servidor com Cassandra Tutorial
- Apache Faísca Thrift Servidor de Testes de Carga Exemplo
Faísca Operações
O seguinte Scala Faísca tutoriais relacionados aos conceitos operacionais
- Faísca Apresentar Argumentos de Linha de Comando no Scala
- Faísca JUSTO Programador de Exemplo
Imagem de Destaque adaptado de https://flic.kr/p/7zAZx7
Compartilhe! Partilha! Partilha! Canta Comigo agora.