Tutoriales de Spark con Scala

Tutorial de Spark con Scala

Tutoriales de Spark con Scala

Spark proporciona a desarrolladores e ingenieros una API de Scala. Los tutoriales de Spark con Scala que se enumeran a continuación cubren la API de Scala Spark dentro de Spark Core, Clustering, Spark SQL, Streaming, MLlib de Aprendizaje automático y más.

Puede acceder a los tutoriales en el orden que elija.

Los tutoriales asumen una comprensión general de Spark y el ecosistema de Spark independientemente del lenguaje de programación, como Scala. Si es nuevo en Apache Spark, el camino recomendado es comenzar desde arriba y abrirse camino hacia abajo.

Si eres nuevo en Scala y Spark y quieres ser productivo rápidamente, echa un vistazo a mi curso de Scala for Spark.

Aquí se añaden a menudo nuevos tutoriales de Spark, así que asegúrate de volver a consultarlos con frecuencia, marcar como favorito o registrarte en nuestra lista de notificaciones, que envía actualizaciones cada mes.

Apache Spark Essentials

Descripción general

Para ser productivo y seguro con Spark, es esencial que se sienta cómodo con los conceptos de Spark de Conjuntos de datos Distribuidos Resilientes (RDD), Marcos de datos, Conjuntos de datos, Transformaciones y Acciones. En los siguientes tutoriales, los fundamentos de Spark se cubren desde la perspectiva de Scala.

Tutoriales

  • ¿Qué es Apache Spark?
  • Ejemplos de transformación de Spark en Scala
  • Ejemplos de Acción de Spark en Scala

Con estos tres conceptos fundamentales y los ejemplos de API de Spark anteriores, está en una mejor posición para mover cualquiera de las siguientes secciones sobre agrupación en clústeres, SQL, Transmisión y / o aprendizaje automático (MLlib) organizados a continuación.

Clústeres de Spark

Las aplicaciones de Spark pueden ejecutarse como conjuntos independientes de procesos paralelos distribuidos en numerosos nodos de ordenadores. Numerosos nodos que colaboran entre sí se conocen comúnmente como «cluster». Dependiendo de la versión de Spark, los procesos distribuidos se coordinan mediante un SparkContext o SparkSession. SparkContext se puede conectar a varios tipos de administradores de clúster, incluidos Mesos, YARN o el administrador de clúster interno de Spark llamado «Independiente». Una vez conectado al administrador de clústeres, Spark adquiere ejecutores en los nodos del clúster.

Tutoriales

Los siguientes tutoriales de clústeres de Spark le enseñarán las capacidades de clústeres de Spark con ejemplos de código fuente de Scala.

  • Clúster Parte 1 Ejecutar independiente
  • Clúster Parte 2 Implementar un programa Scala en el clúster
  • Solución de problemas de implementación de clúster de Spark
  • Acumuladores y variables de difusión

Para obtener más información sobre los clústeres de Spark, como la ejecución y la implementación en EC2 de Amazon, asegúrese de consultar la sección Integraciones en la parte inferior de esta página.

Spark SQL con Scala

Spark SQL es el componente Spark para el procesamiento de datos estructurados. Las interfaces SQL de Spark proporcionan a Spark una visión tanto de la estructura de los datos como de los procesos que se están realizando. Hay varias formas de interactuar con Spark SQL, como SQL, la API de DataFrames y la API de Conjuntos de datos. Los desarrolladores pueden elegir entre los distintos enfoques de API de Spark.

SQL

Las consultas SQL de Spark se pueden escribir utilizando una sintaxis SQL básica o HiveQL. Spark SQL también se puede usar para leer datos de instalaciones de colmena existentes. Al ejecutar SQL desde un lenguaje de programación como Python o Scala, los resultados se devolverán como un DataFrame. También puede interactuar con la interfaz SQL mediante JDBC / ODBC.

DataFrames

Un DataFrame es una colección distribuida de datos organizada en columnas con nombre. Los dataframes se pueden considerar conceptualmente equivalentes a una tabla en una base de datos relacional, pero con optimizaciones más ricas. Los marcos de datos se pueden crear a partir de fuentes como CSV, JSON, tablas en colmena, bases de datos externas o RDD existentes.

Conjuntos de datos

Un conjunto de datos es una nueva interfaz experimental añadida en Spark 1.6. Los conjuntos de datos intentan proporcionar los beneficios de los RDD con los beneficios del motor de ejecución optimizado de Spark SQL.

Tutoriales de Spark SQL con Scala

  • Spark SQL con CSV y Scala
  • Spark SQL con JSON y Scala
  • Spark SQL MySQL JDBC con Scala

Los lectores también pueden estar interesados en buscar tutoriales como los tutoriales de Spark con Cassandra ubicados en la sección de integración a continuación. Spark con Cassandra también cubre aspectos de Spark SQL.

Spark Streaming con Scala

Spark Streaming es el módulo Spark que permite el procesamiento de secuencias de datos en directo. Se pueden ingerir datos de muchas fuentes, como Kinesis, Kafka, Twitter o sockets TCP, incluidos los WebSockets. Los datos de flujo pueden procesarse con funciones de alto nivel como` map`,` join `o`reduce’. A continuación, los datos procesados se pueden sacar de la canalización a sistemas de archivos, bases de datos y paneles de control.

Los algoritmos MLlib de Spark se pueden usar en flujos de datos como se muestra en los tutoriales a continuación.

Spark Streaming recibe flujos de datos de entrada en vivo dividiendo los datos en lotes configurables.

Spark Streaming proporciona una abstracción de alto nivel llamada transmisión discretizada o» DStream » para abreviar. Los flujos de D pueden crearse a partir de flujos de datos de entrada o aplicando operaciones en otros flujos de D. Internamente, un DStream se representa como una secuencia de RDDs.

Transmisión de Spark con tutoriales de Scala

  • Descripción general de transmisión de Spark
  • Ejemplo de Transmisión de Spark desde Slack
  • Tutorial de transmisión de Spark con Kafka
  • Transmisión estructurada de Spark con Kafka que incluye JSON, CSV, Avro y Registro de Esquemas Confluentes
  • Transmisión de Spark con Kinesis Ejemplo
  • Prueba de transmisión de Spark

Aprendizaje automático de Spark

MLlib es el componente de biblioteca de aprendizaje automático (ML) de Spark. El objetivo de MLlib es hacer que el aprendizaje automático sea más fácil y esté más disponible. Consiste en algoritmos de aprendizaje populares y utilidades como clasificación, regresión, agrupamiento, filtrado colaborativo, reducción de dimensionalidad.

El MLlib de Spark se divide en dos paquetes:

  1. spark.mllib que contiene la API original construida sobre RDDs
  2. spark.ml construido sobre marcos de datos utilizados para construir tuberías de ML

spark.ml es el enfoque recomendado porque la API de DataFrame es más versátil y flexible.

Spark MLlib con Tutoriales de Scala

  • Tutorial de Spark MLlib con Datos de streaming de Scala

Supervisión y Depuración del rendimiento de Spark

  • Supervisión del rendimiento de Spark con Métricas, Grafito y Grafana
  • Herramientas de supervisión del rendimiento de Spark – Una Lista de opciones
  • Tutorial de Spark – Supervisión del rendimiento con Servidor de Historial
  • Depuración de Scala Spark en IntelliJ
  • /li>

Tutoriales de integración de Spark con Scala

Los siguientes tutoriales de Scala Spark se basan en los temas tratados anteriormente en casos de uso más específicos

  • Tutorial de Spark Amazon S3
  • Tutorial de implementación de Spark en un clúster EC2
  • Tutorial de Spark Cassandra desde Scala
  • Scala de Spark en IntelliJ
  • Servidor de ahorro Apache Spark con Tutorial de Cassandra
  • Ejemplo de prueba de carga de servidor de ahorro Apache Spark

Operaciones de Spark

Los siguientes tutoriales de Scala Spark están relacionados con conceptos operativos

  • Spark Enviar argumentos de línea de comandos en Scala
  • Ejemplo de Programador justo de Spark

Imagen destacada adaptada de https://flic.kr/p/7zAZx7

Share! ¡Comparte! ¡Comparte! Cántalo conmigo ahora

Related Posts

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *