Spark Tutorials with Scala
Spark 는 개발자와 엔지니어에게 Scala API 를 제공합니다. 아래에 나열된 Scala 가있는 Spark 자습서는 Spark Core,클러스터링,Spark SQL,스트리밍,기계 학습 MLLib 등의 Scala Spark API 를 다룹니다.
당신은 당신이 선택한 순서대로 튜토리얼에 액세스 할 수 있습니다.
튜토리얼을 가정의 일반적인 이해 스파크 및 불꽃 생태계 프로그래밍 언어에 관계 없이 같은 스칼라. 아파치 스파크를 처음 사용하는 경우 권장 경로는 상단에서 시작하여 하단으로 내려가는 길입니다.
새로운 경우에는 모두 스칼라와 스파크가되고 싶은 생산성을 신속하게 확인 밖으로 내 밀라노 스파크 코스입니다.
새로운 불꽃이 자습서는 추가 수시로 여기에서,그래서인지 확인하는 자,책갈피나 등록 우리의 알림 목록 업데이트를 보냅니다.
Apache Spark Essentials
개요
가 생산적이며 자신감으로 불꽃이 필수적입 당신은 편안한 불꽃 개념의 탄력 분포 데이터 집합(RDD),DataFrames,데이터 집합,변환,작업입니다. 다음 자습서에서는 스파크 펀더멘털이 스칼라 관점에서 다루어집니다.
자습서
- Apache Spark 란 무엇입니까?
- 스파크 변환 예제에서는 스칼라
- 스파크 동작 예제에서는 스칼라
이러한 세 가지 기본적인 개념과 불꽃 API 위 예제는,당신은 더 나은 위치에서 이동하려면 다음 섹션 중 하나에서 클러스터링,SQL,스트리밍 및/또는 기계 학습(MLlib)조직은 아래.
스파크 클러스터
스파크 응용 프로그램으로 실행할 수 있는 독립트의 병렬 프로세스에 분산되어 수많은 노드의 컴퓨터입니다. 함께 협력하는 수많은 노드는 일반적으로”클러스터”로 알려져 있습니다. Spark 버전에 따라 분산 프로세스는 SparkContext 또는 SparkSession 에 의해 조정됩니다. SparkContext 는 Mesos,YARN 또는”Standalone”이라는 Spark 의 자체 내부 클러스터 관리자를 포함하여 여러 유형의 클러스터 관리자에 연결할 수 있습니다. 클러스터 관리자에 연결되면 스파크는 클러스터 내의 노드에서 실행자를 획득합니다.
자습서
다음 Spark 클러스터링 자습서는 Scala 소스 코드 예제를 사용하여 Spark 클러스터 기능에 대해 설명합니다.
- 클러스터의 부분을 1 독립 실행
- 클러스터의 2 부를 배포하는 스칼라 프로그램 클러스터에
- 스파크 클러스터에 배포하는 문제 해결
- 어큐뮬레이터 방송한 변수를
에 대한 자세한 정보는 스파크,클러스터와 같은행 및 배포에 Amazon EC2,이 있는지 확인하는 통합 섹션에서는 아래의 이 페이지로 이동합니다.
Scala
Spark SQL 은 구조화 된 데이터 처리를위한 Spark 구성 요소입니다. Spark SQL 인터페이스는 Spark 에게 데이터의 구조뿐만 아니라 수행중인 프로세스 모두에 대한 통찰력을 제공합니다. Sql,DataFrames API 및 Datasets API 를 포함하여 Spark SQL 과 상호 작용하는 여러 가지 방법이 있습니다. 개발자는 다양한 Spark API 접근 방식 중에서 선택할 수 있습니다.
SQL
Spark SQL 쿼리는 기본 SQL 구문 또는 HiveQL 을 사용하여 작성할 수 있습니다. Spark SQL 을 사용하여 기존 Hive 설치에서 데이터를 읽을 수도 있습니다. Python 또는 Scala 와 같은 프로그래밍 언어 내에서 SQL 을 실행하면 결과가 데이터 프레임으로 반환됩니다. JDBC/ODBC 를 사용하여 SQL 인터페이스와 상호 작용할 수도 있습니다.
데이터 프레임
데이터 프레임은 명명 된 열로 구성된 분산 된 데이터 모음입니다. 데이터 프레임은 관계형 데이터베이스의 테이블과 개념적으로 동등한 것으로 간주 될 수 있지만 최적화 기능이 풍부합니다. Csv,JSON,hive 의 테이블,외부 데이터베이스 또는 기존 Rdd 와 같은 소스에서 데이터 프레임을 만들 수 있습니다.
데이터 세트
데이터 세트는 Spark1.6 에 추가 된 새로운 실험 인터페이스입니다. 데이터 세트는 Spark SQL 의 최적화 된 실행 엔진의 이점으로 RDDs 의 이점을 제공하려고합니다.
스파크 SQL 와 스칼라토
- 스파크 SQL CSV 와 밀라노
- 스파크 SQL JSON 및 Scala
- 스파크 SQL mySQL JDBC 스칼라를 사용하여
독자들은 또한에 관심이있을 수 있습니다 추구하는 자와 같은 불꽃을 가진 카산드라 튜토리얼에 위치한 통합습니다. 카산드라가있는 Spark 는 Spark SQL 의 측면도 다룹니다.
스파크와 스트리밍 Scala
스파크 스트리밍은 스파크 모듈할 수 있는 스트림 처리의 살아있는 데이터 스트림이 있습니다. Kinesis,Kafka,Twitter 또는 WebSockets 를 포함한 TCP 소켓과 같은 많은 소스에서 데이터를 수집 할 수 있습니다. 스트림 데이터는`map`,`join`또는`reduce`와 같은 높은 수준의 함수로 처리 될 수 있습니다. 그런 다음 처리된 데이터를 파이프라인에서 파일 시스템,데이터베이스 및 대시보드로 푸시할 수 있습니다.
Spark 의 MLLib 알고리즘은 아래 자습서와 같이 데이터 스트림에서 사용할 수 있습니다.
Spark Streaming 은 데이터를 구성 가능한 배치로 나누어 라이브 입력 데이터 스트림을 수신합니다.
Spark Streaming 은 discretized stream 또는”DStream”이라는 높은 수준의 추상화를 짧게 제공합니다. DStreams 는 입력 데이터 스트림에서 또는 다른 DStreams 에 대한 작업을 적용하여 만들 수 있습니다. 내부적으로 DStream 은 rdds 의 시퀀스로 표시됩니다.
스파크 스트리밍을 가진 스칼라토
- 스파크 스트리밍 개요
- 스파크 스트리밍를 들어 스트리밍에서 불황
- 스파크 스트리밍을 가진 카프카의 튜토리얼
- 스파크 구조와 스트리밍 카프카 등 JSON,CSV,아브로, 고 Confluent 레지스트리의 스키마
- 스파크와 스트리밍 Kinesis 예
- 스파크 스트리밍 시험
스파크 기계 학습
MLlib 은 불꽃의 기계학습(ML)라이브러리 구성 요소입니다. MLlib 의 목표는 기계 학습을보다 쉽고 광범위하게 사용할 수있게하는 것입니다. 로 구성되어 있의 인기있는 학습 알고리즘과 같은 유틸리티에 분류 회귀분석,클러스터링,협업 필터링,차원 감소입니다.Spark 의 MLlib 는 두 개의 패키지로 나뉩니다.
spark.ml 방법을 사용하는 것이 좋습니다 때문에 데이터 프레임 API 더 다양하고 유연합니다.
스파크 MLlib 와 스칼라토
- 스파크 MLlib 와 스트리밍 데이터에서 스칼라토
스파크 성능 모니터링 및 디버깅 기능을 지원
- 스파크 성능 모니터링과 측정, 흑연 및 Grafana
- 스파크 성능 모니터링 도구의 옵션
- 스파크 자습서–성과 모니터링과 역사 Server
- 밀라노 스파크에서 디버깅 IntelliJ
스파크와 스칼라에 통합 튜토리얼
다음과 같은 스칼라 불꽃 튜토리얼에 건축하는 이전에 다루는 내용으로 특정 사용 사례
- 스파크 Amazon S3 튜토리얼
- 스파크에 배포하는 EC2 클러스터는 튜토리얼
- 불꽃 카산드라 스칼라에서는 튜토리얼
- 스파크 스칼라에서 IntelliJ
- Apache Spark 중고품으로 서버 Cassandra 튜토리얼
- Apache Spark 중고 서버의 부하 테스트를 들어
스파크 운영
다음과 같은 스칼라 불꽃 튜토리얼에 관련된 운영 개념
- 스파크 제출을 명령 라인에 인수 Scala
- 스파크 공정 스케줄러를 들어
리미엄 이미지에서 적응https://flic.kr/p/7zAZx7
공유! 공유! 공유! 지금 나와 함께 노래하기