Scala

Scala

Spark Tutorials with Scala
Apache Spark Essentials
개요
자습서
스파크 클러스터
자습서
Scala
SQL
데이터 프레임
데이터 세트
스파크 SQL 와 스칼라토
스파크와 스트리밍 Scala
스파크 스트리밍을 가진 스칼라토
스파크 기계 학습
스파크 MLlib 와 스칼라토
스파크 성능 모니터링 및 디버깅 기능을 지원
스파크와 스칼라에 통합 튜토리얼
스파크 운영

Spark Tutorials with Scala

Spark 는 개발자와 엔지니어에게 Scala API 를 제공합니다. 아래에 나열된 Scala 가있는 Spark 자습서는 Spark Core,클러스터링,Spark SQL,스트리밍,기계 학습 MLLib 등의 Scala Spark API 를 다룹니다.

당신은 당신이 선택한 순서대로 튜토리얼에 액세스 할 수 있습니다.

튜토리얼을 가정의 일반적인 이해 스파크 및 불꽃 생태계 프로그래밍 언어에 관계 없이 같은 스칼라. 아파치 스파크를 처음 사용하는 경우 권장 경로는 상단에서 시작하여 하단으로 내려가는 길입니다.

새로운 경우에는 모두 스칼라와 스파크가되고 싶은 생산성을 신속하게 확인 밖으로 내 밀라노 스파크 코스입니다.

새로운 불꽃이 자습서는 추가 수시로 여기에서,그래서인지 확인하는 자,책갈피나 등록 우리의 알림 목록 업데이트를 보냅니다.

Apache Spark Essentials

개요

가 생산적이며 자신감으로 불꽃이 필수적입 당신은 편안한 불꽃 개념의 탄력 분포 데이터 집합(RDD),DataFrames,데이터 집합,변환,작업입니다. 다음 자습서에서는 스파크 펀더멘털이 스칼라 관점에서 다루어집니다.

자습서

Apache Spark 란 무엇입니까?
스파크 변환 예제에서는 스칼라
스파크 동작 예제에서는 스칼라

이러한 세 가지 기본적인 개념과 불꽃 API 위 예제는,당신은 더 나은 위치에서 이동하려면 다음 섹션 중 하나에서 클러스터링,SQL,스트리밍 및/또는 기계 학습(MLlib)조직은 아래.

스파크 클러스터

스파크 응용 프로그램으로 실행할 수 있는 독립트의 병렬 프로세스에 분산되어 수많은 노드의 컴퓨터입니다. 함께 협력하는 수많은 노드는 일반적으로”클러스터”로 알려져 있습니다. Spark 버전에 따라 분산 프로세스는 SparkContext 또는 SparkSession 에 의해 조정됩니다. SparkContext 는 Mesos,YARN 또는”Standalone”이라는 Spark 의 자체 내부 클러스터 관리자를 포함하여 여러 유형의 클러스터 관리자에 연결할 수 있습니다. 클러스터 관리자에 연결되면 스파크는 클러스터 내의 노드에서 실행자를 획득합니다.

자습서

다음 Spark 클러스터링 자습서는 Scala 소스 코드 예제를 사용하여 Spark 클러스터 기능에 대해 설명합니다.

클러스터의 부분을 1 독립 실행
클러스터의 2 부를 배포하는 스칼라 프로그램 클러스터에
스파크 클러스터에 배포하는 문제 해결
어큐뮬레이터 방송한 변수를

에 대한 자세한 정보는 스파크,클러스터와 같은행 및 배포에 Amazon EC2,이 있는지 확인하는 통합 섹션에서는 아래의 이 페이지로 이동합니다.

Spark SQL 은 구조화 된 데이터 처리를위한 Spark 구성 요소입니다. Spark SQL 인터페이스는 Spark 에게 데이터의 구조뿐만 아니라 수행중인 프로세스 모두에 대한 통찰력을 제공합니다. Sql,DataFrames API 및 Datasets API 를 포함하여 Spark SQL 과 상호 작용하는 여러 가지 방법이 있습니다. 개발자는 다양한 Spark API 접근 방식 중에서 선택할 수 있습니다.

SQL

Spark SQL 쿼리는 기본 SQL 구문 또는 HiveQL 을 사용하여 작성할 수 있습니다. Spark SQL 을 사용하여 기존 Hive 설치에서 데이터를 읽을 수도 있습니다. Python 또는 Scala 와 같은 프로그래밍 언어 내에서 SQL 을 실행하면 결과가 데이터 프레임으로 반환됩니다. JDBC/ODBC 를 사용하여 SQL 인터페이스와 상호 작용할 수도 있습니다.

데이터 프레임

데이터 프레임은 명명 된 열로 구성된 분산 된 데이터 모음입니다. 데이터 프레임은 관계형 데이터베이스의 테이블과 개념적으로 동등한 것으로 간주 될 수 있지만 최적화 기능이 풍부합니다. Csv,JSON,hive 의 테이블,외부 데이터베이스 또는 기존 Rdd 와 같은 소스에서 데이터 프레임을 만들 수 있습니다.

데이터 세트

데이터 세트는 Spark1.6 에 추가 된 새로운 실험 인터페이스입니다. 데이터 세트는 Spark SQL 의 최적화 된 실행 엔진의 이점으로 RDDs 의 이점을 제공하려고합니다.

스파크 SQL 와 스칼라토

스파크 SQL CSV 와 밀라노
스파크 SQL JSON 및 Scala
스파크 SQL mySQL JDBC 스칼라를 사용하여

독자들은 또한에 관심이있을 수 있습니다 추구하는 자와 같은 불꽃을 가진 카산드라 튜토리얼에 위치한 통합습니다. 카산드라가있는 Spark 는 Spark SQL 의 측면도 다룹니다.

스파크와 스트리밍 Scala

스파크 스트리밍은 스파크 모듈할 수 있는 스트림 처리의 살아있는 데이터 스트림이 있습니다. Kinesis,Kafka,Twitter 또는 WebSockets 를 포함한 TCP 소켓과 같은 많은 소스에서 데이터를 수집 할 수 있습니다. 스트림 데이터는`map`,`join`또는`reduce`와 같은 높은 수준의 함수로 처리 될 수 있습니다. 그런 다음 처리된 데이터를 파이프라인에서 파일 시스템,데이터베이스 및 대시보드로 푸시할 수 있습니다.

Spark 의 MLLib 알고리즘은 아래 자습서와 같이 데이터 스트림에서 사용할 수 있습니다.

Spark Streaming 은 데이터를 구성 가능한 배치로 나누어 라이브 입력 데이터 스트림을 수신합니다.

Spark Streaming 은 discretized stream 또는”DStream”이라는 높은 수준의 추상화를 짧게 제공합니다. DStreams 는 입력 데이터 스트림에서 또는 다른 DStreams 에 대한 작업을 적용하여 만들 수 있습니다. 내부적으로 DStream 은 rdds 의 시퀀스로 표시됩니다.

스파크 스트리밍을 가진 스칼라토

스파크 스트리밍 개요
스파크 스트리밍를 들어 스트리밍에서 불황
스파크 스트리밍을 가진 카프카의 튜토리얼
스파크 구조와 스트리밍 카프카 등 JSON,CSV,아브로, 고 Confluent 레지스트리의 스키마
스파크와 스트리밍 Kinesis 예
스파크 스트리밍 시험

스파크 기계 학습

MLlib 은 불꽃의 기계학습(ML)라이브러리 구성 요소입니다. MLlib 의 목표는 기계 학습을보다 쉽고 광범위하게 사용할 수있게하는 것입니다. 로 구성되어 있의 인기있는 학습 알고리즘과 같은 유틸리티에 분류 회귀분석,클러스터링,협업 필터링,차원 감소입니다.Spark 의 MLlib 는 두 개의 패키지로 나뉩니다.

spark.mllib 포함하는 원래의 API 를 구축을 통해 rdd 내

spark.ml 이상 내장 DataFrames 형성에 사용되는 ML 파이프라인

spark.ml 방법을 사용하는 것이 좋습니다 때문에 데이터 프레임 API 더 다양하고 유연합니다.

스파크 MLlib 와 스칼라토

스파크 MLlib 와 스트리밍 데이터에서 스칼라토

스파크 성능 모니터링 및 디버깅 기능을 지원

스파크 성능 모니터링과 측정, 흑연 및 Grafana
스파크 성능 모니터링 도구의 옵션
스파크 자습서–성과 모니터링과 역사 Server
밀라노 스파크에서 디버깅 IntelliJ

스파크와 스칼라에 통합 튜토리얼

다음과 같은 스칼라 불꽃 튜토리얼에 건축하는 이전에 다루는 내용으로 특정 사용 사례

스파크 Amazon S3 튜토리얼
스파크에 배포하는 EC2 클러스터는 튜토리얼
불꽃 카산드라 스칼라에서는 튜토리얼
스파크 스칼라에서 IntelliJ
Apache Spark 중고품으로 서버 Cassandra 튜토리얼
Apache Spark 중고 서버의 부하 테스트를 들어

스파크 운영

다음과 같은 스칼라 불꽃 튜토리얼에 관련된 운영 개념

스파크 제출을 명령 라인에 인수 Scala
스파크 공정 스케줄러를 들어

리미엄 이미지에서 적응https://flic.kr/p/7zAZx7

공유! 공유! 공유! 지금 나와 함께 노래하기

Spark Tutorials with Scala

Apache Spark Essentials

개요

자습서

스파크 클러스터

자습서

Scala

SQL

데이터 프레임

데이터 세트

스파크 SQL 와 스칼라토

스파크와 스트리밍 Scala

스파크 스트리밍을 가진 스칼라토

스파크 기계 학습

스파크 MLlib 와 스칼라토

스파크 성능 모니터링 및 디버깅 기능을 지원

스파크와 스칼라에 통합 튜토리얼

스파크 운영

Related Posts

fysisk Geologi

Geología física

Géologie physique

Geologia fisica

geologia fizică

fizikai Geológia

답글 남기기 응답 취소