At a glance
スケジュールと申し込み Data and Analytics研修コース
コースお申込フォーム
コースコード H0LS9S
日数(開始時間〜終了時間) 4日間(9:30〜17:30)
会場
受講料 ¥328,000(税抜)

★受講前にアカウントの作成をお願いします!★
このトレーニングではテキストや演習手順書などを電子データ(PDFやファイル形式)で提供します。
そのために事前のアカウント登録が必要となります。
こちらの手順書(PDF)に従って受講日の前の週の木曜日までにアカウント登録をお願いします。
手順書 PDF(1.23 MB)
アカウント情報は、講義初の教材のダウンロードの際に必要です。
登録に使用したメールアドレスとパスワードはお忘れにならないようお願いします。

コースの概要

この4日間のハンズオン形式のトレーニングでは、Apache Sparkを使用して、開発者が高性能な並列アプリケーションを開発するために必要な主な概念と専門知識を学習します。

受講者は、Hadoopの分散ファイルシステム上に格納される「ビッグデータ」を扱います。Hadoopクラスターの構造化データをクエリするためにSpark SQLを使用する方法に加え、ストリーミングデータのリアルタイム処理を行うためにStructured Streaming を使用する方法を学習します。また、ETL処理と繰り返しアルゴリズムの実行にコアSparkを使用するアプリケーションの開発方法も実習します。

学習目標

  • Hadoop クラスターにデータを取り込み、保存する方法と仕組みを理解し、使用できる
  • Hadoop クラスターでの分散処理の仕組みが理解できる
  • Apache Spark の基本を理解し、Spark シェルが使えるようになる
  • DataFrame と RDD の概念を踏まえ、データ処理や分析クエリを行える
  • ETL と繰り返しアルゴリズムなどの実行のためにSpark アプリケーションを作成できる
  • Structured Streamingの概要を理解し、ストリーミング処理プログラミングを開発、実行できる

対象者

  • Spark や Hadoop に関心があり、プログラミング経験のある開発者やエンジニア

前提条件

Hadoop やSpark の知識は必要ありません。

  • Apache Spark のサンプルやハンズオン演習はScala とPython で提供されているので、いずれかの言語の知識を持っていることが望ましいです
  • Linux コマンドラインの基本知識(ls, cd などの Linux のコマンドまたはエディタの使い方など)
  • SQL の基本知識があると役立ちます

コース内容

(時間配分は講義の進行により変更になる場合があります)
−−−1 日目AM−−−
Apache Hadoop と Hadoop エコシステムの紹介
  • Apache Hadoop の概要
  • データ処理
  • ハンズオン演習の紹介
−−−1 日目PM−−−
Apache Hadoop ファイルストレージ
  • Apache Hadoop クラスターのコンポーネント
  • HDFS のアーキテクチャー
  • HDFS を使用する
Apache Hadoop クラスターでの分散処理
  • YARN のアーキテクチャー
  • YARN との関わり方
Apache Spark の基本
  • Apache Spark とは何か?
  • Spark シェルを開始する
  • Spark シェルを使用する
  • Dataset と DataFrame 入 門
  • DataFrame の操作
−−−2 日目AM−−−
DataFrame とスキーマの操作
  • データソースから DataFrame を作成する
  • DataFrame をデータソースに保存する
  • DataFrame のスキーマ
  • 積極的、および遅延実行
DataFrame のクエリを使用したデータ分析
  • 列の数式を使用した DataFrame のクエリ
  • グループ化と集計クエリ
  • DataFrame の結合
−−−2 日目PM−−−
RDD の概要
  • RDD の概要
  • RDD のデータソース
  • RDD の作成と保存
  • RDD の操作
RDD によるデータ変換
  • 変換関数の記述と受け渡し
  • 変換の実行
  • RDD と DataFrame の変換
ペアの RDD によるデータの集約
  • キー、値ペアの RDD
  • Map-Reduce
  • その他のペアの RDD 操作
−−−3 日目AM−−−
Spark SQL によるテーブルとビューのクエリ
  • SQL を使用した Spark でのテーブルのクエリ
  • ファイルとビューのクエリ
  • Catalog API
Scala での Dataset の操作
  • Dataset と DataFrame
  • Dataset の作成
  • Dataset のロードと保存
  • Dataset の操作
−−−3 日目PM−−−
Spark アプリケーションの作成、設定、および実行
  • Spark アプリケーションの作成
  • アプリケーションのビルドと実行
  • アプリケーションのデプロイモード
  • Spark Application Web UI
  • アプリケーションのプロパティの設定
Sparkの分散処理
  • レビュー: クラスター上での Apache Spark
  • RDD のパーティション
  • 例: クエリのパーティショニング
  • ステージとタスク
  • ジョブの実行計画
  • 例: Catalyst の実行計画
  • 例: RDD の実行計画
分散されたデータの永続化
  • DataFrame と Dataset の永続化
  • 永続化のストレージレベル
  • 永続化された RDD の表示
−−−4 日目AM−−−
Spark のデータ処理における一般的なパターン
  • 一般的な Spark のユースケース
  • Apache Spark での繰り返しアルゴリズム
  • 機械学習
  • 例: k-means
−−−4 日目PM−−−
Structured Streamingの紹介
  • Apache Spark Streaming の概要
  • Streaming DataFrameの作成
  • DataFrameの変換
  • ストリーミングクエリの実行
Apache KafkaとStructured Streaming
  • 概要
  • Kafkaメッセージの受信
  • Kafkaメッセージの送信
Streaming DataFrameの集約と結合
  • ストリーミングの集約
  • Streaming DataFrameの結合
−−−付録−−−
付録 Apache Kafkaによるメッセージング処理
  • Apache Kafka とは何か?
  • Apache Kafka の概要
  • Apache Kafka のスケール
  • Apache Kafka クラスタのアーキテクチャー
  • Apache Kafka コマンドラインツール
※本コースはCloudera社主催コースです。