At a glance
スケジュールと申し込み ビッグデータ研修コーススケジュール
コースお申込フォーム
コースコード H0LS9S
日数(開始時間〜終了時間) 4日間(9:30〜17:30)
会場
受講料 ¥328,000(税抜)

★受講前にアカウントの作成をお願いします!★
このトレーニングではテキストや演習手順書などを電子データ(PDFやファイル形式)で提供します。
そのために事前のアカウント登録が必要となります。
こちらの手順書(PDF)に従って受講日の前の週の木曜日までにアカウント登録をお願いします。
手順書 PDF(1.23 MB)
アカウント情報は、講義初の教材のダウンロードの際に必要です。
登録に使用したメールアドレスとパスワードはお忘れにならないようお願いします。

コースの概要

この4日間のハンズオン形式のトレーニングでは、Apache Spark を使用して、開発者が高性能な並列アプリケーションを開発するために必要な主な概念と専門知識を学習します。

受講者は、Hadoop の分散ファイルシステム上に格納される「ビッグデータ」を扱います。Hadoop クラスターの構造化データをクエリするためにSpark SQL を使用する方法と、さまざまなソースからのストリーミングデータのリアルタイム処理を行うために Spark Streaming を使用する方法を学習します。また、ETL 処理と繰り返しアルゴリズムの実行にコアSpark を使用するアプリケーションの開発方法も実習します。

学習目標

  • Hadoop クラスターにデータを取り込み、保存する方法と仕組みを理解し、使用できる
  • Hadoop クラスターでの分散処理の仕組みが理解できる
  • Apache Spark の基本を理解し、Spark シェルが使えるようになる
  • DataFrame と RDD の概念を踏まえ、データ処理や分析クエリを行える
  • ETL と繰り返しアルゴリズムなどのの実行のためにSpark アプリケーションを作成できる
  • Spark Streaming の概要を理解し、ストリーミング処理プログラミングを開発、実行できる

主な対象者

  • Spark や Hadoop に関心があり、プログラミング経験のある開発者やエンジニア

前提知識

Hadoop やSpark の知識は必要ありません。

  • Apache Spark のサンプルやハンズオン演習はScala とPython で提供されているので、いずれかの言語の知識を持っていることが望ましいです
  • Linux コマンドラインの基本知識(ls, cd などの Linux のコマンドまたはエディタの使い方など)
  • SQL の基本知識があると役立ちます

コース内容

(時間配分は変更になる場合があります)
−−−1 日目AM−−−
Apache Hadoop と Hadoop エコシステムの紹介
  • Apache Hadoop の概要
  • データの取り込みと格納
  • データ処理
  • データ分析と探索
  • その他のエコシステムツール
  • ハンズオン演習の紹介
−−−1 日目PM−−−
Apache Hadoop ファイルストレージ
  • Apache Hadoop クラスターのコンポーネント
  • HDFS のアーキテクチャー
  • HDFS の使用
Apache Hadoop クラスターでの分散処理
  • YARN のアーキテクチャー
  • YARN との関わり方
Apache Spark の基本
  • Apache Spark とは何か?
  • Spark シェルを開始する
  • Spark シェルを使用する
  • Dataset と DataFrame 入 門
  • DataFrame の操作
−−−2 日目AM−−−
DataFrame とスキーマの操作
  • データソースから DataFrame を作成する
  • DataFrame をデータソースに保存する
  • DataFrame のスキーマ
  • 積極的、および遅延実行
DataFrame のクエリを使用したデータ分析
  • 列の数式を使用した DataFrame のクエリ
  • グループ化と集計クエリ
  • DataFrame の結合
−−−2 日目PM−−−
RDD の概要
  • RDD の概要
  • RDD のデータソース
  • RDD の作成と保存
  • RDD の操作
RDD によるデータ変換
  • 変換関数の記述と受け渡し
  • 変換の実行
  • RDD と DataFrame の 変 換
ペアの RDD によるデータの集約
  • キー、値ペアの RDD
  • Map-Reduce
  • その他のペアの RDD 操作
−−−3 日目AM−−−
Apache Spark SQL によるテーブルとビューのクエリ
  • SQL を使用した Spark でのテーブルのクエリ
  • ファイルとビューのクエリ
  • Catalog API
  • Spark SQL, Apache Impala, Apache Hive-on-Spark の比較
Scala での Dataset の操作
  • Dataset と DataFrame
  • Dataset の作成
  • Dataset のロードと保存
  • Dataset の操作
−−−3 日目PM−−−
Apache Spark アプリケーションの作成、設定、および実行
  • Spark アプリケーションの作成
  • アプリケーションのビルドと実行
  • アプリケーションのデプロイモード
  • Spark Application Web UI
  • アプリケーションのプロパティの設定
分散処理
  • レビュー: クラスター上での Apache Spark
  • RDD のパーティション
  • 例: クエリのパーティショニング
  • ステージとタスク
  • ジョブの実行計画
  • 例: Catalyst の実行計画
  • 例: RDD の実行計画
分散されたデータの永続化
  • DataFrame と Dataset の永続化
  • 永続化のストレージレベル
  • 永続化された RDD の表示
−−−4 日目AM−−−
Apache Spark のデータ処理における一般的なパターン
  • 一般的な Spark のユースケース
  • Apache Spark での繰り返しアルゴリズム
  • 機械学習
  • 例: k-means
−−−4 日目PM−−−
Apache Spark Streaming: DStream の概要
  • Apache Spark Streaming の概要
  • 例: Streaming でのリクエスト数
  • DStream
  • ストリーミングアプリケーションの開発
Apache Spark Streaming: 複数のバッチの処理
  • 複数バッチの操作
  • タイムスライシング
  • ステート操作
  • スライディングウィンドウ操作
  • プレビュー: Structured Streaming
Apache Spark Streaming: データソース
  • ストリーミングデータソースの概要
  • Apache Flume と Apache Kafka データソース
  • 例: Kafka ダイレクトデータソースの使用

※本コースはCloudera社主催コースです。