久久精品视频国产,亚洲国产激情一区二区三区,亚洲综合在线最大成人

數據分析師：Pig、Hive和Impala

課時總數：24課時

課程介紹

　　通過Cloudera公司的ApacheHadoop培訓將您的知識提升到一個新的水平。

　　Cloudera大學提供的為期4天的數據分析培訓課程專注于ApachePig、Hive和ClouderaImpala，將教會您如何將傳統的數據分析和商業智能技術應用到大數據領域。Cloudera為數據專業人員提供了基于SQL和其它熟悉的腳本編程語言的工具，用來訪問、操作、轉換和分析復雜數據集。

　　學習掌握現代大數據分析工具

　   學員在本課程中將學習掌握以下現代大數據分析工具：

　　    ● ApacheImpala（孵化項目）作為一個SQL運行環境提供對Hadoop里的數據進行即時交互式分析的能力。

　　    ● ApacheHive為數據分析師、數據庫管理員以及其他非Java編程人員提供了一個類-SQL的查詢語言HiveQL來分析處理Hadoop數據。

　　    ● ApachePig提供腳本編程工具來分析處理Hadoop數據。

　　一．培訓內容

　　通過講師在課堂上的講解，以及實操練習，學員將熟悉Hadoop生態系統，學習主題包括：

　　    ● 使用Pig，Hive及Impala獲取、存儲及分析數據。

　　    ● 使用Hadoop工具執行基本的ETL工作（抽取－extract，轉換－transform和加載－load）。

　　    ● 使用Pig、Hive及Impala改善典型分析任務的效率。

　　    ● 關聯不同及豐富的數據源以獲取全面和真實的商業價值。

　　    ● 對數據集進行交互式和復雜查詢。

　　二．培訓對象及學員基礎

　　本課程是專為數據分析師、商業智能專家、開發人員、系統架構師和數據庫管理員開發的。培訓學員不需要具備ApacheHadoop知識。

　　    ● 需具備一定的SQL知識水平。

　　    ● 基本熟悉Linux命令行。

　　    ● 培訓學員至少熟悉一種腳本語言知識（例如，Bash腳本編程、Perl、Python和Ruby）將會更有幫助，但不是必需的。

　　三．認證

　　結束本課程培訓后，我們建議學員準備并注冊參加ClouderaCCA數據分析師認證考試。通過并獲得該證書是向公司及客戶證明個人在Hadoop數據分析領域的技術和專長的有力依據。

　　四．課程大綱

　　 1. Hadoop基礎知識

　　    ● Hadoop動機

　　    ● Hadoop概覽

　　    ● 數據存儲：HDFS

　　    ● 分布式數據處理：YARN、MapReduce和Spark

　　    ● 數據處理與分析：Pig、Hive和Impala

　　    ● 數據集成：Sqoop

　　    ● 其它的Hadoop數據工具

　　    ● 練習分析場景說明

　　 2. Pig簡介

　　    ● Pig是什么

　　    ● Pig的特點

　　    ● Pig使用案例

　　    ● 與Pig的交互

　　 3. Pig基本數據分析

　　    ● PigLatin語法

　　    ● 加載數據

　　    ● 簡單數據類型

　　    ● 字段定義

　　    ● 數據輸出

　　    ● 架構查看

　　    ● 數據篩選和排序

　　    ● 常用函數

　　 4. 使用Pig處理復雜的數據

　　    ● 數據存儲格式

　　    ● 復合/嵌套數據類型

　　    ● 數據分組

　　    ● 復雜數據內置函數

　　    ● 遍歷分組數據

　　 5. Pig多數據集操作

　　    ● 數據集合并技術

　　    ● 在Pig中聯接數據集

　　    ● 集合運算

　　    ● 拆分數據集

　　 6. Pig故障診斷和性能優化

　　    ● Pig故障排除

　　    ● 日志

　　    ● 使用Hadoop的WebUI

　　    ● 數據采樣及調試

　　    ● 性能概述

　　    ● 了解執行計劃

　　    ● 提高Pig作業性能的技巧

　　 7. Hive和Impala簡介

　　    ● 什么是Hive

　　    ● 什么是Impala

　　    ● 為什么使用Hive和Impala

　　    ● 架構和數據存儲

　　    ● Hive及Impala與傳統數據庫的比較

　　    ● Hive使用案例

　　 8. 使用Hive和Impala進行數據查詢

　　    ● 數據庫和表

　　    ● 基本的Hive和Impala查詢語言語法

　　    ● 數據類型

　　    ● 使用Hue來執行查詢

　　    ● 使用Beeline（HiveShell）

　　    ● 使用ImpalaShell

　　 9. Hive及Impala數據管理

　　    ● 數據存儲

　　    ● 創建數據庫和表

　　    ● 加載數據

　　    ● 修改數據庫和表

　　    ● 使用視圖簡化查詢

　　    ● 存儲查詢結果

　　 10. 數據存儲和性能

　　    ● 對表進行分區

　　    ● 分區表的數據加載

　　    ● 何時使用分區

　　    ● 文件格式的選取

　　    ● 使用Avro及Parquet文件格式

　　 11. 使用Hive和Impala進行關系數據分析

　　    ● 連接數據集

　　    ● 常見的內置函數

　　    ● 聚合和窗口函數

　　 12. 復雜數據類型

　　    ● 在Hive里使用復雜數據

　　    ● 在Impala里使用復雜數據

　　 13. 使用Hive及Impala分析文本數據

　　    ● 在Hive及Impala里使用正則表達式

　　    ● 在Hive里通過SerDe加載處理文本

　　    ● 情感分析及n-gram

　　 14. Hive優化

　　    ● 了解查詢性能

　　    ● Bucketing（分桶）

　　    ● 索引數據

　　    ● HiveonSpark

　　 15. Impala優化

　　    ● Impala如何執行查詢

　　    ● 改善Impala性能

　　 16. 擴展Hive及Impala

　　    ● 使用SerDe加載特殊格式文件

　　    ● 通過定制腳本來轉換數據

　　    ● 用戶自定義函數

　　    ● 參數化查詢

　　 17. 選擇好工具

　　    ● 比較Pig、Hive、Impala和關系數據庫該選擇哪一個

　　 18. 總結

　　Cloudera大數據課程體系