通過Cloudera公司的ApacheHadoop培訓將您的知識提升到一個新的水平。
Cloudera大學提供的為期4天的數據分析培訓課程專注于ApachePig、Hive和ClouderaImpala,將教會您如何將傳統的數據分析和商業智能技術應用到大數據領域。Cloudera為數據專業人員提供了基于SQL和其它熟悉的腳本編程語言的工具,用來訪問、操作、轉換和分析復雜數據集。 學習掌握現代大數據分析工具 學員在本課程中將學習掌握以下現代大數據分析工具: ● ApacheImpala(孵化項目)作為一個SQL運行環境提供對Hadoop里的數據進行即時交互式分析的能力。 ● ApacheHive為數據分析師、數據庫管理員以及其他非Java編程人員提供了一個類-SQL的查詢語言HiveQL來分析處理Hadoop數據。 ● ApachePig提供腳本編程工具來分析處理Hadoop數據。 一.培訓內容 通過講師在課堂上的講解,以及實操練習,學員將熟悉Hadoop生態系統,學習主題包括: ● 使用Pig,Hive及Impala獲取、存儲及分析數據。 ● 使用Hadoop工具執行基本的ETL工作(抽取-extract,轉換-transform和加載-load)。 ● 使用Pig、Hive及Impala改善典型分析任務的效率。 ● 關聯不同及豐富的數據源以獲取全面和真實的商業價值。 ● 對數據集進行交互式和復雜查詢。 二.培訓對象及學員基礎 本課程是專為數據分析師、商業智能專家、開發人員、系統架構師和數據庫管理員開發的。培訓學員不需要具備ApacheHadoop知識。 ● 需具備一定的SQL知識水平。 ● 基本熟悉Linux命令行。 ● 培訓學員至少熟悉一種腳本語言知識(例如,Bash腳本編程、Perl、Python和Ruby)將會更有幫助,但不是必需的。 三.認證 結束本課程培訓后,我們建議學員準備并注冊參加ClouderaCCA數據分析師認證考試。通過并獲得該證書是向公司及客戶證明個人在Hadoop數據分析領域的技術和專長的有力依據。 四.課程大綱 1. Hadoop基礎知識 ● Hadoop動機 ● Hadoop概覽 ● 數據存儲:HDFS ● 分布式數據處理:YARN、MapReduce和Spark ● 數據處理與分析:Pig、Hive和Impala ● 數據集成:Sqoop ● 其它的Hadoop數據工具 ● 練習分析場景說明 2. Pig簡介 ● Pig是什么 ● Pig的特點 ● Pig使用案例 ● 與Pig的交互 3. Pig基本數據分析 ● PigLatin語法 ● 加載數據 ● 簡單數據類型 ● 字段定義 ● 數據輸出 ● 架構查看 ● 數據篩選和排序 ● 常用函數 4. 使用Pig處理復雜的數據 ● 數據存儲格式 ● 復合/嵌套數據類型 ● 數據分組 ● 復雜數據內置函數 ● 遍歷分組數據 5. Pig多數據集操作 ● 數據集合并技術 ● 在Pig中聯接數據集 ● 集合運算 ● 拆分數據集 6. Pig故障診斷和性能優化 ● Pig故障排除 ● 日志 ● 使用Hadoop的WebUI ● 數據采樣及調試 ● 性能概述 ● 了解執行計劃 ● 提高Pig作業性能的技巧 7. Hive和Impala簡介 ● 什么是Hive ● 什么是Impala ● 為什么使用Hive和Impala ● 架構和數據存儲 ● Hive及Impala與傳統數據庫的比較 ● Hive使用案例 8. 使用Hive和Impala進行數據查詢 ● 數據庫和表 ● 基本的Hive和Impala查詢語言語法 ● 數據類型 ● 使用Hue來執行查詢 ● 使用Beeline(HiveShell) ● 使用ImpalaShell 9. Hive及Impala數據管理 ● 數據存儲 ● 創建數據庫和表 ● 加載數據 ● 修改數據庫和表 ● 使用視圖簡化查詢 ● 存儲查詢結果 10. 數據存儲和性能 ● 對表進行分區 ● 分區表的數據加載 ● 何時使用分區 ● 文件格式的選取 ● 使用Avro及Parquet文件格式 11. 使用Hive和Impala進行關系數據分析 ● 連接數據集 ● 常見的內置函數 ● 聚合和窗口函數 12. 復雜數據類型 ● 在Hive里使用復雜數據 ● 在Impala里使用復雜數據 13. 使用Hive及Impala分析文本數據 ● 在Hive及Impala里使用正則表達式 ● 在Hive里通過SerDe加載處理文本 ● 情感分析及n-gram 14. Hive優化 ● 了解查詢性能 ● Bucketing(分桶) ● 索引數據 ● HiveonSpark 15. Impala優化 ● Impala如何執行查詢 ● 改善Impala性能 16. 擴展Hive及Impala ● 使用SerDe加載特殊格式文件 ● 通過定制腳本來轉換數據 ● 用戶自定義函數 ● 參數化查詢 17. 選擇好工具 ● 比較Pig、Hive、Impala和關系數據庫該選擇哪一個 18. 總結
Cloudera大數據課程體系