Hadoop 作為開源的云計算平臺,為大數(shù)據(jù)處理提供了一整套解決方案,應(yīng)用非常廣泛。Hadoop 作為一個
平臺框架,包括了如何存儲海量數(shù)據(jù),如何處理海量數(shù)據(jù),以及相應(yīng)的數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)流處理、數(shù)
據(jù)分析和挖掘算法庫等等。本次培訓(xùn)作為知識儲備,主要講解目前應(yīng)用數(shù)據(jù)和大數(shù)據(jù)平臺的數(shù)據(jù)同步工作以
及了解大數(shù)據(jù)理論體系結(jié)構(gòu), 應(yīng)用 Hadoop 2.0 的大數(shù)據(jù)框架結(jié)構(gòu),文本文件與 Hadoop/Hive/Sqoop 數(shù)據(jù)
遷,Hadoop 的思想、原理,以及重要技術(shù)等相關(guān)知識。
第一天
一、Hadoop 的基本框架 :
大數(shù)據(jù)時代面臨的問題 ;當(dāng)前解決大數(shù)據(jù)的技術(shù)方案 ;Hadoop 架構(gòu)和云計算 ;Hadoop 簡史及安裝部署 ;Hadoop 設(shè)計理念和生態(tài)系統(tǒng)
二、HDFS 分布式文件系統(tǒng):海量數(shù)據(jù)存儲的搖籃
HDFS 的設(shè)計目標 、HDFS 的基本架構(gòu) 、 NameNode 名稱節(jié)點 、 SecondaryNameNode 第二名稱節(jié)點 、 DataNode 數(shù)據(jù)節(jié)點 、HDFS 的存儲模型
數(shù)據(jù)塊存儲 、 元數(shù)據(jù)存儲(空間鏡像與編輯日志) 、多副本存儲
多副本放置策略
多數(shù)據(jù)節(jié)點管理機制與交互過程
文件系統(tǒng)操作與管理
讀文件過程
寫文件過程(數(shù)據(jù)流管道)
數(shù)據(jù)完整性機制
數(shù)據(jù)校驗和
數(shù)據(jù)完整性掃描線程
元數(shù)據(jù)備份與合并
數(shù)據(jù)可靠性設(shè)計
安全模式(數(shù)據(jù)塊與節(jié)點映射關(guān)系管理)
心跳檢測機制(節(jié)點失效管理)
租約機制(多線程并發(fā)控制)
其它
HDFS 的安全機制
負載均衡
文件壓縮
操作接口與編程接口
HDFS Shell
HDFS Commands
演練:HDFS 文件操作命令
三、MapReduce 分布式計算系統(tǒng):海量數(shù)據(jù)處理的利器
MapReduce 的三層設(shè)計理念 、分布治之的設(shè)計思想(Map 與 Reduce) 、數(shù)據(jù)處理引擎(編程模型) 、 運行時環(huán)境(任務(wù)調(diào)度與執(zhí)行) 、MapReduce 的基本架構(gòu) 、JobTracker 作業(yè)跟蹤器 、TaskTracker 任務(wù)跟蹤器
MapReduce 與 HDFS 的部署關(guān)系
四、Yarn:平臺
Yarn 平臺的搭建 、 Yarn 實例的運行 、Yarn 應(yīng)用的監(jiān)控