- 軟件介紹
- 軟件截圖
- 相關(guān)軟件
- 相關(guān)閱讀
- 下載地址
電腦軟件推薦: Xmind Zen 2020免激活版 (已驗證可用) vmPing v1.3.21 綠色中文版 同花順遠航版 v7.9.3.1 官方版本 Windows Firewall Control v6.0.2.0
Hadoop是由Apache基金會開發(fā)的一個開源框架,旨在簡化大規(guī)模數(shù)據(jù)處理的架構(gòu)和使用。它專注于處理、存儲和分析海量的分布式、非結(jié)構(gòu)化數(shù)據(jù)。Hadoop的分布式架構(gòu)將數(shù)據(jù)處理引擎盡可能地靠近存儲,通過MapReduce功能將任務(wù)分解后分發(fā)到多個節(jié)點,并最終將處理結(jié)果匯總到數(shù)據(jù)倉庫中。Hadoop作為一個用Java語言實現(xiàn)的Apache開源軟件框架,在由大量計算機組成的集群中進行大數(shù)據(jù)的分布式計算。Hadoop以其可靠性、高效性和可伸縮性為特點,使用戶能夠方便地開發(fā)和運行大數(shù)據(jù)處理應(yīng)用。如果需要使用Hadoop,可以通過kkx分享的鏈接獲取。
Hadoop的優(yōu)點
1. 高可靠性。
Hadoop在數(shù)據(jù)存儲和處理方面展現(xiàn)出令人信賴的穩(wěn)定性。
2. 高擴展性。
Hadoop可以在大規(guī)模計算機集群之間分配數(shù)據(jù)和計算任務(wù),這些集群可以方便地擴展到數(shù)千個節(jié)點。
3. 高效性。
Hadoop能夠在節(jié)點間動態(tài)移動數(shù)據(jù),并保持節(jié)點之間的平衡,因此處理速度非??臁?/p>
4. 高容錯性。
Hadoop會自動保存數(shù)據(jù)的多個副本,并在任務(wù)失敗時自動重新分配。
5. 低成本。
與一體機、商用數(shù)據(jù)倉庫以及類似QlikView、Yonghong Z-Suite的數(shù)據(jù)集市相比,Hadoop是開源的,因此大幅降低了軟件成本。
Hadoop安裝指南
部署Hadoop 2.7.1:
機器環(huán)境:
操作系統(tǒng):CentOS 6.4 64位系統(tǒng)
Hadoop版本:hadoop-2.7.1,在CentOS下自行編譯的64位版本。
Hadoop安裝步驟
1. 下載并解壓安裝包 tar zxvf hadoop-2.7.1.tar.gz
2. 在虛擬機中解壓安裝包
3. 在安裝目錄下創(chuàng)建數(shù)據(jù)存儲文件夾,如tmp、hdfs、hdfs/data、hdfs/name
4. 修改/home/yy/hadoop-2.7.1/etc/hadoop下的配置文件:
在core-site.xml中添加:
fs.defaultFS
hdfs://s204:9000
hadoop.tmp.dir
file:/home/yy/hadoop-2.7.1/tmp
io.file.buffer.size
131702
5. 修改hdfs-site.xml,添加:
dfs.namenode.name.dir
file:/home/yy/hadoop-2.7.1/dfs/name
dfs.datanode.data.dir
file:/home/yy/hadoop-2.7.1/dfs/data
dfs.replication
2
dfs.namenode.secondary.http-address
s204:9001
dfs.webhdfs.enabled
true
6. 修改mapred-site.xml,添加:
mapreduce.framework.name
yarn
mapreduce.jobhistory.address
s204:10020
mapreduce.jobhistory.webapp.address
s204:19888
7. 修改yarn-site.xml,添加:
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.nodemanager.auxservices.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler
yarn.resourcemanager.address
s204:8032
yarn.resourcemanager.scheduler.address
s204:8030
yarn.resourcemanager.resource-tracker.address
s204:8031
yarn.resourcemanager.admin.address
s204:8033
yarn.resourcemanager.webapp.address
s204:8088
yarn.nodemanager.resource.memory-mb
768
8. 在/home/yy/hadoop-2.7.1/etc/hadoop目錄下配置hadoop-env.sh和yarn-env.sh的JAVA_HOME,以避免啟動時報錯:
export JAVA_HOME=/home/yy/jdk1.8
9. 在/home/yy/hadoop-2.7.1/etc/hadoop目錄下配置slaves文件,添加從服務(wù)器的地址,此處僅有s205。
配置完成后,將Hadoop復(fù)制到各從服務(wù)器:
scp -r /home/yy/hadoop-2.7.1 root@s205:/home/yy/
10. 在主服務(wù)器上執(zhí)行 bin/hdfs namenode -format 進行初始化。
在sbin目錄下執(zhí)行 ./start-all.sh 啟動集群。
可以使用jps命令查看運行狀態(tài)。
停止集群使用命令 sbin/stop-all.sh
11. 通過瀏覽器訪問 s204:8088 查看集群信息。
配置完成,如圖:
優(yōu)勢
Hadoop作為一個基礎(chǔ)框架,允許通過簡單的編程模型在計算機集群中對中大型數(shù)據(jù)進行分布式處理。它的設(shè)計規(guī)模從單臺服務(wù)器擴展到數(shù)千臺設(shè)備,每臺服務(wù)器都具備本地計算和存儲功能。該框架提供高可用性服務(wù),不依賴硬件來實現(xiàn)可擴展性。
用戶可以在不深入了解分布式底層細節(jié)的情況下,快速開發(fā)和運行大數(shù)據(jù)處理應(yīng)用。其低成本、高可靠性、高擴展性、高效率和高容錯性等特點使Hadoop成為最受歡迎的大數(shù)據(jù)分析平臺。
Hadoop的生態(tài)系統(tǒng)由HDFS、MapReduce、HBase、Zookeeper、Pig、Hive等核心組件構(gòu)成,同時還包括Sqoop、Flume等框架,用于與其他系統(tǒng)集成。Hadoop生態(tài)系統(tǒng)也在不斷擴展,加入了Mdhout、Ambari等相關(guān)工具,以提供更多功能。
-
Hadoop 2.7.1 免費版下載地址
