hadoop偽分佈式

Hadoop HDFS Linux MapReduce 迎著北風前進 2017-05-23

hadoop偽分佈式

今天的晚上八點的直播課會為大家帶來linux下的hadoop的教學，教學主要內容如下：

linux環境準備：

1、檢查網絡環境：ip、hostname

2、查看防火牆是否完全關閉

安裝jdk：

1、創建目錄：

su -root 切換root用戶創建

# mkdir /opt/modules/ 用於軟件安裝的目錄

# mkdir /opt/softwares/ 用於軟件下載目錄

2、設置目錄權限：

# chown beifeng:beifeng /opt/modules/

# chown beifeng:beifeng /opt/softwares/

3、解壓jdk：

$ tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/modules/

4、配置 jdk環境變量：

# vi /etc/profile

在文件末尾添加：

##JAVA_HOME

JAVA_HOME=/opt/modules/jdk1.7.0_67

export PATH=$PATH:$JAVA_HOME/bin

5、卸載系統自帶的jdk：

# rpm -qa |grep -i java

6、更新文件，使之生效：

# source /etc/profile

安裝hadoop：

注：hadoop安裝包下的配置文件所在目錄：

/opt/modules/hadoop-2.5.0/etc/hadoop

1、配置hadoop環境變量

hadoop-env.sh mapred-env.sh yarn-env.sh 三個全部修改javahome

export JAVA_HOME=/opt/modules/jdk1.7.0_67

2、修改 core-site.xml

<name>fs.defaultFS</name>

<value>hdfs://beifeng:8020</value>

</property>

<name>hadoop.tmp.dir</name>

<value>/opt/modules/hadoop-2.5.0/data</value>

</property>

3、修改slaves文件

指定那臺服務器是datanode

beifeng

4、修改hdfs-site.xml

副本數不能大於主機個數

<name>dfs.replication</name>

</property>

</configuration>

5、格式化文件系統

$ bin/hdfs namenode -format

6、啟動namenode 和datanode 服務

$ sbin/hadoop-daemon.sh start namenode 啟動namenode

$ sbin/hadoop-daemon.sh start datanode 啟動datanode

7、查看服務進程

$ jps

10031 Jps

9954 DataNode

9845 NameNode

8、hdfs小案例

$ bin/hdfs dfs -mkdir /input 創建文件夾在hdfs上

$ bin/hdfs dfs -put /opt/modules/yy.txt /input 上傳文件

$ bin/hdfs dfs -cat /input/yy.txt 查看文件

9、配置 yarn

yarn：資源管理，任務調度

修改yarn-env.sh mapred-env.sh

環境變量：

export JAVA_HOME=/opt/modules/jdk1.7.0_67

10、yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.resourcemanager.hostname</name>

<value>hadoop-senior.beifeng.com</value>

</property>

11、mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

12、啟動yarn

$ sbin/yarn-daemon.sh start resourcemanager

$ sbin/yarn-daemon.sh start nodemanager

13、利用官方自帶jar包進行文件的單詞統計

$ bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /input/ /output/

14、查看統計結果

$ bin/hdfs dfs -cat /output/par*

15、容易出現的問題：

***用戶操作的問題

***不要用root用戶啟動服務

***切換普通用戶的時候記得去虛擬機查看是否已經切換普通用戶

***/opt目錄下的兩個文件夾一定是屬於普通用戶的

***編輯配置文件的時候 notepad 用普通用戶去登陸操作，

***虛擬機環境問題防火牆網關 ip 主機名本地hosts文件添加映射

怎麼樣，感興趣的同學抓緊進群觀看直播了！

hadoop偽分佈式

相關推薦

'億級Web系統搭建：單機到分佈式集群'

"當一個Web系統從日訪問量10萬逐步增長到1000萬，甚至超過1億的過程中，Web系統承受的壓力會越來越大，在這個過程中，我們會遇到很多的問題。為了解決這些性能壓力帶來問題，我們需要在Web系統架構層面搭建多個層次的緩存機制。在不同的壓力階段，我們會遇到不同的問題，通過搭...

Linux DNS Nginx 瀏覽器 PHP 技術軟件 Redis 中央處理器 2019-09-16

'Hadoop、Storm、Samza、Spark和Flink大數據框架分析'

"大數據是收集、整理、處理大容量數據集，並從中獲得見解所需的非傳統戰略和技術的總稱。雖然處理數據所需的計算能力或存儲容量早已超過一臺計算機的上限，但這種計算類型的普遍性、規模，以及價值在最近幾年才經歷了大規模擴展。本文將介紹大數據系統一個最基本的組件：處理框架。處理框架負責...

Hadoop 大數據 Storm Spark HDFS Apache MapReduce 技術設計電腦歷史 2019-09-14

'PHP的TS和NTS有何區別，PHP在各環境下的偽靜態是如何配置的'

"教程力薦ts(Thread-Safety)即線程安全，多線程訪問時，採用了加鎖機制，當一個線程訪問該類的某個數據時，進行保護，其他線程不能進行訪問直到該線程讀取完，其他線程才可使用。不會出現數據不一致或者數據汙染php以ISAPI方式加載的時候選擇這個版本.，php以IS...

PHP Nginx Apache Linux Windows 2019-09-12

'乾貨｜詳解大數據之Hadoop—Hbase，讓小白都能讀懂的大數據教程'

"通過之前的介紹，我們瞭解了Hadoop框架下兩個核心技術，我們發現這兩個核心技術有一個共同的不足：操作數據延時性較高，不適合實時操作的場景。那麼今天我們來看看Hadoop框架下可以實現實時讀寫訪問的組件——Hbase。工程師：什麼是Hbase?小白：Hbase全稱為Had...

HBase Hadoop 大數據數據庫技術 HDFS 設計數據結構物理通信 MapReduce 分佈式計算工程師 SQL 穿越火線 2019-09-12

'區塊鏈4.0時代，新一代區塊鏈分佈式系統的想象空間'

"上世紀80年代，托夫勒在其著名的社會變遷開山之作《第三次浪潮》中指出，歷經農業化社會、工業化社會、信息化社會三次浪潮，人類文明正進入一個嶄新的時期，這個時期稱為“第三次浪潮文明”。這意味著，早在四十年前，就有前人洞見科技發展所引起的社會各方面的變革。而每一次產業技術革命...

區塊鏈 Linux 數字貨幣移動互聯網比特幣技術經濟操作系統雲計算金融大數據阿爾文·托夫勒物聯網電腦數據庫 MINIX 程序員第二十二屆中國農加工投洽會微軟人工智能中本聰國際空間站 Azure Android 2019-09-12

'安排《螞蟻花唄1234面：Redis+分佈式架構+MySQL+linux+紅黑樹》'

"前言：大廠面試機會難得，為了提高面試通關率，建議朋友們在面試前先覆盤自己的知識棧，依據掌握程度劃分重要、優先級，系統地去學習！如果不準備充分就去參加面試，既會失去進入大廠的機會，更是對自己的不負責。螞蟻花唄一面（一個小時）：1、Java容器有哪些？哪些是同步容器,哪些是...

Redis MySQL Linux 技術 MongoDB Java 數據庫人生第一份工作設計 Memcached 算法 Solr Docker 數據庫索引 Java虛擬機 2019-09-09

'圍觀：使用Hadoop和ELK進行業務代碼分析！分分鐘捉到Bug'

"大數據是計算領域的新高地，它有望提供一種方法來應對二十一世紀不斷增長的數據生成。越來越多的大數據愛好者正在湧現，越來越多的公司正在採用各種大數據平臺，並希望提出以客戶為中心的解決方案，幫助他們在競爭激烈的市場中取得領先地位。雖然最常見的是使用大數據解決方案來推導針對業務收...

Hadoop 大數據軟件 ElasticSearch 銀行技術 SQL Spark HDFS 可視化技術人力資源 2019-09-03

'分佈式 | DBLE 負載均衡方案'

"DBLE 是一款企業級的開源分佈式中間件，江湖人送外號 “MyCat Plus”。為了分擔 DBLE 的集群管理壓力同時避免單點故障，需要為 DBLE 尋找一個負載均衡方案。我們找來了 Lvs+Keepalived 為 DBLE 實現負載均衡。本文概要：一、負載均衡環境介...

MySQL Linux 數據庫路由器軟件 Vi Ubuntu 算法 GNU 操作系統 Wget 2019-09-03

'Hadoop是什麼，能幹什麼，怎麼使用'

"1、Hadoop是什麼1.1、小故事版本的解釋小明接到一個任務：計算一個100M的文本文件中的單詞的個數，這個文本文件有若干行，每行有若干個單詞，每行的單詞與單詞之間都是以空格鍵分開的。對於處理這種100M量級數據的計算任務，小明感覺很輕鬆。他首先把這個100M的文件拷貝...

Hadoop HDFS MapReduce 數據庫大數據電腦分佈式計算 Java Lucene 設計虛擬機 Spark 數據挖掘 2019-09-02

'全場景分佈式的“鴻蒙”系統到底強在哪？'

"鴻蒙OS是基於微內核的全場景分佈式OS，這是分佈式架構首次用於終端OS，可以實現跨終端無縫協同體驗。區別於“宏內核”，鴻蒙OS採用“微內核”的概念，並採用分佈式架構。避免了安卓的冗餘，更適應物聯網時代。據悉，這套操作系統能夠兼容諸如自動駕駛、工業自動化、印刷電路板、交換機...

操作系統 Linux Android 物聯網華為公司智能手機硬件智能手錶智能家居餘承東華為手機微軟技術 iOS Windows NFC 交通軟件電腦大數據 Wi-Fi 移動互聯網穿戴設備通信編譯器藍牙我的第一部5G手機 Windows Phone 無人駕駛環境保護 2019-08-29

'兄弟，用大白話告訴你小白都能看懂的Hadoop架構原理'

"專注於Java領域優質技術，歡迎關注來自：石杉的架構筆記（id：shishan10）目錄一、前奏二、HDFS的NameNode架構原理一、前奏Hadoop是目前大數據領域最主流的一套技術體系，包含了多種技術。包括HDFS（分佈式文件系統），YARN（分佈式資源調度系統），...

Hadoop HDFS MySQL 技術 SQL 大數據 Spark 數據庫分佈式計算 Hive Java MapReduce 設計電子商務 2019-08-28

'阿里資深架構師教你如何設計出一個完美的分佈式系統'

"1. 分佈式系統相關概念1.1 模型1.1.1 節點節點是一個可以獨立按照分佈式協議完成一組邏輯的程序個體，工程中往往指進程。1.1.2 通信節點之間完全獨立互相隔離，通信唯一方式是通過不可靠的網絡。1.1.3 存儲節點可以通過將數據寫入與節點在同一臺機器的本地存儲設備保...

設計 Java 技術可視化技術 GFS MapReduce 通信鼠標 2019-08-28

'Apache Spark：彈性分佈式數據集'

"RDD代表瞭如何在Apache Spark中表示大型數據集的想法以及使用它的抽象。本節將介紹前者，以下部分將介紹後者。根據關於Spark的開創性論文，“RDD是不可變的，容錯的並行數據結構，它們允許用戶明確地將中間結果保存在內存中，控制它們的分區以優化數據放置，並使用豐富...

Spark Apache 數據結構技術機器學習 Hadoop 大數據數據挖掘算法設計 Google 2019-08-27

'Tesra超算網絡與鏈得得達成戰略合作，打造分佈式AI超級大腦'

"左三為Tesra超算網絡（TSR）技術負責人Leo Lam，右三為鏈得得總裁李非凡8月21日，Tesra超算網絡（TSR）與鏈得得在重慶簽署戰略合作協議，雙方將在品牌全球化、超算網絡在人工智能場景的應用開發、AI開發者社區推廣、算力資源商用等領域展開深度合作，助力Tesr...

人工智能技術區塊鏈 GPU 並行計算雲計算重慶 Linux 證券投資基金微軟 2019-08-25

'分佈式系統你會設計了嗎？不會阿里架構師來教你設計'

設計 Java 技術 MapReduce 可視化技術 GFS 通信鼠標 2019-08-23

'螞蟻花唄4面技術題：分佈式+大數據+MySQL+linux+紅黑樹+併發容器'

"螞蟻花唄一面（一個小時）：Java容器有哪些？哪些是同步容器,哪些是併發容器？ArrayList和LinkedList的插入和訪問的時間複雜度？java反射原理，註解原理？說說一致性 Hash 原理新生代分為幾個區？使用什麼算法進行垃圾回收？為什麼使用這個算法？Hash...

MySQL Linux 數據庫技術 Redis Java 大數據人生第一份工作 MongoDB Memcached 算法設計數據結構螞蟻 Solr 數據庫索引 NoSQL 2019-08-22

'阿里資深架構師教你如何設計出一個完美的分佈式系統？'

設計 Java 技術可視化技術 GFS MapReduce 通信鼠標 2019-08-21

'聊聊Hadoop、Storm、Spark Streaming、Flink在大數據領域的現狀'

"Hadoop 生態組件競爭激烈，Spark 優勢明顯，MapReduce 已進入維護模式曾有開發人員表示，Hadoop 主要是被 MapReduce 拖累了，其實 HDFS 和 YARN 都還不錯。堵俊平（騰訊雲專家研究員）則認為 MapReduce 拖累 Hadoop...

Hadoop Spark 大數據 Storm MapReduce Hive HDFS SQL 技術 Presto Docker 機器學習騰訊雲計算 2019-08-20

'螞蟻金服2020金融核心部門面經（Redis+AOP+中間件+分佈式鎖等）'

"一面（個人感覺回答得還不錯）1. 自我介紹2. 說項目，項目問的非常深（本人提到之前做過的一篇關於FULL GC的問題定位和優化的項目以及一個多併發的項目）2.1 對於自己產於過項目的系統定位是否清楚？2.2 對於系統的各個模塊是否清楚？2.3 每個接口的tps？2.4 ...

Redis Memcached 算法 Linux Java虛擬機數據庫金融螞蟻金服 2019-08-20

'連你也能看懂的大數據之Hadoop——Hbase，得之幸之'

"通過之前的介紹，我們瞭解了Hadoop框架下兩個核心技術，我們發現這兩個核心技術有一個共同的不足：操作數據延時性較高，不適合實時操作的場景。那麼今天我們來看看Hadoop框架下可以實現實時讀寫訪問的組件——Hbase。工程師什麼是Hbase?曉智Hbase全稱為Hadoo...

HBase Hadoop 大數據數據庫 HDFS 技術設計數據結構物理 MapReduce 分佈式計算通信 SQL 穿越火線工程師 2019-08-20

推薦中...