Hadoop面試指南（二）：實踐版（終）

Hadoop HDFS MapReduce OpenSSH 技術妞妞 2017-06-15

上篇的文章有沒有感覺到水水的，頂著酷暑用生命在嘮嗑

其實Hadoop的平臺搭建起來還是蠻簡單的，但是對於很多不熟悉Ubuntu的小白來講簡直就是災難，所以今天的乾貨來了，結合上一篇文章的安裝指南，把涉及到的Linux命令一一娓娓道來。

安裝JDK

下載指定版本的JDK文件,小編這裡下載的是jdk-6u30-linux-i586.bin，拷貝到指定的文件夾下面，運行

./jdk-6u30-linux-i564.bin

運行時要在root權限下進行安裝

su 切換到root用戶下

檢查是否成功安裝

Java -version

修改主機名

因為我們需要搭建一個集群，所以我們會希望能有唯一且標誌性強的主機名，修改etc/hosts和etc/hostname

用vi etc/hosts

保存集群中所有機器ip地址到主機名的映射，集群裡的每臺機器都要進行修改，而hostname則是本地主機的主機名。

安裝ssh

我們在講Hadoop的HDFS以及MapReduce中都多次提到，集群中不同節點之間的機器之間存在多次數據傳輸，ssh則是節點之間數據傳輸的橋樑，同時還可以設置免密碼登陸，避免重複輸入密碼。

apt-get install openssh

安裝完成後，集群中的所有節點都開啟ssh服務

service ssh start

則可以利用ssh 主機名登錄到指定主機上去，但是這種登錄往往是需要輸入密碼的，下面我們就簡單的介紹下如何免密登陸。

集群中的所有機器都生成一對鑰匙，也就是公鑰和密鑰。

id_dsa 和 id_dsa.pub

前面的是密鑰，後面的是公鑰，如果主機A想實現免密登陸到主機B上，就需要把自己的公鑰給主機B。

集群裡的機器每臺先生成一對鑰匙

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

這一對鑰匙放在~/.ssh/目錄下

Hadoop面試指南（二）：實踐版（終）

實現本地免密登陸

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

將本地的公鑰放到驗證的文件authorized_keys下

修改用戶權限

chmod 600 ~/.ssh/authorized_keys

實現免密登錄到主機B

將主機A的公鑰拷貝到B下，並追加到主機B的authorized_keys文件上。

拷貝：scp ~/.ssh/id_dsa.pub rice@B:~

追加：cat ~/id_dsa.pub >> ~/.ssh/authorized_keys

測試，完成免密登陸。

在集群中namenode節點所在的機器上配置Hadoop的相關配置文件，在完成配置後拷貝到集群中的所有機器上。

所有的配置文件都在解壓後的hadoop文件下的conf文件夾下

配置namenode的所在機器位置

配置文件為core-site.xml

<name>fs.default.name</name>

</property>

</configuration>

這裡node1為主機名，表示namenode所在的主機，這是客戶端進入分佈式集群的入口。

Hadoop面試指南（二）：實踐版（終）

配置HDFS的副本數

副本數的存在主要是為了提高分佈式系統的可用性和容錯性，當某一個節點掛掉的時候就就可以對這個節點上丟失的數據塊就是恢復，副本數指的就是一個數據塊在所有節點上一共有多少個副本。

配置文件為hdfs-site.xml

<name>dfs.replication</name>

</property>

</configuration>

在完全分佈式上副本數的個數默認為３.

配置datanode所在的主機，配置文件slaves上

配置secondarynode所在的主機，配置文件在masters，這兩種配置方法都很簡單，這裡就不再說明了。

配置mapreduce的JobTracker和taskTracker，因為taskTracker默認就分配在datanode節點上，所以不需要配置，這裡就只需要配置JobTracker

配置文件為mapred-site.xml

<name>mapred.job.tracker</name>

</property>

</configuration>

Hadoop面試指南（二）：實踐版（終）

基本的配置步驟已經完成，但是我們忽略了一個配置，配置java在hadoop的路徑，在文件hadoop-env.sh配置，將jdk的路徑配置，最後格式化，./start-all啟動，利用jps檢查各個節點上的啟動情況就大功告成了！

相關推薦

'都說在阿里年薪百萬不難，面試入職阿里需要準備什麼？'

"好多人對阿里巴巴的薪資體系結構及級別設置不太清楚，想去面試也不知道面試什麼級別的崗位，工作幾年了也不知道自己會是什麼水平，那麼，年薪 40 萬在阿里內部又是什麼水平呢？先來看看阿里巴巴的對應薪資年薪：再來看看阿里巴巴的級別設置：所以，40W 年薪 P7 級別就能拿到。阿里...

跳槽那些事兒 MySQL Java 數據庫大數據 Nginx Tomcat 阿里巴巴集團 Java虛擬機 Redis Hadoop Git 虛擬機設計 Storm 程序員工程師 Docker 算法百度 2019-08-07

'面試騰訊是一種什麼樣的體驗？'

"騰訊研發面經騰訊SNG後臺開發工程師大概是8月初投的簡歷，當時沒有選事業群，第二天直接被sng撈了，抓著我一頓面試。一週內就面完了三次面試，接著就開始無盡的等待，整整等了三週左右，終於完成了四面和HR面。整個過程還是比較曲折的，技術面試的難度也挺大的，不過他們部門也是Ja...

騰訊人生第一份工作 Redis MySQL Linux 中央處理器 Java 操作系統設計算法 MapReduce 2019-07-29

'大佬分享：180+道Java面試題目！含答案解析'

"大廠常見問題寫視頻點播網站文件下載接口基礎變量/數組寫出模擬maven導入包過程寫出新變臉內存分配模擬垃圾回收過程50個白球50個紅球，兩個盒子，怎麼放讓人隨機在一個盒子裡抽到紅球概率最高n個數裡取兩個和為s的數java數據結構HashMap原理自定義類型可以作為Key麼...

Java Java虛擬機 Spark 設計模式 Docker 人生第一份工作算法程序員數據庫數據結構設計 Hadoop 操作系統路由器 2019-07-20

Hadoop基礎知識面試題整理

1、簡單描述如何安裝配置一個apache開源版hadoop，只描述即可，無需列出完整步驟，能列出步驟更好。1) 安裝JDK並配置環境變量（/etc/profile）2) 關閉防火牆3) 配置hosts文件，方便hadoop通過主機名訪問（/etc/hosts）4) 設置ss...

Hadoop HDFS Apache Hive 人生第一份工作 MySQL 防火牆 Spark 勒內·笛卡兒 2019-06-23

面試官：給我說一下你理解的分佈式架構？

什麼是分佈式架構分佈式系統（distributed system）是建立在網絡之上的軟件系統。內聚性：是指每一個數據庫分佈節點高度自治，有本地的數據庫管...

數據庫 MySQL 移動互聯網技術 PostgreSQL 物聯網分佈式計算電子商務 MariaDB 電腦 GFS Hadoop Memcached Google HDFS HBase Apache 中國移動 2019-06-09

SQL on Hadoop在快手大數據平臺的實踐與優化 | 分享實錄

快手大數據架構工程師鍾靚本文是根據快手大數據架構工程師鍾靚於 5月18-19日在A2M人工智能與機器學習創新峰會《SQL on Hadoop在快手大數據平...

SQL Hadoop 大數據 Spark Presto Hive 數據庫數據結構人工智能工程師 HBase HDFS Facebook 2019-06-07

面試京東Java架構師，被問到的真題解析

前言其實收到jd的面試邀請的時候，我真心有點小激動。因為在地理位置上，jd應該是最合適我也是最想去的。但是我在看到方向的時候其實心裡有很多的問題，也做好了...

Java 跳槽那些事兒 MySQL 京東商城程序員 Hadoop 算法 2019-05-22

阿里巴巴，工程師面試經歷，荊棘密佈

阿里巴巴系統工程師內推面試經歷阿里這個是當時在北郵人上看到的內推帖子，就果斷投了。不得不說今年這些互聯網公司的節奏比往年真的是快了不止一點。一面（電話面試）：在投了內推大概1周之後，收到了阿里的電話。當時說有事推到了第二天，其實樓主當時是想多準備一天。面試官是個年輕工...

2017年前50名Hadoop面試問題，讀完你就上天了

在這個Hadoop採訪問題博客中，我們將會覆蓋所有常見問題，這些問題將幫助您採訪他們最好的解決方案。但在此之前，讓我告訴大家，大數據和Hadoop專家的需...

Hadoop HDFS MapReduce Spark ITStar 2017-09-27

大數據前景觀：Hadoop將被Spark全面替代？

談到大數據，相信大家對Hadoop和Apache Spark這兩個名字並不陌生。然而，最近業界有一些人正在大張旗鼓的宣揚Hadoop將死，Spark將立。他們究竟是危言聳聽、譁眾取寵，還是眼光獨到堪破未來呢？與Hadoop相比，Spark技術如何？現工業界大數據技術都在使用...

大數據 Hadoop Spark MapReduce 慧都控件網 2017-09-15

Hadoop還能輝煌多久——Hadoop2的數據管理實踐

Hadoop 2可以在Hadoop以前的批量處理範圍之內直接在堆棧本身內部實現更大範圍的數據處理任務Hadoop,大數據分析的開源技術棧的功能最近有了更大...

Hadoop 大數據 Hortonworks MapReduce ITStar 2017-08-31

數據分析/hadoop/機器學習面試題集錦，可能是最全的了！

數據分析/hadoop/機器學習面試題集錦推薦理由：無論你是想從事大數據相關職位的職場小白，還是準備往高處走的牛牛。小白有了這些在校招中過關斬將，牛牛們溫...

機器學習 Hadoop 面試大數據人人都是數據咖 2017-08-25

HADOOP集群安裝二

3.1.JDK安裝 1.文件拷貝 cp /downloads/*. 把downloads中的文件拷貝到當前目錄 2.給一個執行權限 chmod u+x jdk-6u24-linux-i586.bin 3.解壓縮 ./jdk-6u24-linux-i586.bin 4.重命...

編程語言 Hadoop HDFS Java 2017-07-07

揭祕大數據（二）手把手教你Hadoop運行環境搭建

今天，尚硅谷大數據老師繼續帶領大家解析大數據。相關資料可訪問尚硅谷下載：http://www.atguigu.com/opensource.shtmlHa...

編程語言 Hadoop 文本編輯器大數據 2017-06-22

Hadoop面試指南（二）：實踐版（初）

前面的文章都是從理論角度去理解HDFS和MapReduce的工作機制，但是在面對各種各樣的面試題中往往知道理論是遠遠不夠的，這也就需要各位小夥伴在瞭解基本...

Hadoop HDFS MapReduce Java 2017-06-14

Hadoop面試指南（一）：基礎版

小編的一系列文章大體講了Hadoop的分佈式文件系統HDFS和分佈式計算框架MapReduce,不知道你有沒有在看完小編的文章後有沒有查閱相關的文章進行鞏...

Hadoop HDFS 雲計算 MapReduce 2017-06-14

7個實例全面掌握Hadoop MapReduce

作者介紹杜亦舒，創業中，技術合夥人，喜歡研究分享技術。個人訂閱號：性能與架構。本文旨在幫您快速瞭解 MapReduce 的工作機制和開發方法，解決以下幾個...

編程語言 MapReduce Hadoop HDFS 2017-06-09

面試了7家公司的Hadoop開發，居然都考了這8道題

藉著六一兒童節，我也自稱一回寶寶。本寶寶之前做java開發，其實在java這個圈子做的還不錯。但是鑑於未來的一個發展趨勢，所以毅然決然轉做了大數據，從事H...

編程語言 Hadoop Java Hive 2017-06-06

hadoop入門指南（Hello Hadoop）

Hadoop百度百科 Hadoop是一個由Apache基金會所開發的分佈式系統基礎架構。 Hadoop其實只是一種數據處理的框架，具體去處理什麼問題，不是...

Hadoop HDFS MapReduce Storm 2017-05-20

這是一篇最通熟易懂的Hadoop HDFS實踐攻略！

作者介紹杜亦舒，創業中，技術合夥人，喜歡研究分享技術。本文主要幫您解決一下幾個問題：HDFS是用來解決什麼問題？怎麼解決的？如何在命令行下操作HDFS？如...

編程語言 HDFS Hadoop Java 2017-05-19

推薦中...