Hadoop基礎知識面試題整理

Hadoop HDFS Apache Hive 人生第一份工作 MySQL 防火牆 Spark 勒內·笛卡兒大數據與機器學習 2019-06-23

1、簡單描述如何安裝配置一個apache開源版hadoop，只描述即可，無需列出完整步驟，能列出步驟更好。

1) 安裝JDK並配置環境變量（/etc/profile）

2) 關閉防火牆

3) 配置hosts文件，方便hadoop通過主機名訪問（/etc/hosts）

4) 設置ssh免密碼登錄

5) 解壓縮hadoop安裝包，並配置環境變量

6) 修改配置文件（$HADOOP_HOME/conf）

hadoop-env.sh core-site.xml hdfs-site.xml mapred-site.xml

7) 格式化hdfs文件系統（hadoop namenode -format）

8) 啟動hadoop （$HADOOP_HOME/bin/start-all.sh）

9) 使用jps查看進程

2、請列出正常工作的hadoop集群中hadoop都分別需要啟動那些進程，他們的作用分別是什麼，儘可能寫的全面些。

1) NameNode: HDFS的守護進程，負責記錄文件是如何分割成數據塊，以及這些數據塊分別被存儲到那些數據節點上，它的主要功能是對內存及IO進行集中管理

2) Secondary NameNode：輔助後臺程序，與NameNode進行通信，以便定期保存HDFS元數據的快照。

3) DataNode：負責把HDFS數據塊讀寫到本地的文件系統。

4) JobTracker：負責分配task，並監控所有運行的task。

5) TaskTracker：負責執行具體的task，並與JobTracker進行交互。

3、請列出你所知道的hadoop調度器，並簡要說明其工作方法。

比較流行的三種調度器有：默認調度器FIFO，計算能力調度器Capacity Scheduler，公平調度器Fair Scheduler

1) 默認調度器FIFO

hadoop中默認的調度器，採用先進先出的原則

2) 計算能力調度器Capacity Scheduler

選擇佔用資源小，優先級高的先執行

3) 公平調度器Fair Scheduler

同一隊列中的作業公平共享隊列中所有資源

4、Hive有那些方式保存元數據的，各有那些特點。

1) 內存數據庫derby，較小，不常用

2) 本地mysql，較常用

3) 遠程mysql，不常用

5、請簡述hadoop怎樣實現二級排序。

在Hadoop中，默認情況下是按照key進行排序，如果要按照value進行排序怎麼辦？

有兩種方法進行二次排序，分別為：buffer and in memory sort和 value-to-key conversion。

buffer and in memory sort

主要思想是：在reduce()函數中，將某個key對應的所有value保存下來，然後進行排序。這種方法最大的缺點是：可能會造成out of memory。

value-to-key conversion

主要思想是：將key和部分value拼接成一個組合key（實現WritableComparable接口或者調setSortComparatorClass函數），這樣reduce獲取的結果便是先按key排序，後按value排序的結果，需要注意的是，用戶需要自己實現Paritioner，以便只按照key進行數據劃分。Hadoop顯式的支持二次排序，在Configuration類中有個setGroupingComparatorClass()方法，可用於設置排序group的key值。《Hadoop&Spark解決二次排序問題(Hadoop篇)》

6、簡述hadoop實現Join的幾種方法。

(1)、reduce side join

reduce side join是一種最簡單的join方式，其主要思想如下：

在map階段，map函數同時讀取兩個文件File1和File2，為了區分兩種來源的key/value數據對，對每條數據打一個標籤（tag）,比如：tag=0表示來自文件File1，tag=2表示來自文件File2。即：map階段的主要任務是對不同文件中的數據打標籤。

在reduce階段，reduce函數獲取key相同的來自File1和File2文件的value list，然後對於同一個key，對File1和File2中的數據進行join（笛卡爾乘積）。即：reduce階段進行實際的連接操作。

(2)、map side join

之所以存在reduce side join，是因為在map階段不能獲取所有需要的join字段，即：同一個key對應的字段可能位於不同map中。Reduce side join是非常低效的，因為shuffle階段要進行大量的數據傳輸。

Map side join是針對以下場景進行的優化：兩個待連接表中，有一個表非常大，而另一個表非常小，以至於小表可以直接存放到內存中。這樣，我們可以將小表複製多份，讓每個map task內存中存在一份（比如存放到hash table中），然後只掃描大表：對於大表中的每一條記錄key/value，在hash table中查找是否有相同的key的記錄，如果有，則連接後輸出即可。

為了支持文件的複製，Hadoop提供了一個類DistributedCache，使用該類的方法如下：

（1）用戶使用靜態方法DistributedCache.addCacheFile()指定要複製的文件，它的參數是文件的URI（如果是HDFS上的文件，可以這樣：hdfs://namenode:9000/home/XXX/file，其中9000是自己配置的NameNode端口號）。JobTracker在作業啟動之前會獲取這個URI列表，並將相應的文件拷貝到各個TaskTracker的本地磁盤上。（2）用戶使用DistributedCache.getLocalCacheFiles()方法獲取文件目錄，並使用標準的文件讀寫API讀取相應的文件。

(3)、SemiJoin

SemiJoin，也叫半連接，是從分佈式數據庫中借鑑過來的方法。它的產生動機是：對於reduce side join，跨機器的數據傳輸量非常大，這成了join操作的一個瓶頸，如果能夠在map端過濾掉不會參加join操作的數據，則可以大大節省網絡IO。

實現方法很簡單：選取一個小表，假設是File1，將其參與join的key抽取出來，保存到文件File3中，File3文件一般很小，可以放到內存中。在map階段，使用DistributedCache將File3複製到各個TaskTracker上，然後將File2中不在File3中的key對應的記錄過濾掉，剩下的reduce階段的工作與reduce side join相同。

(4)、reduce side join + BloomFilter

在某些情況下，SemiJoin抽取出來的小表的key集合在內存中仍然存放不下，這時候可以使用BloomFiler以節省空間。

BloomFilter最常見的作用是：判斷某個元素是否在一個集合裡面。它最重要的兩個方法是：add() 和contains()。最大的特點是不會存在false negative，即：如果contains()返回false，則該元素一定不在集合中，但會存在一定的true negative，即：如果contains()返回true，則該元素可能在集合中。

因而可將小表中的key保存到BloomFilter中，在map階段過濾大表，可能有一些不在小表中的記錄沒有過濾掉（但是在小表中的記錄一定不會過濾掉），這沒關係，只不過增加了少量的網絡IO而已。

7、請簡述MapReduce中combiner、partition的作用

(1)、combiner

有時一個map可能會產生大量的輸出，combiner的作用是在map端對輸出先做一次合併，以減少網絡傳輸到reducer的數量。

注意：mapper的輸出為combiner的輸入，reducer的輸入為combiner的輸出。

(2)、partition

把map任務輸出的中間結果按照key的範圍劃分成R份(R是預先定義的reduce任務的個數)，劃分時通常使用hash函數，如：hash(key) mod R

這樣可以保證一段範圍內的key，一定會由一個reduce任務來處理。

相關推薦

'一週精選 |超模張麗娜登《WWD》9月刊，新面孔模特亮相各大時裝週'

"9月是屬於時尚的一月，紐約、北京、青島等時裝週紛至沓來，新面孔模特軍團實力助陣，亮相多場大秀，斬獲多個開、閉場。與此同時，新面孔模特魏安琪、田鴿拍攝最新廣告大片，張麗娜登再收一封金九封面，收穫頗豐。超模張麗娜領銜，同新生代超模陳圓圓、汪涵、常文靜、何若陽、暴梓禕、王詩頤、...

時裝週超級名模模特文章青島時尚 BALLY 麗娜紐約中秋節汪涵人生第一份工作國風新潮陳圓圓 2019-09-19

'疫苗之王危機後400天：有公司面臨退市，有公司股價“墳頭起舞”'

" 作者｜資本市場部來源｜野馬財經“疫苗之王”*ST長生（原“長生生物”，002680.SZ）經過6個月的暫停上市，將正式走到退市關口。然而，去年因受長生生物“疫苗造假”事件波及同樣處在聚光燈下的康泰生物（300601.SZ）股價卻創出了新高。有公司面臨退市，有公司股價卻...

生物技術中國證監會廣州江蘇黃海機械人生第一份工作深圳證券交易所長春瀟湘晨報狂犬病歷史黃海創業鳳凰投資 2019-09-19

'技術與顏值並存！JackeyLove入選亞太區最帥面孔醜照被齊刷'

"說起阿水JackeyLove，想必英雄聯盟玩家應該都不陌生，作為IG戰隊ADC選手，榮獲2018英雄聯盟全球總決賽冠軍，以及2019LPL春季賽冠軍。除了擁有超高的英雄聯盟操作技術以外，近期阿水還提名了亞太區最帥100張面孔，不知道是不是因為嫉妒的原因，粉絲齊刷醜照，令人...

英雄聯盟電子競技人生第一份工作英雄聯盟S8 韓國技術吳亦凡沈騰鹿晗亞洲蔡徐坤張藝興戀愛 2019-09-19

'53家工廠，4.8萬人！通用汽車面臨十二年來最大罷工'

"有分析認為，若因罷工導致北美生產線停產，通用將面臨每天4億美元的損失，美國經濟也將因此遭受打擊。自2007年以來首次，通用汽車公司員工發動十二年來規模最大罷工！北京時間9月16日週一美股盤前，通用汽車一度跌超3%，股價位於38美元下方。消息面上，自美東時間16日上午開始，...

通用汽車公司跳槽那些事兒經濟人生第一份工作投資美國股市中國中央電視臺密歇根州新聞 2019-09-19

'面試被面試官壓低薪資，我靠這三點，從月薪7000拿到了月薪10000'

"一、面試官：“你只值7k”！知乎上有一個問題：“面試期望薪水是10K，但是面試官卻說我只值7K，該怎樣回答或者反駁？”話題引發了很多人討論。很多職場新人並不知道如何跟面試官談判薪資，一遇到壓價就慌了，說話開始變得語無倫次，立馬處於被動地位，最後吃虧的還是自己。要想解決...

人生第一份工作招聘跳槽那些事兒知乎 2019-09-19

'久未露面的呂斌終於有消息了，直升機求婚成功，結束單身'

"2019年9月11日，前國家拳擊隊知名運動員、前世界職業拳王挑戰者呂斌，在久未露面後通過微博宣佈，自己已經求婚成功。他在微博中寫道：“感情就是兩個人的事，無需多少人見證；只要，你我都願意！”。與微博一起發佈的還有一段視頻，視頻中顯示呂斌在一架直升機前，單膝跪下，把一個漂亮...

拳擊奧林匹克運動會人生第一份工作直升機體育里約熱內盧曼尼·帕奎奧鄒市明搏擊熊朝忠巴西勝利退出演藝圈 2019-09-19

'龐大集團“披星戴帽”或將觸及面值退市紅線'

"來源：成都商報據瞭解，今年5月13日北京冀東豐汽車銷售服務有限公司向法院申請對龐大集團進行重整，源於龐大不能夠清償到期債務，而且存在明顯喪失清償能力的可能。今年9月9日，昔日的汽車經銷商巨頭龐大集團，最終被實施退市風險警示，而披星戴帽後的龐大集團，至今已連續出現跌停板的走...

龐大集團投資人生第一份工作中國證監會成都商報深圳一步之遙 2019-09-19

'45個常見面試題的評價要點總結'

"自我介紹、應聘理由、優缺點、臨場提問…這些看似簡單卻暗藏玄機的面試題，你知道HR在想啥嗎？面試後總覺得發揮不好，你知道自己弱在哪嗎？45個常見面試題的評價要點總結↓↓給你應對思路。收了吧！（資料來源：人民日報微博）"

人生第一份工作 2019-09-19

'坤坤C出道不容易，黑粉們看看吧，實力擺在面前'

"蔡徐坤……才98年啊……可能像蔡徐坤這樣的人，是真的得到了上天的恩賜吧？當更加了解了一些坤坤後，沒有人能夠隨隨便便成功，就算是天賦異稟的蔡徐坤也不行。我們大部分人都是在2017年認識坤坤的，但事實上，早在2012年的時候，坤坤就參加過一檔叫做《向上吧！少年》的綜藝節目。而...

蔡徐坤偶像練習生星動亞洲人生第一份工作週末綜藝指南 2019-09-19

'網約車駕駛員醉駕將面臨10年禁駕處罰'

"重慶網絡廣播電視臺記者張夢婷網約車公司組織聚餐，喝了不少酒，駕駛員僥倖上路被查，這下可劃不算了，因為屬於營運車輛，男子醉駕將面臨10年禁駕處罰。9月12日22時許，一輛白色轎車在經過江北城卡口時，駕駛員張某疑似酒後駕車，現場民警要求駕駛員張某下車接受進一步檢查。經酒精...

跳槽那些事兒交通重慶轎車人生第一份工作刑法 2019-09-19

'藍寶石+電力物聯網、(002617)階段平臺整理、可持續關注'

"藍寶石+電力物聯網、(002617)階段平臺整理、可持續關注(002617)露笑科技一、公司經營狀況所屬行業：傳媒主營業務：漆包線、機電、藍寶石和新能源汽車業務的生產、銷售概念排行：藍寶石、電力物聯網、智能電網、工業大麻、光伏概念、融資融券、新能源汽車、鋰電池題材要點：...

藍寶石露笑科技物聯網新能源汽車投資技術黑龍江省能源人生第一份工作新能源大麻浙江省植物第二十二屆中國農加工投洽會 2019-09-19

'谷歌系無人車仿真器公司，剛又融資4000萬美元，面臨開源競爭'

"雷剛發自凹非寺量子位報道 | 公眾號 QbitAI無人車公司哪家強？衡量的要素有很多。但眾所公認的是，能力強大的無人車公司，肯定也是仿真技術做得出色的公司。而且作為無人駕駛研發中舉足輕重的一環，仿真也越來越多受到資本市場追逐。這不，硅谷仿真模擬創業公司Applie...

無人駕駛 Google 投資創業騰訊硅谷人生第一份工作 Y Combinator 機器人 Google地圖工程師雷剛 2019-09-19

'SiP封裝在5G和IoT時代面臨的挑戰'

"9月10日到11日，由博聞創意會展（深圳）有限公司主辦的“第三屆中國系統級封裝大會”（SiP Conference China 2019）在深圳舉辦。在本次大會上，SiP封裝產業鏈上的多家公司分享了面向5G、手機、loT和可穿戴設備等應用的SiP系統解決方案，並圍繞SiP...

我的第一部5G手機技術智能手機人工智能穿戴設備設計深圳 EMI 高通物聯網步步高vivo 聯華電子臺灣積體電路製造公司蘋果公司 Wi-Fi 西門子公司藍牙三星集團照相機人生第一份工作數碼相機 2019-09-19

'沒有任何基礎知識能自學前端編程嗎'

"當你去百度這個標題的時候會搜索到一堆的培訓相關的東西。可是這肯定不是你想要的答案呀。去培訓當然是一條很好的路，有師傅帶著打怪當然升級快。當然去搜索這個問題的人大多數是不想去培訓的，有可能有各種各樣的原因，這裡就不去一一細說了。對於這個問題的答案是肯定的。只要對自己有...

MOOC 百度文章人生第一份工作 2019-09-19

'敬業又暖心！丁海寅帶病強撐舉辦見面會，化身“解憂師”互動粉絲'

"文/公孫綠萼前不久，在《經常請吃飯的漂亮姐姐》中憑藉“小奶狗”徐俊熙一角成功圈粉的演員丁海寅，近日又轉戰大熒幕，和金高銀主演的電影《愉悅的音樂專輯》如期上線，和以往總是跟姐姐們“談戀愛”不同，這次丁海寅難得與比自己小的女演員搭檔，這也是丁海寅在走紅後的第一部電影作品，能否...

韓國日本電視劇人生第一份工作高銀 2019-09-19

'面對困擾，老字號該如何“出招”？'

"【導語】當前激烈的市場競爭中，品牌所代表的企業文化軟實力不可小覷，而老字號品牌作為質量與信譽的象徵,往往成為經營者的制勝贏利法寶。家族成員本應協力同心，共同將老字號發揚傳承。遺憾的是，有些家族成員為了品牌經營權對簿公堂。近日，二中院就審理了一起老字號的網絡侵權糾紛。【案情...

文章人生第一份工作民法跳槽那些事兒文化運營商歷史 2019-09-19

'績優行業增速排名哪家強？潛力成長排頭兵浮出水面'

"上半年A股整體業績延續增長態勢。統計顯示，上半年所有A股合計實現營業收入23.5萬億元 , 同比增長9.32％；實現歸屬於母公司淨利潤 2.14 萬億元，同比增長6.5％。值得一提的是，二季度單季業績增長較一季度有所加快，其中第二季度營收環比增長6.32％；歸屬...

畜牧業投資金河生物金融華泰證券方正證券益生股份頭號大贏家| 理財大賽第二季用友網絡分析師海通證券仙壇股份超圖軟件電腦中牧股份國泰君安證券聖農發展中國人民銀行軟件種植業紫光股份大北農信息安全飼料中信證券海大集團中信建投證券浪潮信息人生第一份工作雲計算中國人壽保險廣聯達 4月吃什麼中糧集團中信銀行新華保險平安保險 2019-09-18

'憤怒的老年人，電影《老獸》直面現代中國式家庭悲劇，很真實深刻'

"導語：每個人都有自己的生活之道和處世態度，人的一生無論是非善惡，能夠做到不枉此生已經足夠。過著自己的日子，不管是貧富還是落魄，怨不得別人。人生有大起大落實屬常態，年輕時的富有，年老時歸於貧窮，這種落差感放在任何人身上都會經歷心靈的掙扎。最能體現曾經的孤傲和尊嚴的，就是不服...

經濟春節家書人生第一份工作不完美媽媽倔強金馬獎紀錄片攝影體育風險投資 2019-09-18

'王者榮耀：S17版本即將上線，遊戲節奏加快，代練或將全面消失？'

"王者榮耀每個賽季的更新也會帶來一些版本的變動，截止目前S16賽季已經進行了2個多月，王者榮耀將會在S17賽季上線時更新王者峽谷2.0版本，遊戲節奏將會加快，同時對代練行業將會產生嚴重打擊。新版本對峽谷地圖有很大改動，以往的傳統對線將會有所改變，戰士不再抗壓。射手只有在暴君...

王者聯盟人生第一份工作 2019-09-18

'種種負面聲音包圍下蔚來汽車的未來會好嗎？'

"位於杭州西湖邊的蔚來汽車NIO HOUSE浙江在線9月16日訊（記者高佳晨）“好緊張，我們部門員工都離職好幾個了，不知道我會不會被裁……”這段時間，在餘杭蔚來汽車交付售後服務中心上班的員工小郭，心情很低落。還未正式入秋，可號稱要做“中國特斯拉”的蔚來汽車，卻邁入了多事之...

杭州西湖特斯拉汽車新能源汽車跳槽那些事兒新能源人生第一份工作建築海底撈 BMW 奔馳讓夢發生 2019-09-18

推薦中...