掌握這些海量數據算法的面試方法，提高進一線大數據公司的機會

大數據科技機智的豆沙包 2017-06-12

海量數據處理在面試中是經常會被問的一些問題，處理大量數據的基本功在平常工作中確實是會用到的，今天我就整理了一些這方面的問題。

所謂海量數據處理，指的是大數據量上進行的各種數據操作，但因為數據量龐大，會出現程序的運行時間過長，單機的存儲空間不夠或一些程序在運行過程中內存不足的情況，因而需要一些特別的處理方法，本文就儘可能的把這些特別的處理方法彙總，同時希望各路大神幫忙補充。本文裡的各種方法對應的面試題內容也會在博客中持續更新。（可以點擊閱讀原文查看博客內容）。

通過網絡上各種文章的收集以及自己平時面試中的一些積累，掌握海量數據問題的處理方法首先要學會兩個方法：一是用分治的方法將大數據問題變成小數據問題，其中分治的方法最常用的就是用hash，之後再對各小塊問題的結果進行統計、彙總或排序；另一個方法就是用bit map。其它網絡上經常會提到的Trie樹，Hadoop等當然能掌握是更好的。本文就先詳細舉例介紹分治法和bit map方法。其中部份舉例題目來源於網絡，相信有這方面準備經驗的同學可能早就看過了。

掌握這些海量數據算法的面試方法，提高進一線大數據公司的機會

分治法

大多用來hash映射來將大文件或大量數據進行分而治之的處理，分到不同的機器或節點上，再進行處理。處理的結果可能需要再用hash進行統計彙總，進行歸併排序或再用堆排序找出TopK。這裡值得一得的是面試過程中如果答出用hash來分治，很可能會引出新的關於hash的問題，比如怎麼做hash，處理hash中衝突的方法等，最好都提前準備好。

下面是關於這方面的幾個題目：（篇幅原因，只舉例兩題，博客上會持續大量更新）

海量日誌數據，提取出某日訪次數最多的那個IP

這題是典型的求TopK，TopK問題最先能想到的肯定是堆排序，但這裡因為記錄很多，還是可以用分治的方法先打散文件。

這裡注意到IP是32位的，最多有個2^32個IP，可以採用映射的方法，比如模1000，把整個大文件映射為1000個小文件，再找出每個小文中出現頻率最大的IP（可以採用hash_map進行頻率統計，然後再找出頻率最大的幾個）及相應的頻率。然後再在這1000個最大的IP中，找出那個頻率最大的IP，即為所求。

因為IP地址最多有2^32=4G種取值情況，所以不能完全加載到內存中處理，我們用“分而治之”的思想，按照IP地址的Hash(IP)%1024值，把海量IP日誌分別存儲到1024個小文件中。這樣，每個小文件最多包含4MB個IP地址。對於每一個小文件，可以構建一個IP為key，出現次數為value的Hash map，同時記錄當前出現次數最多的那個IP地址。可以得到1024個小文件中的出現次數最多的IP，再依據常規的排序算法得到總體上出現次數最多的IP。如果1024個小文件中有嚴重的數據傾斜，則需要再進行進一步的分治打散小文件來處理。

給定a、b兩個文件，各存放50億個url，每個url各佔64字節，內存限制是4G，讓你找出a、b文件共同的url？

這裡明確給出了每個url佔用的字節數和內存限制，那麼這個內存裡存不下URL明顯是需要計算難一下的。從條件中可以算出每個文件的大小為5G×64=320G，遠遠大於內存限制的4G。所以不可能將其完全加載到內存中處理。考慮採取分而治之的方法。

遍歷文件a，對每個url取模，這裡將大文件分散到小文件的方法有很多種，最直觀的，按前N個字母打散也行，重點是要找到一種方法，讓所有文件裡的URL數量儘可能的均勻，否則出現很大的傾斜的話，還需要再次的打散。

然後根據所取得的值將url分別存儲到1000個小文件中。這樣每個小文件的大約為300M。遍歷文件b，採取和a相同的方式將url分別存儲到1000小文件中。這樣處理後，所有可能相同的url都在對應的小文件中，不對應的小文件不可能有相同的url。然後我們只要求出1000對小文件中相同的url即可。如果因為hash的過程中導致小文件的大小不是均勻分佈，而出現有些文件還是太大，則可進行再次的hash分治，直至單個文件可以單機處理為止。

接著用hash進行統計：求每對小文件中相同的url時，可以把其中一個小文件的url存儲到hash_set中。然後遍歷另一個小文件的每個url，看其是否在剛才構建的hash_set中，如果是，那麼就是共同的url，存到文件裡面就可以了。

掌握這些海量數據算法的面試方法，提高進一線大數據公司的機會

Bit-Map

所謂的Bit-map就是用一個bit位來標記某個元素對應的Value，而Key即是該元素。由於採用了Bit為單位來存儲數據，因此在存儲空間方面，可以大大節省。但在面試過程中可能會讓你用自己熟悉的語言來寫一個Bit-map的程序，最好也提前準備好吧。

下面是關於這方面的幾個題目：（篇幅原因，只舉例兩題，博客上會持續大量更新）

在2.5億個整數中找出不重複的整數，內存不足以容納這2.5億個整數。

方案1：採用Bit-Map（每個數分配2bit，00表示不存在，01表示出現一次，10表示多次，11無意義）進行，共需內存2^32*2bit=1GB內存，還可以接受。然後掃描這2.5億個整數，查看Bit-map中相對應位，如果是00變01，01變10，10保持不變。所描完事後，查看Bit-map，把對應位是01的整數輸出即可。

方案2：也可採用上題類似的方法，進行劃分小文件的方法。然後在小文件中找出不重複的整數，並排序。然後再進行歸併，注意去除重複的元素。

已知某個文件內包含一些電話號碼，每個號碼為8位數字，統計不同號碼的個數。

8位最多99 999 999，大概需要99m個bit，大概10幾m字節的內存即可。（可以理解為從0-99 999 999的數字，每個數字對應一個Bit位，所以只需要99M個Bit==12MBytes，這樣，就用了小小的12M左右的內存表示了所有的8位數的電話）

5億個int找它們的中位數

這題也可以用Bit-Map來實現。

首先我們將int劃分為2^16個區域，然後讀取數據統計落到各個區域裡的數的個數，之後我們根據統計結果就可以判斷中位數落到那個區域，同時知道這個區域中的第幾大數剛好是中位數。然後第二次掃描我們只統計落在這個區域中的那些數就可以了。

實際上，如果不是int是int64，我們可以用分治的方法，經過3次這樣的劃分即可降低到可以接受的程度。即可以先將int64分成2^24個區域，然後確定區域的第幾大數，在將該區域分成2^20個子區域，然後確定是子區域的第幾大數，然後子區域裡的數的個數只有2^20，就可以直接進行統計了。

歡迎各位大神不吝貢獻更多的海量數據處理相關的內容，一同分享，一同進步。

底部自營廣告即是我。

相關推薦

'2019年1-7月二手車交易增長放緩，大數據或將推動行業滲透率提高'

"一、二手車市場發展迅速，消費潛力不斷釋放我國汽車市場產業快速發展，汽車保有量不斷增加，隨著消費觀念的轉變，人們不再侷限於新車消費，二手車以價格便宜、性價比高的優勢後來居上，逐步進入高速發展期。根據中國流通協會公佈的數據，2018年，全國二手車累積交易1382.19萬輛，累...

二手車大數據經濟萬物嚐鮮節 2019-09-16

'又一家大數據公司被查？起底那些“栽”在數據生意上的公司'

"近日，有網友爆料稱，杭州魔蠍科技公司（下稱“魔蠍科技”）涉嫌侵犯公民個人信息，多名員工被杭州警方抓獲。目前其官網已無法打開。從轟動一時的數據堂員工售賣公民個人信息案，到今年上半年招聘信息創業公司巧達科技人去樓空，再到如今魔蠍科技被查，大數據生意看上去並不好做。今天，隱私護...

大數據網絡爬蟲跳槽那些事兒金融人生第一份工作人工智能杭州智能家居支付寶電腦騰訊山東銀行臨沂市場營銷機器學習運營商萬物嚐鮮節頭號大贏家| 理財大賽第二季招聘眾包 2019-09-16

'北斗導航系統明年全面建成將與5G大數據深度融合'

"日前，中國衛星導航與位置服務第八屆年會暨中國北斗應用大會今天在河南鄭州國際會展中心開幕。大會上，北斗導航系統相關負責人詳細闡述了北斗導航的規劃設計與目標。據悉，本次大會以“北斗服務全球融合創新應用”為主題，旨在推動北斗衛星導航系統的融合創新應用，進一步推廣“北斗+”應用模...

北斗衛星導航系統我的第一部5G手機大數據中關村在線人造衛星技術設計經濟河南這就是河南設計師讀書 2019-09-13

'用戶個人信息被教育App“過分關注”，新規下大數據算法或要更新升級'

"隨著各地開學，教育APP又將迎來“使用旺季”，但一紙新規，或將讓整個行業發生翻天覆地的變化。近日，教育部、中央網信辦、工業和信息化部、公安部、民政部、市場監管總局、國家新聞出版署、全國“掃黃打非”工作小組辦公室等八部門聯合印發《關於引導規範教育移動互聯網應用有序健康發展的...

大數據算法技術移動互聯網新聞網絡安全軟件人生第一份工作視覺中國學而思網校 2019-09-10

'AI時代的“數據隱私”與“算法歧視”'

"文：劉志剛@互聯網江湖主編如果說近二十年來有哪一項科技成果能夠媲美上個世紀電腦的發明，那麼這份榮譽一定屬於基於深度學習算法的AI技術，因為學習算法的誕生，才使得信息時代海量信息與數據第一次能夠完整的為人們提供可商業化的價值，並將由此開啟人類的“人工智能”時代。但踏入人工智...

人工智能算法大數據技術軟件數據庫智能手機電腦人臉識別萬物嚐鮮節市場營銷 IBM 深度學習 Velocity 讀書舍恩伯格 2019-09-09

'北京農學院@萌新 2019級新生大數據裡，我們發現了這些……'

"北京農學院 2019級萌新們馬上就要步入美麗的北農校園了，今天，就讓我們為大家揭祕2019級本科新生大數據吧！012019新生人數2019年北京農學院共錄取新生1897人，包括2019級普通本科新生1685人，專升本新生157人，預科新生55人。萌新們來自全國25個省市區...

大數據大學中國高等專科學生升本科考試昌平哈薩克族西藏回族密雲縣 2019-09-06

'營收翻倍增長，這家公司如何幫國網等大企業做數據治理？'

"專注數據治理，為傳統行業數據中臺落地提供專業方案調研 | 李喆撰寫 | 施堯最近一年，阿里的“中臺”成為大數據行業最為火熱的名詞，不僅僅是大型互聯網公司紛紛效仿，就連傳統企業也都是實行“中臺”戰略，數據中臺建設是其中最重要的一環。伴隨著數據中臺的興起，數據資產化、數據治...

人生第一份工作大數據技術國家電網銀行市場營銷中國移動 SAP公司設計中國建設銀行中國電信深度學習人工智能中國南方電網 2019-09-06

'解讀人工智能、大數據和雲計算的關係，大佬們的AI賭局竟都輸了？'

"導讀：人工智能（Artificial Intelligence，AI）、大數據（Big Data）和雲計算（Cloud Computing）是當前最受關注的技術，業內常常取這三個技術英文名的首字母將其合稱為ABC。最近10年，資本和媒體對這三種技術的熱度按時間排序依次為：...

人工智能大數據雲計算技術電腦達特茅斯學院阿蘭·圖靈麻省理工學院算法無人駕駛卡內基梅隆大學馮諾伊曼 IBM 大學模仿遊戲機器人人類的故事馮雷哲學馬文·閔斯基普林斯頓大學人生第一份工作數學硬件約翰·麥卡錫 2019-09-06

'護城河、風口、生態、大數據、雲計算、垂直領域、去中心化、長尾'

"今日繼續學習互聯網名詞：護城河、風口、生態、大數據、雲計算、垂直領域、去中心化、長尾效應名詞護城河：別人幹不了的活兒，但更多指以為別人幹不了的活兒護城河就像一個強大的威懾，使得敵人不敢進攻，裡面的首領也不獨佔。目前供應商的差異化與網絡效應的外部化程度之間的關係，形成了一個...

雲計算大數據移動互聯網投資體育軟件物聯網技術平板電腦蘋果公司 2019-09-06

'基金公司\'炒股\'大數據！有人瘋狂換手，有人\'拿著不動\'，最高相差40倍！誰更賺錢？'

"中國基金報記者方麗基金“換手率”高低一直是基金投資者關注的問題。究竟公募基金換手率水平如何？換手率的高低對基金業績影響怎樣？去年賺錢最多的基金換手率是多少？天相投顧統計基金2019年上半年持股週轉率數據將這些情況揭曉。公募換手率1.688倍究竟什麼是持股週轉率？週轉率其...

證券投資基金公募投資大數據易方達中信建投證券人生第一份工作藍籌股 2019-09-04

'人工智能、大數據和雲計算的關係，終於有人講明白了'

人工智能大數據雲計算技術阿蘭·圖靈達特茅斯學院麻省理工學院電腦算法卡內基梅隆大學無人駕駛 IBM 模仿遊戲機器人馮諾伊曼大學馮雷人類的故事數學馬文·閔斯基普林斯頓大學硬件約翰·麥卡錫克勞德·香農人生第一份工作 2019-09-04

'（002316）潛力股：雲計算、物聯網、5G、大數據、獨角獸、華為'

"亞聯發展主營業務：從事專網信息通信技術解決方案業務的服務商，主要為能源、交通等行業提供信息通信技術解決方案，包括相關軟硬件產品的研發、製造與服務，以及第三方支付業務。產品類型：專網通訊技術解決方案、交通工程系統集成、收單服務、硬件銷售公司積極與華為公司在雲計算和大數據領域...

華為公司雲計算大數據技術我的第一部5G手機物聯網投資通信交通人生第一份工作鍵橋通訊能源雲南設計硬件算法 2019-09-04

'我，只是被大數據掌握的的一個數據罷了'

"大數據，大家對這個字眼早已不再陌生。每個人對它也有不同的理解，而我作為一個非專業人事，除了字面意思，更多的也只是"百度一下”,那些官方的詞語也只是看看就好。（想了解更多的自己搜哈~）先舉個簡單的栗子來了解下大數據的力量吧~早在17年，馬雲馬爸爸就用大數據找出了全國女性胸最...

大數據馬雲軟件電視盒子權力的遊戲電腦百度 2019-09-03

'鴻卓課工場—應該學習更多的Java編程技術還是大數據和雲計算技術'

"首先，學習更多的編程技術與學習大數據和雲計算並不衝突，Java語言也是大數據和雲計算領域比較常見的開發工具，所以完全可以同步進行。隨著大數據、雲計算和人工智能相關技術的發展，目前從事技術開發的程序員崗位也出現了一些比較顯著的變化，從技術崗位上來看，有兩個崗位的人才需求數量...

Java 大數據技術雲計算程序員跳槽那些事兒電腦 2019-09-03

'英冠主力進不了國足？大數據告訴你原因，裡皮不傻'

"大家好，這裡是廣州足球匯！有最新的足球資訊和競彩推薦，記得點個關注哦！近日，據多家國內權威媒體報道，效力於北京國安的歸化球員李可不會入選國足客戰馬爾代夫的23人名單。作為近幾年英冠勁旅布倫特福德絕對主力，李可早在6月份國足的兩場友誼賽上便身披國家隊戰袍上場廝殺，是中國足球...

中國足球馬爾切洛·裡皮池忠國英格蘭足球冠軍聯賽足球中國足球超級聯賽大數據北京國安足球俱樂部英格蘭足球超級聯賽武磊馬爾代夫 2019-09-03

'英冠主力進不了國足？大數據告訴你歸化球員不強，裡皮不傻'

"近日，據多家國內權威媒體報道，效力於北京國安的歸化球員李可不會入選國足客戰馬爾代夫的23人名單。李可很有可能落選國足大名單作為近幾年英冠勁旅沃特福德絕對主力，李可早在6月份國足的兩場友誼賽上便身披國家隊戰袍上場廝殺，是中國足球歷史上進入國家隊的歸化第一人。無論是在國足友誼...

中國足球馬爾切洛·裡皮池忠國英格蘭足球冠軍聯賽中國足球超級聯賽大數據足球北京國安足球俱樂部武磊沃特福德足球俱樂部 2019-09-02

'雲計算和大數據的區別'

"隨著科技的進步，全面實現生產過程和業務管理的數字化、智能化是企業保持市場競爭力的關鍵，在這一過程中對數據的處理和運用將極大的增強企業的核心競爭力，同時，AI 的進步為企業提供了自動化的業務流程，並深刻改變著客戶體驗和產品差異。當企業紛紛利用這些技術，來降低管理費用，擴大業...

雲計算大數據數據庫數據挖掘技術人工智能物聯網電腦軟件如果雲算法硬件經濟人生第一份工作 2019-09-01

'雲計算+人工智能+大數據（002649）：淨利暴漲41%，反彈低吸吃肉'

"大牛邏輯：1、"主線＋熱點"，牛股的搖籃。2、"主線＋熱點＝G點"，G點乃買點。3、跟著資金走，每晚會有酒；跟著資金幹，夜夜都浪漫。4、鎖定主線，保持節奏；跟蹤熱點，緊盯龍頭；低吸高拋，滾倉操作博彥科技：002649主營業務：為客戶提供信息服務外包（ITO）服務和基於信息...

大數據博彥科技雲計算人工智能技術華鵬飛金融人生第一份工作龍津藥業社交網絡需求分析市場營銷知識產權軟件深國商 2019-08-31

'喝茶能降血脂嗎？雖然有大數據支持，但醫生說，還得堅持全面健康'

"大江南北，無論去哪個城市，都會品到當地的茶，尤其是跟著旅行團，更會被請進一個茶社，免費喝上當地茶，並且被告知當地茶的好處，尤其是適合三高人群及心腦血管疾病的飲，更適合老年人提高免疫力，提高抵抗力，抗癌等等效果。自然有很多朋友會帶一些回去慢慢喝，茶主要分為綠茶、紅茶、烏龍...

高血脂紅茶大數據心血管病綠茶茶白茶烏龍茶蔬菜黑茶心血管水果跳槽那些事兒黃茶 2019-08-31

'進軍數據人，這些你都掌握了嗎？SQL，Excel、python、大數據等'

"最近經常遇到有朋友問下面這類問題，結合最近的一些思考，本篇聊一下，數據人該具備哪些通用的技能。“數據開發到底用不用學算法？”“Excel 有必要學嗎？”“數據產品經理需要了解技術嗎？”技能分為兩部分：工具和知識。工具包括Excel、Sql 和 Python，知識包括大數據...

Excel Python SQL 大數據技術人工智能人生第一份工作設計數據挖掘 2019-08-30

推薦中...