大數據時代的遨遊

大數據 Hadoop 軟件 HDFS 小強測試品牌 2017-07-16

百度搜索:小強測試品牌

交流群:165380836

Hadoop來臨

特點:

海量數據需要及時分析和處理。

海量數據需要深入分析和挖掘。

數據需要長期保存

問題:

磁盤IO成為一種瓶頸,而非CPU資源。

網絡帶寬是一種稀缺資源

硬件故障成為影響穩定的一大因素

Hadoop在國內的應用

奇虎360:Hadoop存儲軟件管家中軟件,使用CDN技術將用戶請求引到最近的Hadoop集群並進行下載

京東、百度:存儲、分析日誌、數據挖掘和機器學習(主要是推薦系統)

廣告類公司:存儲日誌,通過協調過濾算法為客戶推薦廣告

Yahoo:垃圾郵件過濾

華為:雲計算平臺

Facebook:日誌存儲,實時分析

某公安部項目:網民QQ聊天記錄與關聯人調查系統,使用Hbase實現

某學校:學生上網與社會行為分析,使用hadoop

淘寶、阿里:國內使用Hadoop最深入的公司,整個Taobao和阿里都是數據驅動的

Hadoop介紹

作者:Doug Cutting(Hadoop的得名 :“這個名字是我孩子給一個棕黃色的大象玩具命名的。我的命名標準就是簡短,容易發音和拼寫,沒有太多的意義,並且不會被用於別處。)

Hadoop實現了一個分佈式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,並且設計用來部署在低廉的(low-cost)硬件上;而且它提供高傳輸率(high throughput)來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。

Hadoop特點

⒈高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。

⒉高擴展性。Hadoop是在可用的計算機集簇間分配數據並完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。

⒊高效性。Hadoop能夠在節點之間動態地移動數據,並保證各個節點的動態平衡,因此處理速度非常快。

⒋高容錯性。Hadoop能夠自動保存數據的多個副本,並且能夠自動將失敗的任務重新分配。

5.低成本。與一體機、商用數據倉庫等數據集市相比,hadoop是開源的,項目的軟件成本因此會大大降低。

Hadoop帶有用Java語言編寫的框架,因此運行在 Linux 生產平臺上是非常理想的。Hadoop 上的應用程序也可以使用其他語言編寫,比如 C++。

Hadoop生態結構

Hbase

Nosql數據庫,Key-Value存儲

最大化利用內存

HDFS

hadoop distribute file system分佈式文件系統

最大化利用磁盤

MapReduce

編程模型,主要用來做數據的分析

最大化利用CPU

Hadoop測試常見問題和測試方法

http://xqtesting.blog.51cto.com/4626073/1349097

相關推薦

推薦中...