百度搜索:小強測試品牌
交流群:165380836
Hadoop來臨
特點:
海量數據需要及時分析和處理。
海量數據需要深入分析和挖掘。
數據需要長期保存
問題:
磁盤IO成為一種瓶頸,而非CPU資源。
網絡帶寬是一種稀缺資源
硬件故障成為影響穩定的一大因素
Hadoop在國內的應用
奇虎360:Hadoop存儲軟件管家中軟件,使用CDN技術將用戶請求引到最近的Hadoop集群並進行下載
京東、百度:存儲、分析日誌、數據挖掘和機器學習(主要是推薦系統)
廣告類公司:存儲日誌,通過協調過濾算法為客戶推薦廣告
Yahoo:垃圾郵件過濾
華為:雲計算平臺
Facebook:日誌存儲,實時分析
某公安部項目:網民QQ聊天記錄與關聯人調查系統,使用Hbase實現
某學校:學生上網與社會行為分析,使用hadoop
淘寶、阿里:國內使用Hadoop最深入的公司,整個Taobao和阿里都是數據驅動的
Hadoop介紹
作者:Doug Cutting(Hadoop的得名 :“這個名字是我孩子給一個棕黃色的大象玩具命名的。我的命名標準就是簡短,容易發音和拼寫,沒有太多的意義,並且不會被用於別處。)
Hadoop實現了一個分佈式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,並且設計用來部署在低廉的(low-cost)硬件上;而且它提供高傳輸率(high throughput)來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。
Hadoop特點
⒈高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。
⒉高擴展性。Hadoop是在可用的計算機集簇間分配數據並完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。
⒊高效性。Hadoop能夠在節點之間動態地移動數據,並保證各個節點的動態平衡,因此處理速度非常快。
⒋高容錯性。Hadoop能夠自動保存數據的多個副本,並且能夠自動將失敗的任務重新分配。
5.低成本。與一體機、商用數據倉庫等數據集市相比,hadoop是開源的,項目的軟件成本因此會大大降低。
Hadoop帶有用Java語言編寫的框架,因此運行在 Linux 生產平臺上是非常理想的。Hadoop 上的應用程序也可以使用其他語言編寫,比如 C++。
Hadoop生態結構
Hbase
Nosql數據庫,Key-Value存儲
最大化利用內存
HDFS
hadoop distribute file system分佈式文件系統
最大化利用磁盤
MapReduce
編程模型,主要用來做數據的分析
最大化利用CPU
Hadoop測試常見問題和測試方法
http://xqtesting.blog.51cto.com/4626073/1349097