Hadoop數據分析流程介紹

Hadoop 數據挖掘 jQuery 電子商務樂搏學院 2017-08-02

一個應用廣泛的數據分析系統：“web日誌數據挖掘”

Hadoop數據分析流程介紹

需求分析

一般中型的網站(10W的PV以上)，每天會產生1G以上Web日誌文件。大型或超大型的網站，可能每小時就會產生10G的數據量。

具體來說，比如某電子商務網站，在線團購業務。每日PV數100w，獨立IP數5w。用戶通常在工作日上午10:00-12:00和下午15:00-18:00訪問量最大。日間主要是通過PC端瀏覽器訪問，休息日及夜間通過移動設備訪問較多。網站搜索瀏量佔整個網站的80%，PC用戶不足1%的用戶會消費，移動用戶有5%會消費。

對於日誌的這種規模的數據，用HADOOP進行日誌分析，是最適合不過的了。

案例需求描述

“Web點擊流日誌”包含著網站運營很重要的信息，通過日誌分析，我們可以知道網站的訪問量，哪個網頁訪問人數最多，哪個網頁最有價值，廣告轉化率、訪客的來源信息，訪客的終端信息等。

數據來源

本案例的數據主要由用戶的點擊行為記錄

獲取方式：在頁面預埋一段js程序，為頁面上想要監聽的標籤綁定事件，只要用戶點擊或移動到標籤，即可觸發ajax請求到後臺servlet程序，用log4j記錄下事件信息，從而在web服務器（nginx、tomcat等）上形成不斷增長的日誌文件。

形如：

58.215.204.118 - - [18/Sep/2013:06:51:35 +0000] "GET /wp-includes/js/jquery/jquery.js?ver=1.10.2 HTTP/1.1" 304 0 "http://blog.fens.me/nodejs-socketio-chat/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"

數據處理流程

流程圖解析

本案例跟典型的BI系統極其類似，整體流程如下：

Hadoop數據分析流程介紹

但是，由於本案例的前提是處理海量數據，因而，流程中各環節所使用的技術則跟傳統BI完全不同，後續課程都會一一講解：

1) 數據採集：定製開發採集程序，或使用開源框架FLUME

2) 數據預處理：定製開發mapreduce程序運行於hadoop集群

3) 數據倉庫技術：基於hadoop之上的Hive

4) 數據導出：基於hadoop的sqoop數據導入導出工具

5) 數據可視化：定製開發web程序或使用kettle等產品

6) 整個過程的流程調度：hadoop生態圈中的oozie工具或其他類似開源產品

項目技術架構圖

Hadoop數據分析流程介紹

項目最終效果

經過完整的數據處理流程後，會週期性輸出各類統計指標的報表，在生產實踐中，最終需要將這些報表數據以可視化的形式展現出來，本案例採用web程序來實現數據可視化

效果如下所示：

Hadoop數據分析流程介紹

關注“樂搏學院”跟徐老師一起走進大數據世界，零基礎入門很簡單！

Ambari：大數據平臺搭建利器

￥38

購買

相關推薦

'新手看過來！關於FBA的操作流程及注意事項你知道多少？'

"在亞馬遜平臺銷售產品，除了極少數的產品採用自發貨外，大部分賣家都會採用FBA發貨，雖然FBA成本支出比自發貨更多，但是FBA發貨的Listing的售價往往比自發貨的高出不少，並且使用FBA也是決定亞馬遜產品排名的一個重要因素。下面就給大家詳細講解一下如何設置FBA發貨以及...

亞馬遜公司電子商務深圳 2019-09-18

'Lazada新手賣家教程：平臺概況、開店流程、費用詳情'

"現在市場上有大量電商平臺，因此為自己選擇合適的平臺是一項艱鉅的任務。你需要花費很多時間來評估每個平臺的所有優點和缺點，因此本文將帶你瞭解Lazada平臺的概況、註冊流程、主要功能和相關規則，助你在Lazada平臺開展業務。 1、如何在Lazada進行銷售？Lazada平臺...

電子商務馬來西亞投資 2019-09-17

'兩份OFFER都叫數據分析，且待遇一樣，是可以隨便選了嗎？'

"電子商務專業的小紅同學，經過2個多月的努力，終於拿到了兩個看起來比較滿意的OFFER。於是，“很愉快”地進入了求職的“權力反轉時刻”——OFFER選擇階段啦。咱們佔有主動權當然是一件好事！不過，選擇本身並不容易：因為選擇一個就等於放棄了另外一個，放棄的可是機會成本呀。所以...

人生第一份工作電子商務市場營銷產品經理軟件 Java 招聘設計 2019-09-15

'數據分析（一）：數據分析的意識'

"對於產品經理來說，數據分析能力的核心不在方法理論和工具模型，更多的是要能夠敏銳的發現應該去關注的數據、並且能夠從這些數據中找出潛在的規律，推理出數據背後的導致原因。在如今信息越來越龐雜的年代，無論是個人還是公司，難免都會被諸多無效的信息給充斥，而信息在某種程度上，也可以等...

產品經理騰訊QQ UGC 人生第一份工作淘寶網電子商務 2019-09-14

'Hadoop、Storm、Samza、Spark和Flink大數據框架分析'

"大數據是收集、整理、處理大容量數據集，並從中獲得見解所需的非傳統戰略和技術的總稱。雖然處理數據所需的計算能力或存儲容量早已超過一臺計算機的上限，但這種計算類型的普遍性、規模，以及價值在最近幾年才經歷了大規模擴展。本文將介紹大數據系統一個最基本的組件：處理框架。處理框架負責...

Hadoop 大數據 Storm Spark HDFS Apache MapReduce 技術設計電腦歷史 2019-09-14

'Shopee怎麼樣？Shopee的整體介紹？整體態勢？基本情況？'

"大家好，我是圖樂。專注於Shopee跨境知識分享，歡迎關注公眾號：圖樂跨境說。一：Shopee公司介紹Shopee於2015年上線於東南亞的電子商務平臺，通過這幾年的發展，已經成為東南亞地區最大的跨境電商平臺之一。總部位於新加坡，是遊戲公司Sea Group旗下的電子商務...

C2C 萬物嚐鮮節電子商務新加坡英語香港蝦皮銀行人生第一份工作馬來西亞信用卡 2019-09-14

'乾貨｜詳解大數據之Hadoop—Hbase，讓小白都能讀懂的大數據教程'

"通過之前的介紹，我們瞭解了Hadoop框架下兩個核心技術，我們發現這兩個核心技術有一個共同的不足：操作數據延時性較高，不適合實時操作的場景。那麼今天我們來看看Hadoop框架下可以實現實時讀寫訪問的組件——Hbase。工程師：什麼是Hbase?小白：Hbase全稱為Had...

HBase Hadoop 大數據數據庫技術 HDFS 設計數據結構物理通信 MapReduce 分佈式計算工程師 SQL 穿越火線 2019-09-12

'作為一名阿里巴巴數據分析大牛，送給學弟學妹的經驗積分'

"作為一名熱愛數據分析、通過努力拿到心儀offer的學生，是許許多多通過努力實現目標的學生中的普通一員。一路走來，我把自己的經歷按照時間線寫下來，中間穿插我的經驗，在記錄自己工作的同時，希望能給想要進入數據分析師崗位的學弟學妹們一點點的小收穫。一、本科4年，初識數學建模，愛...

阿里巴巴集團數據挖掘數據庫技術大數據算法工程師 SQL SPSS 數據結構 Python Excel 數學人生第一份工作機器學習人工智能分析師哈爾濱工業大學市場營銷圖像處理可視化技術 MATLAB SAP公司語音識別技術高考百度讓夢發生 2019-09-12

'每天2小時，20天掌握數據分析必備技能'

"對比互聯網各個崗位的裁員程度可以發現，數據分析相關崗位正在不斷的擴招，已經成為了這波逆流中的黑馬，什麼原因導致的數據分析人才如此緊缺？因為數據分析是大勢所趨，未來的發展空間會大有可為。隨著5G網絡即將商用，企業每天將會產生海量的數據，BAT日均數據更是達到了PB的級別，數...

網絡爬蟲 Scrapy 機器學習 SQL Excel Python 數據挖掘數學程序員百度人生第一份工作 2019-09-12

'數據分析：喜茶和奈雪の茶'

"這個世界有太多新奇的事是難以理解的，就像驚歎年輕人居然為一杯奶茶能排那麼長長長的隊伍。成都喜茶開幕排隊盛況兩個現象級的奶茶品牌：喜茶和奈雪の茶，二者之所以成為佼佼者，其實有著許多相似點：產品力——全新的口味研發；品牌力——更年輕活力的品牌形象；營銷力——更專業的營銷推廣內...

市場營銷奶茶數據挖掘糕點跳槽那些事兒社交網絡設計小吃雲計算 2019-09-08

'「大數據分析」學習大數據分析要什麼基礎，零基礎入門ok嗎？'

"身處21世紀的今天，數據分析行業急劇發展，越來越多的企業已經意識到大數據分析的重要性和發展潛力，同時越來越多的傳統行業公司開始轉型升級，開始引入並發展專屬自己的大數據分析部門及崗位。由此也滋生了越來越多的人想進入大數據領域——或許你是即將畢業的大學生，基於自己的文科背景擔...

大數據數據庫 Hadoop 機器學習編程語言 Linux 技術 Spark Windows SQL 虛擬機人生第一份工作 Java 電腦算法分佈式計算 CentOS 軟件 Ubuntu 大學 HDFS 2019-09-08

'基於角色的數據分析：定義+價值+方法論'

"摘要：企業基於目標角色進行數據分析，可啟發性地揭示數據趨勢並有效地獲得用戶洞察力。許多企業在項目的初始構思和設計階段會分析不同群體的角色特徵，但在解決設計階段的爭論之後就將這些信息束之高閣。但是，實踐證明角色信息的應用能有效幫助企業進行長期維護。具體來說，基於角色特徵進行...

投資 SaaS Android 文化設計人生第一份工作電子商務軟件新聞 iOS 2019-09-08

'裂變是小程序的靈魂，數據分析是裂變的關鍵'

"流量紅利消失？社交紅利正當時，而社交紅利的寵兒非小程序莫屬。小程序憑藉與微信共生的輕量級產品形式，配備靈活便捷的體驗及開放的解決方案能力，具備天然的優勢，極其巧妙地滿足了場景驅動化、體驗極致化、流量泛化的市場需求，為裂變提供了天然的土壤。在神策數據服務的 1000 多家客...

社交網絡數據挖掘工業設計咖啡設計 2019-09-07

'「大數據分析」十個大數據分析商業項目案例與企業實戰案例'

"一、數據分析——項目案例應用項目一、攜程口碑數據挖掘系統本系統的主題是利用數據分析、數據挖掘技術分析攜程的口碑數據，準確把控用戶行為路徑，進一步挖掘用戶價值的目的；項目中會用到用戶運營分析相關的AARRR-用戶路徑行為分析、AARRR模型和內容；同時也會利用爬蟲技術對攜程...

大數據機器學習數據挖掘數據庫技術可視化技術人生第一份工作招聘 Python 攜程旅行網軟件算法網絡爬蟲 Kaggle 跳槽那些事兒設計 Scrapy 萬物嚐鮮節分析師 MySQL 2019-09-07

'東南亞Lazada平臺到底值不值得做？Lazada入駐條件&註冊流程&開店費用詳解'

"一、Lzada平臺介紹Lazada成立於2012年，是東南亞最大的電子商務平臺,中文名為來贊達，主要目標市場是東南亞6國即：馬來西亞、印度尼西亞、新加坡、泰國、越南、菲律賓。平臺用戶超過3億個SKU，主要經營3C電子、家居用品、玩具、時尚服飾、運動器材等產品，平臺從成立不...

亞馬遜公司電子商務越南新加坡深圳速賣通印度尼西亞 eBay 馬來西亞星期六鞋業申通快遞義烏 2019-09-06

'「大數據分析」深入淺出：如何從零開始學習大數據分析與挖掘'

"文章梳理了學習大數據挖掘分析的思路與步驟，給大家提供一些參考，希望能夠對你有所幫助。最近有很多人想學習大數據，但不知道怎麼入手，從哪裡開始學習，需要學習哪些東西？對於一個初學者，學習大數據分析與挖掘的思路邏輯是什麼？本文就梳理了如何從0開始學習大數據挖掘分析，學習的步驟思...

數據挖掘大數據數據庫算法機器學習 Python SPSS 可視化技術技術人生第一份工作工程師文章人工智能軟件編程語言深度學習 2019-09-05

'「大數據就業」大數據分析：大數據分析管理崗都有哪些要求'

"大數據分析管理崗：副總裁、總監、經理、leader需要相應具備哪些能力？大數據分析副總裁崗位職責：1、構建多中心雲平臺，實現各數據中心交互；2、建立數據存儲、核心算法、分析、交付的標準；3、負責構建基於數據分析與數據挖掘業務分析體系；4、解決數據分析應用開發過程中的疑難問...

大數據數據庫機器學習技術數據挖掘 Python 算法深度學習 Spark 自然語言處理操作系統 Hadoop 軟件 Linux 人生第一份工作設計雲計算金融信息檢索腳本語言 Hive 並行計算語音識別技術 UNIX 2019-09-04

'圍觀：使用Hadoop和ELK進行業務代碼分析！分分鐘捉到Bug'

"大數據是計算領域的新高地，它有望提供一種方法來應對二十一世紀不斷增長的數據生成。越來越多的大數據愛好者正在湧現，越來越多的公司正在採用各種大數據平臺，並希望提出以客戶為中心的解決方案，幫助他們在競爭激烈的市場中取得領先地位。雖然最常見的是使用大數據解決方案來推導針對業務收...

Hadoop 大數據軟件 ElasticSearch 銀行技術 SQL Spark HDFS 可視化技術人力資源 2019-09-03

'有關印度社交電商平臺Meesho的介紹'

"meesho成立於2016年，作為印度的社交電商平臺，C輪融資由雷軍旗下順為資本領投，紅杉資本等跟投，於2019年6月獲得Facebook在印度的首次財務投資，截至2019年8月，目前平臺註冊分銷商達1000萬，月活躍分銷商達50萬，日均訂單量15萬。meesho作為印度...

電子商務印度 Facebook Twitter Instagram 投資銀行雷軍時尚人生第一份工作 2019-09-03

'Hadoop是什麼，能幹什麼，怎麼使用'

"1、Hadoop是什麼1.1、小故事版本的解釋小明接到一個任務：計算一個100M的文本文件中的單詞的個數，這個文本文件有若干行，每行有若干個單詞，每行的單詞與單詞之間都是以空格鍵分開的。對於處理這種100M量級數據的計算任務，小明感覺很輕鬆。他首先把這個100M的文件拷貝...

Hadoop HDFS MapReduce 數據庫大數據電腦分佈式計算 Java Lucene 設計虛擬機 Spark 數據挖掘 2019-09-02

推薦中...