所謂大數據,就是量大且複雜到人工無法輕易獲取、整合的數據。
這個“大”的量是個天文數字,而機器可以 獲取、整合、處理,甚至比較精確地分析,能極大效率地提高信息處理速度,讓信息更直觀地呈現在人們眼前,極大地便利了人們進行進一步的分析。
所謂大數據,就是量大且複雜到人工無法輕易獲取、整合的數據。
這個“大”的量是個天文數字,而機器可以 獲取、整合、處理,甚至比較精確地分析,能極大效率地提高信息處理速度,讓信息更直觀地呈現在人們眼前,極大地便利了人們進行進一步的分析。
那麼,今天我們就來了解一下大數據工程師的日常工作內容。對於技術完全一頭霧水的小夥伴請直接跳到“情景”那一欄開始閱讀。
首先讓我們先了解下大數據工程的日常工作,通常包括兩個方面 – 數據需求以及處理需求。
數據需求
結構:你應該知道數據可以儲存在表中或者文件中。
儲存在一個預定義的數據模型(即擁有架構)中的數據稱為結構化數據。如果數據儲存在文件中且沒有預定義模型,則稱為非結構化數據。(種類:結構化/非結構化)。
容量:數據的數量。(種類:S/M/L/XL/XXL/流)
Sink吞吐量:系統所能接受的數據速度。(種類:H/M/L)
源吞吐量:數據更新和轉化進入系統的速度。(種類:H/M/L)
處理需求
查詢時間:系統查詢所需時間。(種類:長/中/短)
處理時間:處理數據所需時間。(種類:長/中/短)
精度:數據處理的精確度。(種類:準確/大約)
下面,我們舉個例子說明上述工作內容:
情景:
為分析一個公司的銷售表現需要設計一個系統,為此你需要創建一個數據池,數據池來自於多重數據源,比如客戶數據、領導數據、客服中心數據、銷售數據、產品數據、博客等。
設計目標:
1. 通過整合各種來源的數據創建一個數據池。
2. 每隔一定時間自動更新數據(在這個案例中可能是一週一次)。
3. 可用於分析的數據(在記錄時間內,甚至可能是每天)
4. 易得的架構和無縫部署的分析控制面板。
數據要求:
結構:大部分數據是結構化的,並具有一個定義了的數據模型。但數據源如網絡日誌,客戶互動/呼叫中心數據,銷售目錄中的圖像數據,產品廣告數據等是非結構化的。圖像和多媒體廣告數據的可用性和要求可能取決於各個公司。
結論:結構化和非結構化數據
大小:L或XL(選擇Hadoop)
Sink 吞吐量:高
質量:中等(Hadoop&Kafka)
完整性:不完整
處理要求
查詢時間:中至長
處理時間:中至短
精度:準確
隨著多個數據源的集成,要注意不同的數據將以不同的速率進入系統。
文章內容來源於網絡,如有侵權請聯繫刪除