'大數據工程師到日常工作到底都是什麼?'

大數據 工程師 Hadoop 技術 設計 人生第一份工作 洛陽課工場武月老師 2019-09-02
"

所謂大數據,就是量大且複雜到人工無法輕易獲取、整合的數據。

這個“大”的量是個天文數字,而機器可以 獲取、整合、處理,甚至比較精確地分析,能極大效率地提高信息處理速度,讓信息更直觀地呈現在人們眼前,極大地便利了人們進行進一步的分析。

"

所謂大數據,就是量大且複雜到人工無法輕易獲取、整合的數據。

這個“大”的量是個天文數字,而機器可以 獲取、整合、處理,甚至比較精確地分析,能極大效率地提高信息處理速度,讓信息更直觀地呈現在人們眼前,極大地便利了人們進行進一步的分析。

大數據工程師到日常工作到底都是什麼?

那麼,今天我們就來了解一下大數據工程師的日常工作內容。對於技術完全一頭霧水的小夥伴請直接跳到“情景”那一欄開始閱讀。

首先讓我們先了解下大數據工程的日常工作,通常包括兩個方面 – 數據需求以及處理需求。

數據需求

結構:你應該知道數據可以儲存在表中或者文件中。

儲存在一個預定義的數據模型(即擁有架構)中的數據稱為結構化數據。如果數據儲存在文件中且沒有預定義模型,則稱為非結構化數據。(種類:結構化/非結構化)。

容量:數據的數量。(種類:S/M/L/XL/XXL/流)

Sink吞吐量:系統所能接受的數據速度。(種類:H/M/L)

源吞吐量:數據更新和轉化進入系統的速度。(種類:H/M/L)

處理需求

查詢時間:系統查詢所需時間。(種類:長/中/短)

處理時間:處理數據所需時間。(種類:長/中/短)

精度:數據處理的精確度。(種類:準確/大約)

下面,我們舉個例子說明上述工作內容:

情景:

為分析一個公司的銷售表現需要設計一個系統,為此你需要創建一個數據池,數據池來自於多重數據源,比如客戶數據、領導數據、客服中心數據、銷售數據、產品數據、博客等。

設計目標:

1. 通過整合各種來源的數據創建一個數據池。

2. 每隔一定時間自動更新數據(在這個案例中可能是一週一次)。

3. 可用於分析的數據(在記錄時間內,甚至可能是每天)

4. 易得的架構和無縫部署的分析控制面板。

數據要求:

結構:大部分數據是結構化的,並具有一個定義了的數據模型。但數據源如網絡日誌,客戶互動/呼叫中心數據,銷售目錄中的圖像數據,產品廣告數據等是非結構化的。圖像和多媒體廣告數據的可用性和要求可能取決於各個公司。

結論:結構化和非結構化數據

大小:L或XL(選擇Hadoop)

Sink 吞吐量:高

質量:中等(Hadoop&Kafka)

完整性:不完整

處理要求

查詢時間:中至長

處理時間:中至短

精度:準確

隨著多個數據源的集成,要注意不同的數據將以不同的速率進入系統。

文章內容來源於網絡,如有侵權請聯繫刪除

"

相關推薦

推薦中...