遇見大數據可視化:人人都能做數據可視化

數據挖掘 可視化 大數據 川菜 造數君 2017-06-15

之前寫過幾篇大數據的文章《遇見大數據可視化 :基礎研究》,《遇見大數據可視化 : 來做一個數據可視化報表》,《遇見大數據可視化 : 圖表的視覺系統感知》。得到了身邊不少小夥伴的認可,都覺得數據可視化是一件挺有意思的事情,紛紛投入到數據可視化上來。

但是很快一腔熱血就被澆滅了,很多小夥伴都反映來說做數據可視化的學習成本太高了。從最開始數據的挖掘(學習Python,JavaScript,R語言等等),再到可視化圖表的設計(學習Processing,D3.js,PhotoShop,Illustrator等等),還要看各種書籍。其實小夥伴的目標只是想簡單的做一些不是很複雜的數據可視化,但陡峭的學習成本,讓很多小夥伴望而卻步,看到各種複雜的教程,簡直是從入門到放棄。

那麼有沒有什麼好的辦法,可以不用學習這麼多的知識點,而能做一些不太複雜的數據可視化圖表出來呢?答案肯定是有的,那下面就手把手的帶領大家,零代碼來做數據可視化圖表。

【生產力有兩項,一項是人,一項是工具。工具是由人創造的。 - 毛主席】

想要零代碼來完成數據可視化圖表來,很簡單,只要選好工具來就可以了。網上有很多介紹各種工具的文章,這裡就不一一的去粗淺的介紹各種工具,而是深入的用案列的方式帶大家瞭解我覺得還不錯的可視化工具(數據挖掘和可視化圖表),目標的就是讓大家可以零代碼的做一些簡單的可視化分析報表出來。

既然是按照案列的方式,那首先需要確定我們做什麼主題。作為一個四川人,每次做自我介紹的時候,都會說到四川的美食,川菜作為中國八大菜系之一,還是深受廣大人民的喜愛的。那麼我們就用數據,來看看川菜和中國其他菜系(魯菜、川菜、粵菜、蘇菜,浙菜、閩菜、湘菜、徽菜)到底有什麼不同,來做一個【中國八大菜系菜譜數據可視化圖表分析】出來。

主題確定了,下一步就是數據的挖掘。 一般來說,基礎數據的來源分為這幾類。

  • 自家數據 – 自家應用APP收集的數據。不對外輸出,最好的數據來源,純潔數據拿來就可以用。

  • 行業報告 – 上市公司的年報、半年報、工商系統、股轉系統。定期對外輸出,有干擾項。

  • 政府官方數據 – 國家統計局,中國環境監測總站,世界銀行等。定期對外輸出,或有接口API,干擾項較少。

  • 全網公開數據 – 拉勾、知乎、鏈家、雪球等公開網站的數據。需自己抓取數據,干擾項較多,一般都需要做二次數據清理。

那這次我們要做菜譜的分析,自家數據是沒有的。行業報告和政府官方數據也沒有這方面的數據。所以我們只能去網上自己爬取相關數據了。簡單找了一番,就發現了很多的菜譜網站,比如【下廚房】、【美食天下】、【豆果美食】、【好豆網】等等,這些網站上面都有大量用戶上傳的各種菜譜。這裡我選擇【美食天下】來爬菜譜數據,因為【美食天下】剛好有按照菜系進行分類,這樣我們在做二次數據清理的時候,就可以減少一個步驟了。

遇見大數據可視化:人人都能做數據可視化

上圖就是我們需要爬取的一條內容。有了爬取網站,確定了爬取內容。接下來就開始對數據開始爬取。怎麼爬取呢?代碼大神通常會推選用Python來做數據的爬取。

說好的零代碼呢。這時候就要給大家推薦第一款數據挖掘的工具了 - 【造數】https://zaoshu.io 對於簡單的數據爬取足夠用的工具,簡單的瞭解,10分鐘就能上手。

下面我們就開始進行數據的爬取。

第一步:輸入需要爬取的網站地址,然後點擊【開始爬取】。

遇見大數據可視化:人人都能做數據可視化

第二步:設置爬取規則。點擊【開始爬取】後,會進入這個界面,在這個頁面進行爬取規則的制定(就是選擇出我們需要獲取的內容),只需點擊我們想要的內容即可,下圖綠色區域就是我們需要的內容,然後點擊【完成創建】。

遇見大數據可視化:人人都能做數據可視化

第三步:執行下載數據。這步就可以下載數據了,只需三步造數就能得到想要的數據,而不需要各種配置。

遇見大數據可視化:人人都能做數據可視化

下圖就是下載下來的原始數據,大致是這樣的,全部彙總在一個Excel表中。在這裡有菜譜名稱,網站地址,和所需原料。當然不是所有內容都是我們需要用的,這時候就需要對原始數據進行清理,刪除,彙總等處理。

因為數據量不大,對於原始數據的處理,我們直接選用Excel來做了。

遇見大數據可視化:人人都能做數據可視化

單個菜譜的原料是全部彙總在一個單元格中的,所以首先我們需要把原料分解到單個單元中去。原料是按照【、】來間隔的,那我們直接用【文本分列】直接處理就可以了。通過【文本分列】我們把原料分解到單個單元中,如下圖所示。

遇見大數據可視化:人人都能做數據可視化

文本分列後,把它聚合到一起,然後用【數據透視】即可統計出來每個原料的個數出來。再通過簡單的降序排序,我們就能得到最終我們需要的數據了。

遇見大數據可視化:人人都能做數據可視化

小結

在這一步我們完成了【中國八大菜系菜譜數據可視化圖表分析】的一半的流程,及數據挖掘和清理彙總。在這裡我們用到了兩個工具,一個是【造數】用做數據的爬取,一個是【Excel表格】用做數據的清理彙總。類似【造數】這類的爬蟲軟件其實挺多的,比如國內的Gooseeker(集收客),八爪魚。國外的Kimono,import.io。但是我們的目標是能快速的上手做一些簡單數據挖掘,所以這裡給大家推薦的是造數,它規則提取足夠簡單,能通過可視化的簡潔的方式來設置提取規則,同時爬取路線很清晰,很容易就能理解它是怎麼運行的,從而快速上手。而【Excel表格】也是我們辦公常用的軟件,對於數級不大數據源,我們完全可以用Excel手動的來做數據清理彙總。

可視化圖表

數據處理好後,我們就可以開始進入可視化圖表製作這一步了。關於圖表的製作,其實用Excel就能完成的。不過Excel圖表的默認樣式,和圖表的對應數據的關係都做的十分不友好的,你很難能對應出數據和圖表橫縱座標的關係。畢竟Excel主要是做表格的,而非做圖表的工具。這裡就是給大家推薦第二款圖表製作工具 - 【BDP】https://me.bdp.cn/home.html 。BDP把數據拆分出來,把圖表的維度和數值列出來,通過拖拽的方式進行數據分析,完爆Excel。

BDP的具體使用過程就不在這裡給大家貼出來了,感興趣的去試試,很快就能上手開始做圖表的了。下面我們就來看下,用BDP做出的圖表,來看看中國八大菜系(魯菜、川菜、粵菜、蘇菜,浙菜、閩菜、湘菜、徽菜)有什麼不同。

我們在【美食天下】的網站中,一共爬取了1062篇菜譜,其中川菜就有350篇,就佔了總量的三分之一的量,全國人民還是都比較喜歡吃川菜的,真可為八大菜系之首的。而緊跟其後的就是粵菜,也有212篇之多的。

遇見大數據可視化:人人都能做數據可視化

我們把川菜和粵菜的Top15的原料拿出來繼續來看。

川菜前15項分佈是:鹽、料酒、生抽、花椒、姜、蔥、雞精、白糖、蒜、幹辣椒、八角、澱粉、郫縣豆瓣醬和醬油。

粵菜的是:鹽、白糖、醬油、生抽、姜、蔥、雞蛋、耗油、胡椒粉、醬油、老抽、香油、花生油、水和澱粉。

除去相同的東西,川菜出現最多就是各種重口味的花椒、辣椒、八角、豆瓣醬之類的。而粵菜是各種油油水水的東西。作為一個四川人,還是不能理解為什麼需要放耗油來做菜,耗油不只是用在吃火鍋的時候做蘸碟嗎?還有居然沒有豆瓣醬,豆瓣醬才是做菜的王道呀,炒菜放點豆瓣醬味道一下就來了。

遇見大數據可視化:人人都能做數據可視化

再看下,把1000多個菜譜所有的原料進行統計下。鹽是所有原料中使用最多的,60%以上的菜品都用到了鹽。不過讓我沒想到的是排第二的是白糖(PS:據大廚瞭解,加白糖多是為了上色,而非讓味道變甜),而豆瓣醬在Top15中已經沒見了,果然豆瓣醬只有在四川才流行的。

遇見大數據可視化:人人都能做數據可視化

我們再把調味品提出去,只看下主材的情況。在主材中雞蛋出現了121次,也就是說10%菜品用到了雞蛋,上榜率相當高的。緊接著就是豬肉,這個也是意料之中的。如果把排骨等也歸為豬肉的話,豬肉就是最多的了。但沒想到的是有這麼多菜品用到了香菜,而土豆這種我覺得應該用的很多的主材,卻這麼少。

遇見大數據可視化:人人都能做數據可視化

OK,這邊我們就只做簡單的分析即可,如果有同學有興趣,可以在分析下去,我這邊就不繼續展開去說了。

總結

在上述【中國八大菜系菜譜數據可視化圖表分析】的案例中。我們通過【造數】、【Excel表格】和【BDP】這些工具的使用, 就能做到零代碼的完成包括數據挖掘和圖表製作的過程。所以想做數據的可視化展示並不難,只要我們開始動手去做,人人都可數據可視化圖表來,這就是工具的價值。

所以我們設計中心也在思考,有沒有可能在圖表之上,提供更好的數據可視化工具,而不單只是做一個個單一的圖表。集合圖表、地圖、大數據的整體可視化工具,我們在這個方向前進,推出一款更好的大數據可視化工具。

此文已由作者授權騰訊雲技術社區發佈,轉載請註明文章出處

原文鏈接:https://cloud.tencent.com/community/article/354054

獲取更多騰訊海量技術實踐乾貨,歡迎大家前往騰訊雲技術社區

相關推薦

推薦中...