大家好,我是零一,電商數據分析專家。
先打個廣告,我在做電商最權威的數據分析社群,有每週原創的藍海產品信息首發,幫助商家瞭解商機,有興趣的歡迎來撩。
進入主題,用Excel採集數據並不難,用VBA或者Power Query都可以實現。採集淘寶100頁的搜索數據也不難,但是如果指定用Excel就有點不好弄了。因為在淘寶反爬蟲機制的作用下,100頁也就是連續100次訪問搜索結果頁,這個就不好整了,沒有想象中那麼簡單,但也沒有那麼難,也就兩個重要的操作,瞭解了就不難了。
那麼,我還是從頭開始講吧,不然這篇文章就沉了(大家都看不懂)。
簡單歸結,採集數據三個流程,分別是找數、採數和洗數。
大家好,我是零一,電商數據分析專家。
先打個廣告,我在做電商最權威的數據分析社群,有每週原創的藍海產品信息首發,幫助商家瞭解商機,有興趣的歡迎來撩。
進入主題,用Excel採集數據並不難,用VBA或者Power Query都可以實現。採集淘寶100頁的搜索數據也不難,但是如果指定用Excel就有點不好弄了。因為在淘寶反爬蟲機制的作用下,100頁也就是連續100次訪問搜索結果頁,這個就不好整了,沒有想象中那麼簡單,但也沒有那麼難,也就兩個重要的操作,瞭解了就不難了。
那麼,我還是從頭開始講吧,不然這篇文章就沉了(大家都看不懂)。
簡單歸結,採集數據三個流程,分別是找數、採數和洗數。
找數是要從網頁源碼或者包中找到數據,找到數據所在才有目標URL。
以淘寶搜索為例,搜索了關鍵詞茶煙之後,瀏覽器上的URL。
https://s.taobao.com/search?q=%E8%8C%B6%E7%83%9F&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306
在頁面上點擊鼠標右鍵,菜單中查看源或者查看源代碼等,只要是表達這個意思就對了,因為不同的瀏覽器命名不同。
重要的一步,源代碼頁搜索前臺看到的目標信息,比如標題,或者價格。
搜索得到說明數據就在這個URL中,因此上面的URL就是目標地址了。
但是這個時候只有一頁的數據,而目標是100頁,這又要如何構建呢?
s=44
s=88
s=132
通過觀察2-4頁的URL的差異,不難發現,頁面是一個從0開始的以44為步長的等差數列。因此用Excel就很好實現了,生成100頁的URL。
大家好,我是零一,電商數據分析專家。
先打個廣告,我在做電商最權威的數據分析社群,有每週原創的藍海產品信息首發,幫助商家瞭解商機,有興趣的歡迎來撩。
進入主題,用Excel採集數據並不難,用VBA或者Power Query都可以實現。採集淘寶100頁的搜索數據也不難,但是如果指定用Excel就有點不好弄了。因為在淘寶反爬蟲機制的作用下,100頁也就是連續100次訪問搜索結果頁,這個就不好整了,沒有想象中那麼簡單,但也沒有那麼難,也就兩個重要的操作,瞭解了就不難了。
那麼,我還是從頭開始講吧,不然這篇文章就沉了(大家都看不懂)。
簡單歸結,採集數據三個流程,分別是找數、採數和洗數。
找數是要從網頁源碼或者包中找到數據,找到數據所在才有目標URL。
以淘寶搜索為例,搜索了關鍵詞茶煙之後,瀏覽器上的URL。
https://s.taobao.com/search?q=%E8%8C%B6%E7%83%9F&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306
在頁面上點擊鼠標右鍵,菜單中查看源或者查看源代碼等,只要是表達這個意思就對了,因為不同的瀏覽器命名不同。
重要的一步,源代碼頁搜索前臺看到的目標信息,比如標題,或者價格。
搜索得到說明數據就在這個URL中,因此上面的URL就是目標地址了。
但是這個時候只有一頁的數據,而目標是100頁,這又要如何構建呢?
s=44
s=88
s=132
通過觀察2-4頁的URL的差異,不難發現,頁面是一個從0開始的以44為步長的等差數列。因此用Excel就很好實現了,生成100頁的URL。
這樣目標URL有了就可以進入下一個環節
採數是將目標URL的文件下載下來。
將鏈接加載到Power Query(查詢編輯器)中
大家好,我是零一,電商數據分析專家。
先打個廣告,我在做電商最權威的數據分析社群,有每週原創的藍海產品信息首發,幫助商家瞭解商機,有興趣的歡迎來撩。
進入主題,用Excel採集數據並不難,用VBA或者Power Query都可以實現。採集淘寶100頁的搜索數據也不難,但是如果指定用Excel就有點不好弄了。因為在淘寶反爬蟲機制的作用下,100頁也就是連續100次訪問搜索結果頁,這個就不好整了,沒有想象中那麼簡單,但也沒有那麼難,也就兩個重要的操作,瞭解了就不難了。
那麼,我還是從頭開始講吧,不然這篇文章就沉了(大家都看不懂)。
簡單歸結,採集數據三個流程,分別是找數、採數和洗數。
找數是要從網頁源碼或者包中找到數據,找到數據所在才有目標URL。
以淘寶搜索為例,搜索了關鍵詞茶煙之後,瀏覽器上的URL。
https://s.taobao.com/search?q=%E8%8C%B6%E7%83%9F&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306
在頁面上點擊鼠標右鍵,菜單中查看源或者查看源代碼等,只要是表達這個意思就對了,因為不同的瀏覽器命名不同。
重要的一步,源代碼頁搜索前臺看到的目標信息,比如標題,或者價格。
搜索得到說明數據就在這個URL中,因此上面的URL就是目標地址了。
但是這個時候只有一頁的數據,而目標是100頁,這又要如何構建呢?
s=44
s=88
s=132
通過觀察2-4頁的URL的差異,不難發現,頁面是一個從0開始的以44為步長的等差數列。因此用Excel就很好實現了,生成100頁的URL。
這樣目標URL有了就可以進入下一個環節
採數是將目標URL的文件下載下來。
將鏈接加載到Power Query(查詢編輯器)中
重點操作有兩點,第一點是添加cookie,如果沒有cookie就會要求登陸。
在開發者模式(網頁按F12)找到文檔的cookie,複製cookie的內容。
大家好,我是零一,電商數據分析專家。
先打個廣告,我在做電商最權威的數據分析社群,有每週原創的藍海產品信息首發,幫助商家瞭解商機,有興趣的歡迎來撩。
進入主題,用Excel採集數據並不難,用VBA或者Power Query都可以實現。採集淘寶100頁的搜索數據也不難,但是如果指定用Excel就有點不好弄了。因為在淘寶反爬蟲機制的作用下,100頁也就是連續100次訪問搜索結果頁,這個就不好整了,沒有想象中那麼簡單,但也沒有那麼難,也就兩個重要的操作,瞭解了就不難了。
那麼,我還是從頭開始講吧,不然這篇文章就沉了(大家都看不懂)。
簡單歸結,採集數據三個流程,分別是找數、採數和洗數。
找數是要從網頁源碼或者包中找到數據,找到數據所在才有目標URL。
以淘寶搜索為例,搜索了關鍵詞茶煙之後,瀏覽器上的URL。
https://s.taobao.com/search?q=%E8%8C%B6%E7%83%9F&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306
在頁面上點擊鼠標右鍵,菜單中查看源或者查看源代碼等,只要是表達這個意思就對了,因為不同的瀏覽器命名不同。
重要的一步,源代碼頁搜索前臺看到的目標信息,比如標題,或者價格。
搜索得到說明數據就在這個URL中,因此上面的URL就是目標地址了。
但是這個時候只有一頁的數據,而目標是100頁,這又要如何構建呢?
s=44
s=88
s=132
通過觀察2-4頁的URL的差異,不難發現,頁面是一個從0開始的以44為步長的等差數列。因此用Excel就很好實現了,生成100頁的URL。
這樣目標URL有了就可以進入下一個環節
採數是將目標URL的文件下載下來。
將鏈接加載到Power Query(查詢編輯器)中
重點操作有兩點,第一點是添加cookie,如果沒有cookie就會要求登陸。
在開發者模式(網頁按F12)找到文檔的cookie,複製cookie的內容。
在Power Query中添加cookie的內容。
大家好,我是零一,電商數據分析專家。
先打個廣告,我在做電商最權威的數據分析社群,有每週原創的藍海產品信息首發,幫助商家瞭解商機,有興趣的歡迎來撩。
進入主題,用Excel採集數據並不難,用VBA或者Power Query都可以實現。採集淘寶100頁的搜索數據也不難,但是如果指定用Excel就有點不好弄了。因為在淘寶反爬蟲機制的作用下,100頁也就是連續100次訪問搜索結果頁,這個就不好整了,沒有想象中那麼簡單,但也沒有那麼難,也就兩個重要的操作,瞭解了就不難了。
那麼,我還是從頭開始講吧,不然這篇文章就沉了(大家都看不懂)。
簡單歸結,採集數據三個流程,分別是找數、採數和洗數。
找數是要從網頁源碼或者包中找到數據,找到數據所在才有目標URL。
以淘寶搜索為例,搜索了關鍵詞茶煙之後,瀏覽器上的URL。
https://s.taobao.com/search?q=%E8%8C%B6%E7%83%9F&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306
在頁面上點擊鼠標右鍵,菜單中查看源或者查看源代碼等,只要是表達這個意思就對了,因為不同的瀏覽器命名不同。
重要的一步,源代碼頁搜索前臺看到的目標信息,比如標題,或者價格。
搜索得到說明數據就在這個URL中,因此上面的URL就是目標地址了。
但是這個時候只有一頁的數據,而目標是100頁,這又要如何構建呢?
s=44
s=88
s=132
通過觀察2-4頁的URL的差異,不難發現,頁面是一個從0開始的以44為步長的等差數列。因此用Excel就很好實現了,生成100頁的URL。
這樣目標URL有了就可以進入下一個環節
採數是將目標URL的文件下載下來。
將鏈接加載到Power Query(查詢編輯器)中
重點操作有兩點,第一點是添加cookie,如果沒有cookie就會要求登陸。
在開發者模式(網頁按F12)找到文檔的cookie,複製cookie的內容。
在Power Query中添加cookie的內容。
好了之後,就是下載數據了,下載數據用Web.Contents,Text.FromBinary是將文件轉成文本,也就是我們在前臺看到的HTML。
Text.FromBinary(Web.Contents([URL],[Headers=[#"cookie"=[cookie]]]))
但是此時還不行,哪怕有了cookie,在一定時間內過於頻繁地訪問淘寶搜索頁也會被限制,因此所以有了第二個操作重點,就是加延時。
Function.InvokeAfter(()=>採集過程,Duration.FromText("00:00:05"))
很明顯延時設置了5秒,正常人每一頁停留時間應該不會低於20秒,設置5秒是為了避免cookie過期。
整合起來,整個函數就是
Function.InvokeAfter(()=>Text.FromBinary(Web.Contents([URL],[Headers=[#"cookie"=[cookie]]])),Duration.FromText("00:00:05"))
大家好,我是零一,電商數據分析專家。
先打個廣告,我在做電商最權威的數據分析社群,有每週原創的藍海產品信息首發,幫助商家瞭解商機,有興趣的歡迎來撩。
進入主題,用Excel採集數據並不難,用VBA或者Power Query都可以實現。採集淘寶100頁的搜索數據也不難,但是如果指定用Excel就有點不好弄了。因為在淘寶反爬蟲機制的作用下,100頁也就是連續100次訪問搜索結果頁,這個就不好整了,沒有想象中那麼簡單,但也沒有那麼難,也就兩個重要的操作,瞭解了就不難了。
那麼,我還是從頭開始講吧,不然這篇文章就沉了(大家都看不懂)。
簡單歸結,採集數據三個流程,分別是找數、採數和洗數。
找數是要從網頁源碼或者包中找到數據,找到數據所在才有目標URL。
以淘寶搜索為例,搜索了關鍵詞茶煙之後,瀏覽器上的URL。
https://s.taobao.com/search?q=%E8%8C%B6%E7%83%9F&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306
在頁面上點擊鼠標右鍵,菜單中查看源或者查看源代碼等,只要是表達這個意思就對了,因為不同的瀏覽器命名不同。
重要的一步,源代碼頁搜索前臺看到的目標信息,比如標題,或者價格。
搜索得到說明數據就在這個URL中,因此上面的URL就是目標地址了。
但是這個時候只有一頁的數據,而目標是100頁,這又要如何構建呢?
s=44
s=88
s=132
通過觀察2-4頁的URL的差異,不難發現,頁面是一個從0開始的以44為步長的等差數列。因此用Excel就很好實現了,生成100頁的URL。
這樣目標URL有了就可以進入下一個環節
採數是將目標URL的文件下載下來。
將鏈接加載到Power Query(查詢編輯器)中
重點操作有兩點,第一點是添加cookie,如果沒有cookie就會要求登陸。
在開發者模式(網頁按F12)找到文檔的cookie,複製cookie的內容。
在Power Query中添加cookie的內容。
好了之後,就是下載數據了,下載數據用Web.Contents,Text.FromBinary是將文件轉成文本,也就是我們在前臺看到的HTML。
Text.FromBinary(Web.Contents([URL],[Headers=[#"cookie"=[cookie]]]))
但是此時還不行,哪怕有了cookie,在一定時間內過於頻繁地訪問淘寶搜索頁也會被限制,因此所以有了第二個操作重點,就是加延時。
Function.InvokeAfter(()=>採集過程,Duration.FromText("00:00:05"))
很明顯延時設置了5秒,正常人每一頁停留時間應該不會低於20秒,設置5秒是為了避免cookie過期。
整合起來,整個函數就是
Function.InvokeAfter(()=>Text.FromBinary(Web.Contents([URL],[Headers=[#"cookie"=[cookie]]])),Duration.FromText("00:00:05"))
這樣就可以下載100個網頁文件,每個文件都是以文本形式存在。
大家好,我是零一,電商數據分析專家。
先打個廣告,我在做電商最權威的數據分析社群,有每週原創的藍海產品信息首發,幫助商家瞭解商機,有興趣的歡迎來撩。
進入主題,用Excel採集數據並不難,用VBA或者Power Query都可以實現。採集淘寶100頁的搜索數據也不難,但是如果指定用Excel就有點不好弄了。因為在淘寶反爬蟲機制的作用下,100頁也就是連續100次訪問搜索結果頁,這個就不好整了,沒有想象中那麼簡單,但也沒有那麼難,也就兩個重要的操作,瞭解了就不難了。
那麼,我還是從頭開始講吧,不然這篇文章就沉了(大家都看不懂)。
簡單歸結,採集數據三個流程,分別是找數、採數和洗數。
找數是要從網頁源碼或者包中找到數據,找到數據所在才有目標URL。
以淘寶搜索為例,搜索了關鍵詞茶煙之後,瀏覽器上的URL。
https://s.taobao.com/search?q=%E8%8C%B6%E7%83%9F&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306
在頁面上點擊鼠標右鍵,菜單中查看源或者查看源代碼等,只要是表達這個意思就對了,因為不同的瀏覽器命名不同。
重要的一步,源代碼頁搜索前臺看到的目標信息,比如標題,或者價格。
搜索得到說明數據就在這個URL中,因此上面的URL就是目標地址了。
但是這個時候只有一頁的數據,而目標是100頁,這又要如何構建呢?
s=44
s=88
s=132
通過觀察2-4頁的URL的差異,不難發現,頁面是一個從0開始的以44為步長的等差數列。因此用Excel就很好實現了,生成100頁的URL。
這樣目標URL有了就可以進入下一個環節
採數是將目標URL的文件下載下來。
將鏈接加載到Power Query(查詢編輯器)中
重點操作有兩點,第一點是添加cookie,如果沒有cookie就會要求登陸。
在開發者模式(網頁按F12)找到文檔的cookie,複製cookie的內容。
在Power Query中添加cookie的內容。
好了之後,就是下載數據了,下載數據用Web.Contents,Text.FromBinary是將文件轉成文本,也就是我們在前臺看到的HTML。
Text.FromBinary(Web.Contents([URL],[Headers=[#"cookie"=[cookie]]]))
但是此時還不行,哪怕有了cookie,在一定時間內過於頻繁地訪問淘寶搜索頁也會被限制,因此所以有了第二個操作重點,就是加延時。
Function.InvokeAfter(()=>採集過程,Duration.FromText("00:00:05"))
很明顯延時設置了5秒,正常人每一頁停留時間應該不會低於20秒,設置5秒是為了避免cookie過期。
整合起來,整個函數就是
Function.InvokeAfter(()=>Text.FromBinary(Web.Contents([URL],[Headers=[#"cookie"=[cookie]]])),Duration.FromText("00:00:05"))
這樣就可以下載100個網頁文件,每個文件都是以文本形式存在。
洗數是從下載下來的文件中提取目標數據。
這不是我今天要討論的內容,這個提取數據的過程可能要比前面下載網頁還要難,所花費的時間可能是前面的2倍。
文終!
零一原創出版物
大家好,我是零一,電商數據分析專家。
先打個廣告,我在做電商最權威的數據分析社群,有每週原創的藍海產品信息首發,幫助商家瞭解商機,有興趣的歡迎來撩。
進入主題,用Excel採集數據並不難,用VBA或者Power Query都可以實現。採集淘寶100頁的搜索數據也不難,但是如果指定用Excel就有點不好弄了。因為在淘寶反爬蟲機制的作用下,100頁也就是連續100次訪問搜索結果頁,這個就不好整了,沒有想象中那麼簡單,但也沒有那麼難,也就兩個重要的操作,瞭解了就不難了。
那麼,我還是從頭開始講吧,不然這篇文章就沉了(大家都看不懂)。
簡單歸結,採集數據三個流程,分別是找數、採數和洗數。
找數是要從網頁源碼或者包中找到數據,找到數據所在才有目標URL。
以淘寶搜索為例,搜索了關鍵詞茶煙之後,瀏覽器上的URL。
https://s.taobao.com/search?q=%E8%8C%B6%E7%83%9F&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306
在頁面上點擊鼠標右鍵,菜單中查看源或者查看源代碼等,只要是表達這個意思就對了,因為不同的瀏覽器命名不同。
重要的一步,源代碼頁搜索前臺看到的目標信息,比如標題,或者價格。
搜索得到說明數據就在這個URL中,因此上面的URL就是目標地址了。
但是這個時候只有一頁的數據,而目標是100頁,這又要如何構建呢?
s=44
s=88
s=132
通過觀察2-4頁的URL的差異,不難發現,頁面是一個從0開始的以44為步長的等差數列。因此用Excel就很好實現了,生成100頁的URL。
這樣目標URL有了就可以進入下一個環節
採數是將目標URL的文件下載下來。
將鏈接加載到Power Query(查詢編輯器)中
重點操作有兩點,第一點是添加cookie,如果沒有cookie就會要求登陸。
在開發者模式(網頁按F12)找到文檔的cookie,複製cookie的內容。
在Power Query中添加cookie的內容。
好了之後,就是下載數據了,下載數據用Web.Contents,Text.FromBinary是將文件轉成文本,也就是我們在前臺看到的HTML。
Text.FromBinary(Web.Contents([URL],[Headers=[#"cookie"=[cookie]]]))
但是此時還不行,哪怕有了cookie,在一定時間內過於頻繁地訪問淘寶搜索頁也會被限制,因此所以有了第二個操作重點,就是加延時。
Function.InvokeAfter(()=>採集過程,Duration.FromText("00:00:05"))
很明顯延時設置了5秒,正常人每一頁停留時間應該不會低於20秒,設置5秒是為了避免cookie過期。
整合起來,整個函數就是
Function.InvokeAfter(()=>Text.FromBinary(Web.Contents([URL],[Headers=[#"cookie"=[cookie]]])),Duration.FromText("00:00:05"))
這樣就可以下載100個網頁文件,每個文件都是以文本形式存在。
洗數是從下載下來的文件中提取目標數據。
這不是我今天要討論的內容,這個提取數據的過程可能要比前面下載網頁還要難,所花費的時間可能是前面的2倍。
文終!
零一原創出版物