'零一:用Excel採集淘寶 100頁搜索數據'

Excel 淘寶網 瀏覽器 HTML 電子商務 零一數據 2019-08-30
"
"
零一:用Excel採集淘寶 100頁搜索數據

大家好,我是零一,電商數據分析專家。

先打個廣告,我在做電商最權威的數據分析社群,有每週原創的藍海產品信息首發,幫助商家瞭解商機,有興趣的歡迎來撩。

進入主題,用Excel採集數據並不難,用VBA或者Power Query都可以實現。採集淘寶100頁的搜索數據也不難,但是如果指定用Excel就有點不好弄了。因為在淘寶反爬蟲機制的作用下,100頁也就是連續100次訪問搜索結果頁,這個就不好整了,沒有想象中那麼簡單,但也沒有那麼難,也就兩個重要的操作,瞭解了就不難了。

那麼,我還是從頭開始講吧,不然這篇文章就沉了(大家都看不懂)。

簡單歸結,採集數據三個流程,分別是找數、採數和洗數。

"
零一:用Excel採集淘寶 100頁搜索數據

大家好,我是零一,電商數據分析專家。

先打個廣告,我在做電商最權威的數據分析社群,有每週原創的藍海產品信息首發,幫助商家瞭解商機,有興趣的歡迎來撩。

進入主題,用Excel採集數據並不難,用VBA或者Power Query都可以實現。採集淘寶100頁的搜索數據也不難,但是如果指定用Excel就有點不好弄了。因為在淘寶反爬蟲機制的作用下,100頁也就是連續100次訪問搜索結果頁,這個就不好整了,沒有想象中那麼簡單,但也沒有那麼難,也就兩個重要的操作,瞭解了就不難了。

那麼,我還是從頭開始講吧,不然這篇文章就沉了(大家都看不懂)。

簡單歸結,採集數據三個流程,分別是找數、採數和洗數。

零一:用Excel採集淘寶 100頁搜索數據

找數是要從網頁源碼或者包中找到數據,找到數據所在才有目標URL。

以淘寶搜索為例,搜索了關鍵詞茶煙之後,瀏覽器上的URL。

https://s.taobao.com/search?q=%E8%8C%B6%E7%83%9F&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306

在頁面上點擊鼠標右鍵,菜單中查看源或者查看源代碼等,只要是表達這個意思就對了,因為不同的瀏覽器命名不同。

重要的一步,源代碼頁搜索前臺看到的目標信息,比如標題,或者價格。

搜索得到說明數據就在這個URL中,因此上面的URL就是目標地址了。

但是這個時候只有一頁的數據,而目標是100頁,這又要如何構建呢?

s=44

s=88

s=132

通過觀察2-4頁的URL的差異,不難發現,頁面是一個從0開始的以44為步長的等差數列。因此用Excel就很好實現了,生成100頁的URL。

"
零一:用Excel採集淘寶 100頁搜索數據

大家好,我是零一,電商數據分析專家。

先打個廣告,我在做電商最權威的數據分析社群,有每週原創的藍海產品信息首發,幫助商家瞭解商機,有興趣的歡迎來撩。

進入主題,用Excel採集數據並不難,用VBA或者Power Query都可以實現。採集淘寶100頁的搜索數據也不難,但是如果指定用Excel就有點不好弄了。因為在淘寶反爬蟲機制的作用下,100頁也就是連續100次訪問搜索結果頁,這個就不好整了,沒有想象中那麼簡單,但也沒有那麼難,也就兩個重要的操作,瞭解了就不難了。

那麼,我還是從頭開始講吧,不然這篇文章就沉了(大家都看不懂)。

簡單歸結,採集數據三個流程,分別是找數、採數和洗數。

零一:用Excel採集淘寶 100頁搜索數據

找數是要從網頁源碼或者包中找到數據,找到數據所在才有目標URL。

以淘寶搜索為例,搜索了關鍵詞茶煙之後,瀏覽器上的URL。

https://s.taobao.com/search?q=%E8%8C%B6%E7%83%9F&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306

在頁面上點擊鼠標右鍵,菜單中查看源或者查看源代碼等,只要是表達這個意思就對了,因為不同的瀏覽器命名不同。

重要的一步,源代碼頁搜索前臺看到的目標信息,比如標題,或者價格。

搜索得到說明數據就在這個URL中,因此上面的URL就是目標地址了。

但是這個時候只有一頁的數據,而目標是100頁,這又要如何構建呢?

s=44

s=88

s=132

通過觀察2-4頁的URL的差異,不難發現,頁面是一個從0開始的以44為步長的等差數列。因此用Excel就很好實現了,生成100頁的URL。

零一:用Excel採集淘寶 100頁搜索數據

這樣目標URL有了就可以進入下一個環節

採數是將目標URL的文件下載下來。

將鏈接加載到Power Query(查詢編輯器)中

"
零一:用Excel採集淘寶 100頁搜索數據

大家好,我是零一,電商數據分析專家。

先打個廣告,我在做電商最權威的數據分析社群,有每週原創的藍海產品信息首發,幫助商家瞭解商機,有興趣的歡迎來撩。

進入主題,用Excel採集數據並不難,用VBA或者Power Query都可以實現。採集淘寶100頁的搜索數據也不難,但是如果指定用Excel就有點不好弄了。因為在淘寶反爬蟲機制的作用下,100頁也就是連續100次訪問搜索結果頁,這個就不好整了,沒有想象中那麼簡單,但也沒有那麼難,也就兩個重要的操作,瞭解了就不難了。

那麼,我還是從頭開始講吧,不然這篇文章就沉了(大家都看不懂)。

簡單歸結,採集數據三個流程,分別是找數、採數和洗數。

零一:用Excel採集淘寶 100頁搜索數據

找數是要從網頁源碼或者包中找到數據,找到數據所在才有目標URL。

以淘寶搜索為例,搜索了關鍵詞茶煙之後,瀏覽器上的URL。

https://s.taobao.com/search?q=%E8%8C%B6%E7%83%9F&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306

在頁面上點擊鼠標右鍵,菜單中查看源或者查看源代碼等,只要是表達這個意思就對了,因為不同的瀏覽器命名不同。

重要的一步,源代碼頁搜索前臺看到的目標信息,比如標題,或者價格。

搜索得到說明數據就在這個URL中,因此上面的URL就是目標地址了。

但是這個時候只有一頁的數據,而目標是100頁,這又要如何構建呢?

s=44

s=88

s=132

通過觀察2-4頁的URL的差異,不難發現,頁面是一個從0開始的以44為步長的等差數列。因此用Excel就很好實現了,生成100頁的URL。

零一:用Excel採集淘寶 100頁搜索數據

這樣目標URL有了就可以進入下一個環節

採數是將目標URL的文件下載下來。

將鏈接加載到Power Query(查詢編輯器)中

零一:用Excel採集淘寶 100頁搜索數據

重點操作有兩點,第一點是添加cookie,如果沒有cookie就會要求登陸。

在開發者模式(網頁按F12)找到文檔的cookie,複製cookie的內容。

"
零一:用Excel採集淘寶 100頁搜索數據

大家好,我是零一,電商數據分析專家。

先打個廣告,我在做電商最權威的數據分析社群,有每週原創的藍海產品信息首發,幫助商家瞭解商機,有興趣的歡迎來撩。

進入主題,用Excel採集數據並不難,用VBA或者Power Query都可以實現。採集淘寶100頁的搜索數據也不難,但是如果指定用Excel就有點不好弄了。因為在淘寶反爬蟲機制的作用下,100頁也就是連續100次訪問搜索結果頁,這個就不好整了,沒有想象中那麼簡單,但也沒有那麼難,也就兩個重要的操作,瞭解了就不難了。

那麼,我還是從頭開始講吧,不然這篇文章就沉了(大家都看不懂)。

簡單歸結,採集數據三個流程,分別是找數、採數和洗數。

零一:用Excel採集淘寶 100頁搜索數據

找數是要從網頁源碼或者包中找到數據,找到數據所在才有目標URL。

以淘寶搜索為例,搜索了關鍵詞茶煙之後,瀏覽器上的URL。

https://s.taobao.com/search?q=%E8%8C%B6%E7%83%9F&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306

在頁面上點擊鼠標右鍵,菜單中查看源或者查看源代碼等,只要是表達這個意思就對了,因為不同的瀏覽器命名不同。

重要的一步,源代碼頁搜索前臺看到的目標信息,比如標題,或者價格。

搜索得到說明數據就在這個URL中,因此上面的URL就是目標地址了。

但是這個時候只有一頁的數據,而目標是100頁,這又要如何構建呢?

s=44

s=88

s=132

通過觀察2-4頁的URL的差異,不難發現,頁面是一個從0開始的以44為步長的等差數列。因此用Excel就很好實現了,生成100頁的URL。

零一:用Excel採集淘寶 100頁搜索數據

這樣目標URL有了就可以進入下一個環節

採數是將目標URL的文件下載下來。

將鏈接加載到Power Query(查詢編輯器)中

零一:用Excel採集淘寶 100頁搜索數據

重點操作有兩點,第一點是添加cookie,如果沒有cookie就會要求登陸。

在開發者模式(網頁按F12)找到文檔的cookie,複製cookie的內容。

零一:用Excel採集淘寶 100頁搜索數據

在Power Query中添加cookie的內容。

"
零一:用Excel採集淘寶 100頁搜索數據

大家好,我是零一,電商數據分析專家。

先打個廣告,我在做電商最權威的數據分析社群,有每週原創的藍海產品信息首發,幫助商家瞭解商機,有興趣的歡迎來撩。

進入主題,用Excel採集數據並不難,用VBA或者Power Query都可以實現。採集淘寶100頁的搜索數據也不難,但是如果指定用Excel就有點不好弄了。因為在淘寶反爬蟲機制的作用下,100頁也就是連續100次訪問搜索結果頁,這個就不好整了,沒有想象中那麼簡單,但也沒有那麼難,也就兩個重要的操作,瞭解了就不難了。

那麼,我還是從頭開始講吧,不然這篇文章就沉了(大家都看不懂)。

簡單歸結,採集數據三個流程,分別是找數、採數和洗數。

零一:用Excel採集淘寶 100頁搜索數據

找數是要從網頁源碼或者包中找到數據,找到數據所在才有目標URL。

以淘寶搜索為例,搜索了關鍵詞茶煙之後,瀏覽器上的URL。

https://s.taobao.com/search?q=%E8%8C%B6%E7%83%9F&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306

在頁面上點擊鼠標右鍵,菜單中查看源或者查看源代碼等,只要是表達這個意思就對了,因為不同的瀏覽器命名不同。

重要的一步,源代碼頁搜索前臺看到的目標信息,比如標題,或者價格。

搜索得到說明數據就在這個URL中,因此上面的URL就是目標地址了。

但是這個時候只有一頁的數據,而目標是100頁,這又要如何構建呢?

s=44

s=88

s=132

通過觀察2-4頁的URL的差異,不難發現,頁面是一個從0開始的以44為步長的等差數列。因此用Excel就很好實現了,生成100頁的URL。

零一:用Excel採集淘寶 100頁搜索數據

這樣目標URL有了就可以進入下一個環節

採數是將目標URL的文件下載下來。

將鏈接加載到Power Query(查詢編輯器)中

零一:用Excel採集淘寶 100頁搜索數據

重點操作有兩點,第一點是添加cookie,如果沒有cookie就會要求登陸。

在開發者模式(網頁按F12)找到文檔的cookie,複製cookie的內容。

零一:用Excel採集淘寶 100頁搜索數據

在Power Query中添加cookie的內容。

零一:用Excel採集淘寶 100頁搜索數據

好了之後,就是下載數據了,下載數據用Web.Contents,Text.FromBinary是將文件轉成文本,也就是我們在前臺看到的HTML。

Text.FromBinary(Web.Contents([URL],[Headers=[#"cookie"=[cookie]]]))

但是此時還不行,哪怕有了cookie,在一定時間內過於頻繁地訪問淘寶搜索頁也會被限制,因此所以有了第二個操作重點,就是加延時。

Function.InvokeAfter(()=>採集過程,Duration.FromText("00:00:05"))

很明顯延時設置了5秒,正常人每一頁停留時間應該不會低於20秒,設置5秒是為了避免cookie過期。

整合起來,整個函數就是

Function.InvokeAfter(()=>Text.FromBinary(Web.Contents([URL],[Headers=[#"cookie"=[cookie]]])),Duration.FromText("00:00:05"))

"
零一:用Excel採集淘寶 100頁搜索數據

大家好,我是零一,電商數據分析專家。

先打個廣告,我在做電商最權威的數據分析社群,有每週原創的藍海產品信息首發,幫助商家瞭解商機,有興趣的歡迎來撩。

進入主題,用Excel採集數據並不難,用VBA或者Power Query都可以實現。採集淘寶100頁的搜索數據也不難,但是如果指定用Excel就有點不好弄了。因為在淘寶反爬蟲機制的作用下,100頁也就是連續100次訪問搜索結果頁,這個就不好整了,沒有想象中那麼簡單,但也沒有那麼難,也就兩個重要的操作,瞭解了就不難了。

那麼,我還是從頭開始講吧,不然這篇文章就沉了(大家都看不懂)。

簡單歸結,採集數據三個流程,分別是找數、採數和洗數。

零一:用Excel採集淘寶 100頁搜索數據

找數是要從網頁源碼或者包中找到數據,找到數據所在才有目標URL。

以淘寶搜索為例,搜索了關鍵詞茶煙之後,瀏覽器上的URL。

https://s.taobao.com/search?q=%E8%8C%B6%E7%83%9F&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306

在頁面上點擊鼠標右鍵,菜單中查看源或者查看源代碼等,只要是表達這個意思就對了,因為不同的瀏覽器命名不同。

重要的一步,源代碼頁搜索前臺看到的目標信息,比如標題,或者價格。

搜索得到說明數據就在這個URL中,因此上面的URL就是目標地址了。

但是這個時候只有一頁的數據,而目標是100頁,這又要如何構建呢?

s=44

s=88

s=132

通過觀察2-4頁的URL的差異,不難發現,頁面是一個從0開始的以44為步長的等差數列。因此用Excel就很好實現了,生成100頁的URL。

零一:用Excel採集淘寶 100頁搜索數據

這樣目標URL有了就可以進入下一個環節

採數是將目標URL的文件下載下來。

將鏈接加載到Power Query(查詢編輯器)中

零一:用Excel採集淘寶 100頁搜索數據

重點操作有兩點,第一點是添加cookie,如果沒有cookie就會要求登陸。

在開發者模式(網頁按F12)找到文檔的cookie,複製cookie的內容。

零一:用Excel採集淘寶 100頁搜索數據

在Power Query中添加cookie的內容。

零一:用Excel採集淘寶 100頁搜索數據

好了之後,就是下載數據了,下載數據用Web.Contents,Text.FromBinary是將文件轉成文本,也就是我們在前臺看到的HTML。

Text.FromBinary(Web.Contents([URL],[Headers=[#"cookie"=[cookie]]]))

但是此時還不行,哪怕有了cookie,在一定時間內過於頻繁地訪問淘寶搜索頁也會被限制,因此所以有了第二個操作重點,就是加延時。

Function.InvokeAfter(()=>採集過程,Duration.FromText("00:00:05"))

很明顯延時設置了5秒,正常人每一頁停留時間應該不會低於20秒,設置5秒是為了避免cookie過期。

整合起來,整個函數就是

Function.InvokeAfter(()=>Text.FromBinary(Web.Contents([URL],[Headers=[#"cookie"=[cookie]]])),Duration.FromText("00:00:05"))

零一:用Excel採集淘寶 100頁搜索數據

這樣就可以下載100個網頁文件,每個文件都是以文本形式存在。

"
零一:用Excel採集淘寶 100頁搜索數據

大家好,我是零一,電商數據分析專家。

先打個廣告,我在做電商最權威的數據分析社群,有每週原創的藍海產品信息首發,幫助商家瞭解商機,有興趣的歡迎來撩。

進入主題,用Excel採集數據並不難,用VBA或者Power Query都可以實現。採集淘寶100頁的搜索數據也不難,但是如果指定用Excel就有點不好弄了。因為在淘寶反爬蟲機制的作用下,100頁也就是連續100次訪問搜索結果頁,這個就不好整了,沒有想象中那麼簡單,但也沒有那麼難,也就兩個重要的操作,瞭解了就不難了。

那麼,我還是從頭開始講吧,不然這篇文章就沉了(大家都看不懂)。

簡單歸結,採集數據三個流程,分別是找數、採數和洗數。

零一:用Excel採集淘寶 100頁搜索數據

找數是要從網頁源碼或者包中找到數據,找到數據所在才有目標URL。

以淘寶搜索為例,搜索了關鍵詞茶煙之後,瀏覽器上的URL。

https://s.taobao.com/search?q=%E8%8C%B6%E7%83%9F&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306

在頁面上點擊鼠標右鍵,菜單中查看源或者查看源代碼等,只要是表達這個意思就對了,因為不同的瀏覽器命名不同。

重要的一步,源代碼頁搜索前臺看到的目標信息,比如標題,或者價格。

搜索得到說明數據就在這個URL中,因此上面的URL就是目標地址了。

但是這個時候只有一頁的數據,而目標是100頁,這又要如何構建呢?

s=44

s=88

s=132

通過觀察2-4頁的URL的差異,不難發現,頁面是一個從0開始的以44為步長的等差數列。因此用Excel就很好實現了,生成100頁的URL。

零一:用Excel採集淘寶 100頁搜索數據

這樣目標URL有了就可以進入下一個環節

採數是將目標URL的文件下載下來。

將鏈接加載到Power Query(查詢編輯器)中

零一:用Excel採集淘寶 100頁搜索數據

重點操作有兩點,第一點是添加cookie,如果沒有cookie就會要求登陸。

在開發者模式(網頁按F12)找到文檔的cookie,複製cookie的內容。

零一:用Excel採集淘寶 100頁搜索數據

在Power Query中添加cookie的內容。

零一:用Excel採集淘寶 100頁搜索數據

好了之後,就是下載數據了,下載數據用Web.Contents,Text.FromBinary是將文件轉成文本,也就是我們在前臺看到的HTML。

Text.FromBinary(Web.Contents([URL],[Headers=[#"cookie"=[cookie]]]))

但是此時還不行,哪怕有了cookie,在一定時間內過於頻繁地訪問淘寶搜索頁也會被限制,因此所以有了第二個操作重點,就是加延時。

Function.InvokeAfter(()=>採集過程,Duration.FromText("00:00:05"))

很明顯延時設置了5秒,正常人每一頁停留時間應該不會低於20秒,設置5秒是為了避免cookie過期。

整合起來,整個函數就是

Function.InvokeAfter(()=>Text.FromBinary(Web.Contents([URL],[Headers=[#"cookie"=[cookie]]])),Duration.FromText("00:00:05"))

零一:用Excel採集淘寶 100頁搜索數據

這樣就可以下載100個網頁文件,每個文件都是以文本形式存在。

零一:用Excel採集淘寶 100頁搜索數據

洗數是從下載下來的文件中提取目標數據。

這不是我今天要討論的內容,這個提取數據的過程可能要比前面下載網頁還要難,所花費的時間可能是前面的2倍。

文終!

零一原創出版物

"
零一:用Excel採集淘寶 100頁搜索數據

大家好,我是零一,電商數據分析專家。

先打個廣告,我在做電商最權威的數據分析社群,有每週原創的藍海產品信息首發,幫助商家瞭解商機,有興趣的歡迎來撩。

進入主題,用Excel採集數據並不難,用VBA或者Power Query都可以實現。採集淘寶100頁的搜索數據也不難,但是如果指定用Excel就有點不好弄了。因為在淘寶反爬蟲機制的作用下,100頁也就是連續100次訪問搜索結果頁,這個就不好整了,沒有想象中那麼簡單,但也沒有那麼難,也就兩個重要的操作,瞭解了就不難了。

那麼,我還是從頭開始講吧,不然這篇文章就沉了(大家都看不懂)。

簡單歸結,採集數據三個流程,分別是找數、採數和洗數。

零一:用Excel採集淘寶 100頁搜索數據

找數是要從網頁源碼或者包中找到數據,找到數據所在才有目標URL。

以淘寶搜索為例,搜索了關鍵詞茶煙之後,瀏覽器上的URL。

https://s.taobao.com/search?q=%E8%8C%B6%E7%83%9F&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306

在頁面上點擊鼠標右鍵,菜單中查看源或者查看源代碼等,只要是表達這個意思就對了,因為不同的瀏覽器命名不同。

重要的一步,源代碼頁搜索前臺看到的目標信息,比如標題,或者價格。

搜索得到說明數據就在這個URL中,因此上面的URL就是目標地址了。

但是這個時候只有一頁的數據,而目標是100頁,這又要如何構建呢?

s=44

s=88

s=132

通過觀察2-4頁的URL的差異,不難發現,頁面是一個從0開始的以44為步長的等差數列。因此用Excel就很好實現了,生成100頁的URL。

零一:用Excel採集淘寶 100頁搜索數據

這樣目標URL有了就可以進入下一個環節

採數是將目標URL的文件下載下來。

將鏈接加載到Power Query(查詢編輯器)中

零一:用Excel採集淘寶 100頁搜索數據

重點操作有兩點,第一點是添加cookie,如果沒有cookie就會要求登陸。

在開發者模式(網頁按F12)找到文檔的cookie,複製cookie的內容。

零一:用Excel採集淘寶 100頁搜索數據

在Power Query中添加cookie的內容。

零一:用Excel採集淘寶 100頁搜索數據

好了之後,就是下載數據了,下載數據用Web.Contents,Text.FromBinary是將文件轉成文本,也就是我們在前臺看到的HTML。

Text.FromBinary(Web.Contents([URL],[Headers=[#"cookie"=[cookie]]]))

但是此時還不行,哪怕有了cookie,在一定時間內過於頻繁地訪問淘寶搜索頁也會被限制,因此所以有了第二個操作重點,就是加延時。

Function.InvokeAfter(()=>採集過程,Duration.FromText("00:00:05"))

很明顯延時設置了5秒,正常人每一頁停留時間應該不會低於20秒,設置5秒是為了避免cookie過期。

整合起來,整個函數就是

Function.InvokeAfter(()=>Text.FromBinary(Web.Contents([URL],[Headers=[#"cookie"=[cookie]]])),Duration.FromText("00:00:05"))

零一:用Excel採集淘寶 100頁搜索數據

這樣就可以下載100個網頁文件,每個文件都是以文本形式存在。

零一:用Excel採集淘寶 100頁搜索數據

洗數是從下載下來的文件中提取目標數據。

這不是我今天要討論的內容,這個提取數據的過程可能要比前面下載網頁還要難,所花費的時間可能是前面的2倍。

文終!

零一原創出版物

零一:用Excel採集淘寶 100頁搜索數據

"

相關推薦

推薦中...