前嗅ForeSpider腳本教程:數據過濾腳本

腳本語言 數據庫 前嗅大數據 2019-04-07

數據過濾腳本與數據抽取腳本並列的腳本,它的作用是對抽取的數據進行過濾。

注意:一旦有了數據過濾腳本則數據抽取腳本將失效,即“數據處理” 下拉菜單必須選擇“數據過濾腳本”。

一.可用全局對象(只讀)

EXTRACT:當前採集引擎[ 對象類型:extractor ]

DATADB:當前連接的數據庫[ 對象類型:dataBase ]

RESULT:當前結果集對象[ 對象類型:result ]

URL:當前採集的鏈接對象[ 對象類型:url ]

URLTEXT : 描述當前鏈接採集的所有狀態及屬性的對象[ 對象類型: urltext ]

DOC:當前採集的文檔對象[ 對象類型:grabDoc ]

DOM:當前採集文檔的dom對象[ 對象類型:dom ]

ITEM:模板區域的dom樹節點(如果模板未選擇區域則為dom樹的根節點)[ 對象類型:domItem ]

TMPL:當前文檔模板對象[ 對象類型:tmplTmpl ]

REC:當前記錄集對象[ 對象類型:record ]

二.this對象

當前數據記錄[record ]對象。

三.腳本返回值

返回true(非0)則保留記錄,不返回或者返回false(0)則丟棄記錄。

四.示例:

示例一:只保留正文內容長度為1000~3000字符的記錄。

if(this.content.length>=1000 && this.content.length<=3000)

return true;

else return false;

示例二:以下腳本過濾掉字段content為空的的記錄(即content字段必須有值)。

​​​​​​​if(this.content)

return true;

else return false;
前嗅ForeSpider腳本教程:數據過濾腳本

相關推薦

推薦中...