BloomFilter（大數據去重）+Redis（持久化）策略

Redis 大數據 ElasticSearch Java 算法數據結構網絡爬蟲文章創芯分享 2019-05-24

背景

之前在重構一套文章爬蟲系統時，其中有塊邏輯是根據文章標題去重，原先去重的方式是，插入文章之前檢查待插入文章的標題是否在ElasticSearch中存在，這無疑加重了ElasticSearch的負擔也勢必會影響程序的性能！

BloomFilter算法

簡介：布隆過濾器實際上是一個很長的二進制向量和一系列隨機映射函數。布隆過濾器可以用於檢索一個元素是否在一個集合中。它的優點是空間效率和查詢時間都遠遠超過一般的算法，缺點是有一定的誤識別率和刪除困難。

原理：當一個元素被加入集合時，通過K個散列函數將這個元素映射成一個位數組中的K個點，把它們置為1。檢索時，我們只要看看這些點是不是都是1就（大約）知道集合中有沒有它了：如果這些點有任何一個0，則被檢元素一定不在；如果都是1，則被檢元素很可能在。

優點：

相比於其它的數據結構，布隆過濾器在空間和時間方面都有巨大的優勢。布隆過濾器存儲空間和插入/查詢時間都是常數（O(k)）。而且它不存儲元素本身，在某些對保密要求非常嚴格的場合有優勢。

缺點：

一定的誤識別率和刪除困難。

結合以上幾點及去重需求（容忍誤判，會誤判在，在則丟，無妨），決定使用BlomFilter。

思想

位數組和k個散列函數

位數組

初始狀態時，BloomFilter是一個長度為m的位數組，每一位都置為0。

添加元素（k個獨立的hash函數）

添加元素時，對x使用k個哈希函數得到k個哈希值，對m取餘，對應的bit位設置為1。

判斷元素是否存在

判斷y是否屬於這個集合，對y使用k個哈希函數得到k個哈希值，對m取餘，所有對應的位置都是1，則認為y屬於該集合（哈希衝突，可能存在誤判），否則就認為y不屬於該集合。

圖中y1不是集合中的元素，y2屬於這個集合或者是一個false positive。

實現

可以使用JDK自帶的BitSet來實現，但存在兩個問題：OOM和持久化問題。

結合Redis的BitMap能夠解決，唯一需要注意的是Redis的BitMap只支持2^32大小，對應到內存也就是512MB,數組的下標最大隻能是2^32-1。不過這個限制可以通過構建多個Redis的Bitmap通過hash取模的方式分散一下即可。萬分之一的誤判率，512MB可以放下2億條數據。

好了，扯了這麼多，貼代碼！(注：在MagnusS/Java-BloomFilter的基礎上加上了Redis持久化的實現)

@Component
publicclassBloomFilter<E>{
 
@Autowired
privateRedisTemplate<String, E> redisTemplate;
 
@Value("${bloomfilter.expireDays}")
privatelong expireDays;
 
// total length of theBloom filter
privateint sizeOfBloomFilter;
// expected (maximum)number of elements to be added
privateint expectedNumberOfFilterElements;
// number of hash functions
privateint numberOfHashFunctions;
// encoding used forstoring hash values as strings
privatefinalCharset charset = Charset.forName("UTF-8");
// MD5 gives good enoughaccuracy in most circumstances. Change to SHA1 if it's needed
privatestaticfinalString hashName ="MD5";
privatestaticfinalMessageDigest digestFunction;
 
// The digest method isreused between instances
static {
MessageDigest tmp;
try{
tmp = java.security.MessageDigest.getInstance(hashName);
}catch(NoSuchAlgorithmException e) {
tmp =null;
}
digestFunction = tmp;
}
 
public BloomFilter() {
this(0.0001,600000);
}
 
/**
* Constructs an empty Bloomfilter.
*
*@paramm is the total length ofthe Bloom filter.
*@paramn is the expected number ofelements the filter will contain.
*@paramk is the number of hashfunctions used.
*/
public BloomFilter(int m, int n, int k) {
this.sizeOfBloomFilter = m;
this.expectedNumberOfFilterElements = n;
this.numberOfHashFunctions = k;
}
 
/**
* Constructs an empty Bloomfilter with a given false positive probability.
* The size of bloom filterand the number of hash functions is estimated
* to match the falsepositive probability.
*
*@paramfalsePositiveProbability isthe desired false positive probability.
*@paramexpectedNumberOfElements isthe expected number of elements in the Bloom filter.
*/
public BloomFilter(double falsePositiveProbability, intexpectedNumberOfElements) {
this((int) Math.ceil((int)Math.ceil(-(Math.log(falsePositiveProbability) / Math.log(2))) * expectedNumberOfElements / Math.log(2)),// m = ceil(kn/ln2)
expectedNumberOfElements,
(int) Math.ceil(-(Math.log(falsePositiveProbability) /Math.log(2))));// k = ceil(-ln(f)/ln2)
}
 
/**
* Adds an object to theBloom filter. The output from the object's
* toString() method is usedas input to the hash functions.
*
*@paramelement is an element toregister in the Bloom filter.
*/
public void add(E element) {
add(element.toString().getBytes(charset));
}
 
/**
* Adds an array of bytes tothe Bloom filter.
*
*@parambytes array of bytes to addto the Bloom filter.
*/
public void add(byte[] bytes) {
if(redisTemplate.opsForValue().get(RedisConsts.CRAWLER_BLOOMFILTER)==null) {
redisTemplate.opsForValue().setBit(RedisConsts.CRAWLER_BLOOMFILTER,0,false);
redisTemplate.expire(RedisConsts.CRAWLER_BLOOMFILTER,expireDays, TimeUnit.DAYS);
}
 
int[] hashes = createHashes(bytes, numberOfHashFunctions);
for(int hash : hashes) {
redisTemplate.opsForValue().setBit(RedisConsts.CRAWLER_BLOOMFILTER,Math.abs(hash % sizeOfBloomFilter),true);
}
}
 
/**
* Adds all elements from aCollection to the Bloom filter.
*
*@paramc Collection of elements.
*/
public void addAll(Collection<?extendsE> c) {
for(E element : c) {
add(element);
}
}
 
/**
* Returns true if theelement could have been inserted into the Bloom filter.
* UsegetFalsePositiveProbability() to calculate the probability of this
* being correct.
*
*@paramelement element to check.
*@returntrue if the element couldhave been inserted into the Bloom filter.
*/
public boolean contains(E element) {
returncontains(element.toString().getBytes(charset));
}
 
/**
* Returns true if the arrayof bytes could have been inserted into the Bloom filter.
* UsegetFalsePositiveProbability() to calculate the probability of this
* being correct.
*
*@parambytes array of bytes tocheck.
*@returntrue if the array couldhave been inserted into the Bloom filter.
*/
public boolean contains(byte[] bytes) {
int[] hashes = createHashes(bytes, numberOfHashFunctions);
for(int hash : hashes) {
if(!redisTemplate.opsForValue().getBit(RedisConsts.CRAWLER_BLOOMFILTER,Math.abs(hash % sizeOfBloomFilter))) {
returnfalse;
}
}
returntrue;
}
 
/**
* Returns true if all theelements of a Collection could have been inserted
* into the Bloom filter.Use getFalsePositiveProbability() to calculate the
* probability of this beingcorrect.
*
*@paramc elements to check.
*@returntrue if all the elements inc could have been inserted into the Bloom filter.
*/
public boolean containsAll(Collection<?extendsE> c) {
for(E element : c) {
if(!contains(element)) {
returnfalse;
}
}
returntrue;
}
 
/**
* Generates digests basedon the contents of an array of bytes and splits the result into 4-byte int'sand store them in an array. The
* digest function is calleduntil the required number of int's are produced. For each call to digest a salt
* is prepended to the data.The salt is increased by 1 for each call.
*
*@paramdata specifies input data.
*@paramhashes number ofhashes/int's to produce.
*@returnarray of int-sized hashes
*/
public static int[] createHashes(byte[] data, int hashes) {
int[] result =newint[hashes];
 
int k =0;
byte salt =0;
while(k < hashes) {
byte[] digest;
synchronized (digestFunction) {
digestFunction.update(salt);
salt++;
digest = digestFunction.digest(data);
}
 
for(int i =0; i < digest.length /4&& k < hashes; i++) {
int h =0;
for(int j = (i *4); j < (i *4) +4; j++) {
h <<=8;
h |= ((int) digest[j]) &0xFF;
}
result[k] = h;
k++;
}
}
returnresult;
}
 
public int getSizeOfBloomFilter() {
returnthis.sizeOfBloomFilter;
}
 
public int getExpectedNumberOfElements() {
returnthis.expectedNumberOfFilterElements;
}
 
public int getNumberOfHashFunctions() {
returnthis.numberOfHashFunctions;
}
 
/**
* Compares the contents oftwo instances to see if they are equal.
*
*@paramobj is the object tocompare to.
*@returnTrue if the contents of theobjects are equal.
*/
@Override
public boolean equals(Object obj) {
if(obj ==null) {
returnfalse;
}
if(getClass() != obj.getClass()) {
returnfalse;
}
finalBloomFilter<E> other = (BloomFilter<E>) obj;
if(this.sizeOfBloomFilter!= other.sizeOfBloomFilter) {
returnfalse;
}
if(this.expectedNumberOfFilterElements!= other.expectedNumberOfFilterElements) {
returnfalse;
}
if(this.numberOfHashFunctions!= other.numberOfHashFunctions) {
returnfalse;
}
returntrue;
}
 
/**
* Calculates a hash codefor this class.
*
*@returnhash code representing thecontents of an instance of this class.
*/
@Override
public int hashCode() {
int hash =7;
hash =61* hash +this.sizeOfBloomFilter;
hash =61* hash +this.expectedNumberOfFilterElements;
hash =61* hash +this.numberOfHashFunctions;
returnhash;
}
 
public static void main(String[] args) {
BloomFilter<String> bloomFilter =newBloomFilter<>(0.0001,600000);
System.out.println(bloomFilter.getSizeOfBloomFilter());
System.out.println(bloomFilter.getNumberOfHashFunctions());
}
}

相關推薦

'《幽靈行動：斷點》b測大數據出爐玩家累計滅敵123億'

"育碧旗下新作《幽靈行動：斷點（Tom Clancys Ghost Recon: Breakpoint）》在9月5日至9月9日期間進行了Beta測試，今天育碧官方公開了這次Beta測試的大數據統計圖，為玩家統計了遊戲中各種道具、槍械、殺敵數等。一起來看看吧。在這次測試期間共...

幽靈行動育碧軟件大數據 PlayStation Xbox Xbox One 2019-09-19

'4.7萬億！《2019中國餐飲大數據白皮書》出爐透露了這十大機會點'

"在日前舉行的第二十屆中國美食節新聞通氣會上，中國飯店協會會長韓明介紹，今年1月份至7月份，全國餐飲業收入為24937億元，同比增長9.4%。預計全年消費規模將達4.7萬億元。那麼，對於食材企業而言，其中有哪些機會？結合中國飯店協會會長韓明的介紹以及2019中國餐飲大數據白...

快餐中式快餐大數據經濟美食博覽會投資關愛吃貨成長協會 2019-09-19

'如何找對人、選好貨、鋪對場？尼爾森快消零售大數據揭開真相'

"中國商報/中國商網（記者張濤）9月17日，尼爾森發佈了《揭祕高能市場：尼爾森中國城市快消零售大數據報告(2019)》。該報告彙集消費者、門店、地理特徵、產品及銷量等超過3萬個數據標籤，實現米級人貨場數據的立體融通。尼爾森表示，報告旨在幫助品牌商和零售商以最快速度瞭解市場...

大數據黃金技術 2019-09-18

'讓人遺憾！阿根廷輸球無緣世界盃冠軍兩大數據表現太差了'

"北京時間9月15日晚上，男籃世界盃決賽打響，阿根廷隊迎戰西班牙隊，經過四節比賽的激戰，阿根廷隊遺憾75-95輸給西班牙隊無緣冠軍，本場比賽阿根廷輸球可以說是輸在了自己的天生短板跟臨場發揮了，球隊兩大方面的表現表現有點糟糕！說阿根廷輸給了天生的短板，是因為球隊陣容的短板，那...

世界盃足球賽阿根廷西班牙大數據路易斯·斯科拉籃球的夏天越投入越精彩 2019-09-18

'優信李成彬：大數據助力二手車行業成長變革'

"優信集團業務產品中心總經理李成彬日前在“創享未來，駕馭明天”——未來出行·創新與變革跨界交流活動上，發表了主題為《大數據驅動行業變革》的演講，與在場嘉賓分享大數據的影響下優信在二手車行業的成長曆程。新興價值網幫助企業實現創新性增長李成彬表示，近幾年行業變化巨大，以電商行業...

大數據二手車技術萬物嚐鮮節人生第一份工作京東商城 2019-09-18

'海盜遊戲《ATLAS》結合大數據制定新計劃，玩家50%時間在海上活動'

"作為全Steam最大的一款航海遊戲，海盜冒險生存遊戲《ATLAS》給我們帶來的第一直觀體驗就是規模宏偉，它有著4.5萬平方公里的地圖以及900多個小島嶼，而玩家則會在這款遊戲裡面和4萬個玩家一起作戰，感受由《ATLAS》帶來的真實海戰。然而最近《ATLAS》卻在分析玩家行...

大數據航海 Steam 生存遊戲 2019-09-18

'手遊大數據：川渝玩家偏愛棋牌？王者榮耀等MOBA遊戲用戶粘性最高'

"今天（9.17）國內移動互聯網大數據公司QuestMobile，發佈了2019手機遊戲行業半年報告。該報告從行業基本發展狀況、手遊玩家差異化特點、手遊流量以及遊戲推廣方式等多個方面用數據敘述了上半年國內手機遊戲行業內的一些情況。手遊行業收入增速擴大，活躍用戶規模呈現持續向...

網絡遊戲 Qwangzherongyao 大數據市場營銷廣東移動互聯網消除類遊戲四川人生第一份工作 2019-09-18

'淺析大數據技術及其行業產品'

"大數據，IT行業的又一次技術變革，大數據的浪潮洶湧而至，對國家治理、企業決策和個人生活都在產生深遠的影響，並將成為雲計算、物聯網之後信息技術產業領域又一重大創新變革。未來的十年將是一個“大數據”引領的智慧科技的時代、隨著社交網絡的逐漸成熟，移動帶寬迅速提升、雲計算、物聯網...

大數據技術數據庫數據挖掘 NoSQL 算法硬件設計雲計算物聯網 MapReduce 可視化技術投資 SQL GFS 人工智能風行網思科系統經濟歷史社交網絡 Google 2019-09-18

'“蓮蓉蛋黃”月餅銷量最好月餅大數據——銷量同比增52%'

"中新社北京9月12日電 (記者周銳)在中秋節來臨之際，月餅的銷售又一次成為熱門話題。京東大數據研究院日前披露了一份研究報告，展示了節前兩週京東平臺月餅銷售的相關情況。資料圖：上海民眾排隊購買鮮肉月餅。湯彥俊攝從總量上看，2019年中秋節前兩週全國月餅銷量是去年同期的1...

最圓不過中秋月蓮茸大數據蜜餞廣東糕點江蘇河北堅果芝麻豆沙上海奶黃湖北河南京東商城五仁浙江省安徽黑龍江省水果山東葡萄酒海鮮遼寧重慶福建酒貴州 2019-09-18

'市場 | 電力大數據如何服務社會？國網大數據中心促進數據增值變現落地應用'

"2019中國國際智能產業博覽會國家電網展區內，重慶市民劉華龍聚精會神地聽了工作人員講解，感慨地說：“之前與國家電網的接觸僅僅是買電，沒想到你們研發的產品還可以用來支撐政府決策，幫助中小企業解決融資難題。”國家電網有限公司在2019智博會上集中展示了57項泛在電力物聯網建設...

大數據經濟國家電網投資物聯網重慶金融能源數據挖掘人生第一份工作上海可視化技術算法南京安徽 2019-09-18

'14日大數據：美國隊恥辱記錄彙總，老司機當選主席！MVP候選出爐'

"米切爾16分美國勝波蘭鎖第7；博格丹31分塞爾維亞排第51、14日之星：博格丹諾維奇31分4板3助7記三分當選男籃世界盃已經結束了9月14日的兩場排位賽，我們結合各球員的表現評選出了“今日之星”，塞爾維亞後衛博格丹-博格丹諾維奇當選。在塞爾維亞以90-81擊敗捷克的比賽中...

世界盃籃球賽德克·諾維茨基斯蒂芬·庫裡世界盃足球賽路易斯·斯科拉埃文·特納越投入越精彩法國男籃勒布朗·詹姆斯波特蘭開拓者布魯克林籃網維克托·奧拉迪波塞爾維亞丹佛掘金弗拉德·迪瓦茨詹姆斯·哈登印第安納步行者本·華萊士達米恩·利拉德安東尼·戴維斯波蘭凱里·歐文大數據喬爾·恩比德休斯頓火箭亞當·博格丹洛杉磯快船洛杉磯湖人科懷·倫納德密爾沃基雄鹿歐洲費城76人捷克比利·多諾萬傑梅因·奧尼爾蘇聯德國阿根廷阿根廷男籃奧林匹克運動會法國馬丁·喬爾俄羅斯新西蘭沙奎爾·奧尼爾舊金山加拿大 2019-09-18

'優信成長的關鍵在於大數據，李成彬分享全國購成長曆程'

"【獵雲網北京】9月12日報道近日，優信集團業務產品中心總經理李成彬在“創享未來，駕馭明天”——未來出行·創新與變革跨界交流活動上，發表了主題為《大數據驅動行業變革》的演講，與在場嘉賓分享大數據的影響下優信在二手車行業的成長曆程。新興價值網幫助企業實現創新性增長近幾年行業變...

大數據技術二手車萬物嚐鮮節京東商城人生第一份工作 2019-09-18

'貴州大學新生大數據，最小14歲，銅仁一中連續三年奪冠'

"開學報到兩天倒計時，2019級小萌新就位！新生都是來自哪裡呢？每個學院的新生人數有多少？男女比例又是怎樣的呢？......礦業學院、土木工程學院喜提最高男女比，每10個新生中僅有1個女生。醫學院榮獲最低男女比，每10個新生中僅有1個男生。為了均衡男女比例，溪溪單方面宣佈軍...

貴州銅仁大數據河北土木工程遵義生活冷知識湖南不完美媽媽苗族 2019-09-17

'10月國慶節前後，A股如何走？歷史十年的大數據告訴你'

"中秋佳節剛剛結束，我們就要迎來十一長假了！那麼對於此次的十一長假來說，節前節後到底A股會如何走呢？筆者用歷史的數據，以及目前的情況來給你分析一下，看看有沒有道理！第一、從數據來看，國慶小長假的節日效應明顯，漲多跌少的概率較大。我們可以看到近十年以來A股的十年國慶前夕表現都...

滬指大數據投資歷史人生第一份工作 2019-09-17

'北斗導航總設計師楊長風：北斗將與5G大數據等深度融合'

"北斗導航總設計師楊長風表示，北斗將與互聯網、物聯網、5G、大數據深度融合，塑造形成基準統一、覆蓋無縫、安全可信、便捷高效的北斗綜合導航定位授時體系。未來，北斗系統會堅持融合發展，將導航定位服務融為一體，並在此基礎上增加國際搜救、星基增強、精密單點定位等服務能力。此外，北斗...

我的第一部5G手機大數據設計師 GPS 物聯網 2019-09-17

'網友：到處都是東北人；大數據：沒幾個東北人'

" 現在都說，哪哪哪都是東北人，東北人多麼多！東北已經沒人了，人都跑出來了。但是在大數據面前，東北好像又沒幾個人了。如圖所示，都在反映深圳、杭州有多麼多的東北人，深圳東北人確實挺多，都佔到外來人口的2%了！如果深圳有1000萬外來人口，那東北人至少有20多萬呢，真多啊！"

大數據深圳杭州 2019-09-17

'公立醫院績效考核：數據“失真”大剖析'

"醫保領域領先的新媒體平臺投稿郵箱：[email protected]文章轉載：010-84222990關注┃來源：秦永方醫療衛生財務會計經濟研究8月2日，國家衛生健康委辦公廳發佈《關於通報西安市第三醫院績效考核有關問題的函》（下稱《函件》），對事件基本情況和處理結果予以公...

醫療保險藥品手術兩百年技術經濟護理證券投資基金大數據軟件 2019-09-17

'13日大數據：斯科拉世界盃歷史得分王，哈登遭房東索賠30萬美元'

"1、13日之星：小加索爾33分6籃板4助攻當選男籃世界盃已經結束了9月13日的兩場半決賽，我們結合各球員的表現評選出了“今日之星”，西班牙中鋒馬克-加索爾當選。在西班牙歷經雙加時以95-88擊敗澳大利亞的半決賽中，加索爾表現出色，他出戰39分鐘，19投11中，其中三分球9...

路易斯·斯科拉詹姆斯·哈登休斯頓火箭俄克拉何馬城雷霆洛杉磯快船丹佛掘金世界盃足球賽西班牙男籃芝加哥公牛馬克·加索爾猶他爵士波特蘭開拓者波士頓凱爾特人孟菲斯灰熊勒布朗·詹姆斯保羅·喬治費城76人保羅·加索爾世界盃籃球賽底特律活塞明尼蘇達森林狼法國男籃洛杉磯湖人裡奇·盧比奧多倫多猛龍德馬庫斯·考辛斯布魯克林籃網聖安東尼奧馬刺薩克拉門託國王印第安納步行者阿根廷男籃密爾沃基雄鹿德瑪爾·德羅贊約翰·沃爾克利夫蘭騎士菲尼克斯太陽邁阿密熱火西班牙越投入越精彩吉米·巴特勒維克托·奧拉迪波凱文·杜蘭特紐約尼克斯布宜諾斯艾利斯拉塞爾·威斯布魯克阿根廷埃裡克·布萊索理查德森克雷·湯普森帕特里克·貝弗利斯蒂芬·庫裡保羅·米爾薩普巴恩斯 J·J·雷迪克鵜鶘扎克·拉文大數據華盛頓奇才凱里·歐文拉瑪庫斯·阿爾德里奇唐斯戈登·海沃德布萊克·格里芬朱利葉斯·蘭德爾安德烈·伊戈達拉朱·霍勒迪洛瑞阿維達斯·薩博尼斯尼古拉·武切維奇克里斯·米德爾頓邁克·康利傑夫·蒂格達米恩·利拉德埃文·特納塞爾吉·伊巴卡印第安納波利斯喬爾·恩比德埃爾·霍弗德魔術達尼洛·加利納裡波爾津吉斯法國運動畫刊歷史希臘歐洲印第安納州澳大利亞文章 2019-09-16

'獨家智酷 | 大數據看中國女排 vs 俄羅斯女排'

"比賽數據中國隊扣球 53-39領先於俄羅斯隊，攔網 8-7，發球7-0 ，俄羅斯隊失誤送給中國隊7分。中國隊三位隊員得分上雙，朱婷拿到最高分22分，張常寧17分，袁心玥 10分。中國隊 vs 俄羅斯隊 14人名單️:主攻：朱婷(隊長)，張常寧，劉曉彤，李盈瑩副攻：袁心玥...

俄羅斯女排中國女排大數據朱婷顏妮體育袁心玥劉曉彤魏秋月姚迪俄羅斯騰訊丁霞曾春蕾 2019-09-16

'中秋大數據：蓮蓉蛋黃成最受歡迎月餅你喜歡哪一種口味的月餅？'

"今年中秋節前，蓮蓉蛋黃餡的月餅銷量是去年同期的近1.8倍，牢牢把握“國民舌尖”第一名，其次是五仁、火腿、豆沙、奶黃和水果。除以上口味之外，安徽、福建、江蘇、廣東、廣西、海南等東南沿海地區的消費者比較喜歡“黑芝麻”；而“棗泥”更受北京、河北、河南、黑龍江、山西等北方地區的消...

月餅蓮茸中秋節大數據廣東五仁豆沙奶黃江蘇京東商城河北水果海南江西安徽浙江省上海山東四川河南甘肅廣西湖北關愛吃貨成長協會黑龍江省內蒙古芝麻花榴槤湖南吉林福建貴州天津 2019-09-16

推薦中...