百度指紋算法是什么?
簡單來說搜索引擎指紋算法就和人的指紋一樣,看起來這個(gè)手指是差不多的,但是實(shí)際上每一個(gè)人的手指都有一個(gè)獨(dú)一無二的指紋,而我們所看到的網(wǎng)頁也是一樣的。不少網(wǎng)頁內(nèi)容其實(shí)都是差不多的,但是每一個(gè)網(wǎng)頁搜索引擎抓取以后都會保存,然后建立一個(gè)指紋,可以理解為唯一標(biāo)識符,而這個(gè)算法最大的好處就是可以通過這個(gè)唯一標(biāo)識別符來計(jì)算網(wǎng)頁的重復(fù)。
搜索引擎網(wǎng)頁指紋技術(shù)在百度百科中的解釋是:提取一個(gè)信息的特征,通常是一組詞或者一組詞+權(quán)重,然后根據(jù)這組詞調(diào)用特別的算法,例如MD5,將之轉(zhuǎn)化為一組代碼,這組代碼就成為標(biāo)識這個(gè)信息的指紋。搜索引擎在抓取內(nèi)容之后,會首先剔除掉文章中的一些非特征信息關(guān)鍵詞,比如:你、我、他等稱謂;而且、但是等連接詞;哦、呢、吧等語氣詞。這些詞對于信息標(biāo)識是沒有幫助的,然后就是對文字信息的提取與處理,經(jīng)過一系列復(fù)雜的算法流程。
二、常見的搜索引擎指紋算法有哪些?
最簡單的指紋構(gòu)造方式就是計(jì)算文本的md5或者sha哈希值,除非輸入相同的文本,否則會發(fā)生“雪崩效應(yīng)”,極小的文本差異通過md5或者sha計(jì)算出來的指紋就會不同(發(fā)生沖撞的概率極低),那么對于稍加改動的文本,計(jì)算出來的指紋也是不一樣。
因此,一個(gè)好的指紋應(yīng)該具備如下特點(diǎn):
1、指紋是確定性的,相同的文本的指紋是相同的;
2、指紋越相似,文本相似性就越高;
3、指紋生成和匹配效率高。
【版權(quán)聲明】:本站內(nèi)容來自于與互聯(lián)網(wǎng)(注明原創(chuàng)稿件除外),供訪客免費(fèi)學(xué)習(xí)需要。如文章或圖像侵犯到您的權(quán)益,請及時(shí)告知,我們第一時(shí)間刪除處理!謝謝!