- 相關(guān)推薦
搜索引擎抓取原理
搜索引擎的處理對(duì)象是互聯(lián)網(wǎng)網(wǎng)頁(yè),日前網(wǎng)頁(yè)數(shù)量以百億計(jì),所以搜索引擎首先面臨的問題就是:如何能夠設(shè)計(jì)出高效的下載系統(tǒng),以將如此海量的網(wǎng)頁(yè)數(shù)據(jù)傳送到本地,在本地形成互聯(lián)網(wǎng)網(wǎng)頁(yè)的鏡像備份。下面是YJBYS小編整理的搜索引擎抓取原理,希望對(duì)你有幫助!
搜索引擎工作的第一大特點(diǎn)就是爬行抓取,就是盡可能的把需要抓取的信息都抓取回來(lái)進(jìn)行處理分析,因此爬行抓取的的工作方式也是搜索引擎正常高效工作方式的第一步,爬行抓取的成功也是所有網(wǎng)絡(luò)資源能夠有效正常展示給訪客的前提,所以這一步如果出現(xiàn)異常,那么將導(dǎo)致搜索引擎后續(xù)的工作都無(wú)法進(jìn)行展開。
大家可以回憶一下我們?cè)谙胍阉饕粋(gè)東西時(shí),首先會(huì)在百度搜索框輸入我們要找的關(guān)鍵詞,而結(jié)果頁(yè)會(huì)出現(xiàn)眾多與關(guān)鍵詞有關(guān)信息,而在這個(gè)從搜索到展現(xiàn)的過程是以秒為單位來(lái)進(jìn)行計(jì)算的。舉這個(gè)例子大家是否已經(jīng)明白,搜索引擎能在1秒鐘之內(nèi)把所查詢的與關(guān)鍵詞有關(guān)的信息從豐富的互聯(lián)網(wǎng)中逐一抓取一遍,能有如此高的工作效率,還還是歸結(jié)為搜索引擎在事先都已經(jīng)處理好了這部分?jǐn)?shù)據(jù)的原因。
再例如我們平時(shí)上網(wǎng)隨便打開一個(gè)網(wǎng)頁(yè)也是在1秒鐘之內(nèi)打開,這雖然僅僅是打開一個(gè)網(wǎng)頁(yè)的時(shí)間,但是搜索引擎在以秒計(jì)算的情況并不可能把互聯(lián)網(wǎng)上的所有信息都查詢一遍,這不僅費(fèi)時(shí)費(fèi)力也費(fèi)錢。 因此我們不難發(fā)現(xiàn)現(xiàn)在的搜索引擎都是事先已經(jīng)處理好了所要抓取的網(wǎng)頁(yè)。而搜索引擎在搜集信息的工作中也都是按照一定的規(guī)律來(lái)進(jìn)行的,簡(jiǎn)單的我們可以總結(jié)以下兩種特點(diǎn)。
第一、批量收集:對(duì)互聯(lián)網(wǎng)上所有的存在鏈接的網(wǎng)頁(yè)信息都收集一遍,在這個(gè)收集的過程中可能會(huì)耗很長(zhǎng)一段時(shí)間,同時(shí)也會(huì)增加不少額外的帶寬消耗,時(shí)效性也大大降低,但是這作為搜索引擎的重要的一步,還是一如既往的正常的去收集。
第二、增量收集:這可以簡(jiǎn)單的理解是批量收集的一個(gè)高潔階段,最大可能的彌補(bǔ)了批量收集的短處和缺點(diǎn)。在批量搜集的基礎(chǔ)上搜集新增加的網(wǎng)頁(yè)內(nèi)容信息,再變更上次收集之后產(chǎn)生過改變的頁(yè)面,刪除收集重復(fù)和不存在的網(wǎng)頁(yè)。
【搜索引擎抓取原理】相關(guān)文章:
搜索引擎原理詳解06-11
淺析搜索引擎投票優(yōu)化方式原理10-26
淺談搜索引擎收錄的三大原理08-08
網(wǎng)站如何吸引蜘蛛對(duì)頁(yè)面的抓取?07-17
蜘蛛抓取網(wǎng)站如何提高網(wǎng)站權(quán)重09-26
提高百度蜘蛛抓取量的方法08-15
吸引百度蜘蛛對(duì)網(wǎng)站抓取的技巧10-06
百度蜘蛛對(duì)文章抓取的喜好分析05-07