午夜福利三级理论电影,试看60秒做受小视频,婷婷色爱区综合五月激情韩国,无码国产精品一区二区高潮,无码一区二区三区视频

域名綜合信息查詢...
  • 綜合
  • Whois
×
歷史記錄

搜索引擎爬蟲的三大更新策略是什么?

發(fā)布時(shí)間:2020-03-09 23:54:51 來(lái)源:互聯(lián)網(wǎng) 作者:四月 點(diǎn)擊量:2686

搜索引擎爬蟲的更新,基本應(yīng)用在像快照的更新,搜索引擎對(duì)已抓取頁(yè)面的再抓取行為等。至于為什么要進(jìn)行再抓取基本是因?yàn)榛ヂ?lián)網(wǎng)上萬(wàn)萬(wàn)億的頁(yè)面量。很多頁(yè)面還是有一直變化的。這個(gè)變化的前置因子,導(dǎo)致了爬蟲要不斷的更新自己的數(shù)據(jù),從而一定要對(duì)已經(jīng)抓取的網(wǎng)頁(yè)進(jìn)行再抓取。那搜索引擎爬蟲的三大更新策略都是什么呢?

搜索引擎爬蟲的三大更新策略是什么?


所謂歷史更新策略,就是針對(duì)已經(jīng)抓取的網(wǎng)頁(yè)有一個(gè)再抓取的時(shí)間限制。例如爬蟲抓取我SEO博客的首頁(yè),從而搜索引擎通過(guò)一直以來(lái)的抓取得出我的博客首頁(yè)平均每3天更新一次,那么爬蟲的抓取策略就會(huì)調(diào)整為每3天訪問(wèn)一次我的博客首頁(yè)。

這樣的更新抓取策略告訴我們,網(wǎng)頁(yè)變化頻繁就會(huì)引來(lái)蜘蛛的頻繁抓取。所以在這里如果你的網(wǎng)頁(yè)全部是靜態(tài)的。也就意味著不生成一遍對(duì)應(yīng)頁(yè)面是不會(huì)發(fā)生變化的。相對(duì)而言針對(duì)這種策略邏輯你就不是很站好。所以網(wǎng)址設(shè)置為偽靜態(tài)的,在網(wǎng)站打開速度能夠很好控制的前提下,把網(wǎng)頁(yè)本身設(shè)置為動(dòng)態(tài)頁(yè)面是很不錯(cuò)的選擇。

搜索引擎爬蟲的用戶體驗(yàn)更新策略
所謂用戶體驗(yàn)的網(wǎng)頁(yè)更新策略,是搜索引擎認(rèn)為網(wǎng)頁(yè)參與具有一定搜索量詞的排名,且在前3頁(yè)的,是經(jīng)常會(huì)被用戶訪問(wèn)到的頁(yè)面。那么針對(duì)這類頁(yè)面要更優(yōu)先的進(jìn)行抓取更新。

而3頁(yè)之后的網(wǎng)頁(yè)對(duì)于用戶而言,訪問(wèn)的人占到了極少數(shù),晚一些時(shí)間更新也未嘗不可。因此采取的一種網(wǎng)頁(yè)抓取更新策略。

這種策略讓我們知道,一些核心關(guān)鍵詞排名靠前的網(wǎng)頁(yè),被爬蟲抓取的頻次是更多的。那么值得思考的一個(gè)問(wèn)題是網(wǎng)站也會(huì)有一些詳情頁(yè),聚合頁(yè)甚至文章頁(yè)參與比錯(cuò)的詞的排名。這是不是意味著這次頁(yè)面抓取量也不錯(cuò)呢?針對(duì)這個(gè)問(wèn)題,趙彥剛之前通過(guò)對(duì)訪問(wèn)日志的分析確定了這個(gè)答案,在80%的情況下,確實(shí)是這樣的。但這種頁(yè)面的頻率遠(yuǎn)低于首頁(yè)、頻道頁(yè)等距離首頁(yè)更近,路徑更短的頁(yè)面抓取量。

不過(guò),我們還是可以好好優(yōu)化我們的詳情頁(yè)/文章頁(yè),在這類頁(yè)面以展示最新內(nèi)容,為最新內(nèi)容的收錄增加爬蟲抓取的入口。

搜索引擎爬蟲抓取網(wǎng)頁(yè)的抽樣聚類策略
談到這個(gè)策略,我們先從字面意思來(lái)看“抽樣,聚類”。抽樣是指從網(wǎng)站中抽取一些樣本出來(lái)進(jìn)行觀察,而聚類是根據(jù)這些樣本的觀察得出一定的結(jié)論后應(yīng)用于這個(gè)類型上。

我們的網(wǎng)站都是有不同類型組成的,例如列表頁(yè)、產(chǎn)品詳情頁(yè)、文章頁(yè)、頻道頁(yè)、聚合頁(yè)等,這些都是不同的類型。搜索引擎從這中間抽選出一些樣本,進(jìn)行觀察后得出一個(gè)更新周期后,應(yīng)用于整個(gè)類型的方式就是抽樣聚類的網(wǎng)頁(yè)抓取更新策略。

我們舉個(gè)例子,搜索引擎從列表頁(yè)抽樣找到A列表頁(yè),通過(guò)分析觀察發(fā)現(xiàn)A列表頁(yè)每2天可以抓取一次。然后和A列表頁(yè)同類型的還有B、C、D列表頁(yè),因?yàn)樗麄兊哪0嬉粯?、?dǎo)航都有、首頁(yè)下模塊也特指這四個(gè)列表頁(yè)。那么他們是一類的,所以B、C、D列表頁(yè)和A列表頁(yè)一樣,都是2天一抓取。

好了今天的分享就到這里,希望對(duì)你有所幫助。

seo優(yōu)化鏈接:http://y447.cn/reg.htm?t=seo_adzxseo
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享網(wǎng)絡(luò)內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:400-997-2996;郵箱:service@Juming.com。本站原創(chuàng)內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明出處:聚名網(wǎng) 搜索引擎爬蟲的三大更新策略是什么?
熱門競(jìng)價(jià) 更多>
推薦一口價(jià) 更多>

登錄聚名,您可以享受以下權(quán)益:

立即登錄/注冊(cè)