蜘蛛程序是什么東西(蜘蛛程序和機(jī)器人程序是什么)

時(shí)間:2023-01-14 09:50:50 閱讀:52

原標(biāo)題:蜘蛛程序是什么東西(蜘蛛程序和機(jī)器人程序是什么)

  蜘蛛程序是什么東西(蜘蛛程序和機(jī)器人程序是什么)

蜘蛛程序是什么東西

  什么是蜘蛛程序(spider)?

  蜘蛛也稱為機(jī)器人,指的是搜索引擎運(yùn)行的計(jì)算機(jī)程序,沿著頁(yè)面上的超鏈接發(fā)現(xiàn)和爬行更多頁(yè)面,抓取頁(yè)面內(nèi)容,關(guān)入搜索引擎數(shù)據(jù)庫(kù)。

  蜘蛛程序就是爬行程序,是搜索引擎的一部分,負(fù)責(zé)在互聯(lián)網(wǎng)上程序定位和收這樣能夠響應(yīng)搜索者的請(qǐng)求,成功的搜索引擎營(yíng)銷取決于爬的網(wǎng)頁(yè)。

  什么是蜘蛛程序通道(spider paths)?

蜘蛛程序和機(jī)器人程序是什么

  蜘蛛程序通道是用于站點(diǎn)導(dǎo)航的輕松通道,例如站點(diǎn)地圖,分類地圖,國(guó)家地圖,或者在關(guān)鍵網(wǎng)頁(yè)底部的文本鏈接,蜘蛛通道包括任何能使蜘蛛程序輕松找到你有網(wǎng)頁(yè)的方法。

  什么是蜘蛛程序陷阱(spider trap)?

  蜘蛛陷阱指的是由于網(wǎng)站結(jié)構(gòu)的某種特征,使搜索引擎陷入無限循環(huán),無法停止爬行,最典型的蜘蛛陷阱是某些頁(yè)面上的萬年歷,搜索引擎可以一直單擊下一個(gè)月陷入無限循環(huán)。

  蜘蛛程序陷阱是阻止蜘蛛程序爬些網(wǎng)頁(yè)顯示的技術(shù)方法,這些手段能很好地配合瀏覽器,但對(duì)蜘蛛程序就構(gòu)成了阻礙,蜘蛛陷阱包括Javascript下拉菜單以及有些種類的重定向。

  百度蜘蛛的運(yùn)行原理是什么?

  1、蜘蛛通過百度蜘蛛下載回來的網(wǎng)頁(yè)放到補(bǔ)充數(shù)據(jù)區(qū),通過各種程序計(jì)算過后才放到檢索區(qū),才會(huì)形成穩(wěn)定的排名,所以說只要下載回來的東西都可以通過指令找到,補(bǔ)充數(shù)據(jù)是不穩(wěn)定的,有可能在各種計(jì)算的過程中給k掉,檢索區(qū)的數(shù)據(jù)排名是相對(duì)比較穩(wěn)定的,百度目 前是緩存機(jī)制和補(bǔ)充數(shù)據(jù)相結(jié)合的,正在向補(bǔ)充數(shù)據(jù)轉(zhuǎn)變,這也是目 前百度收錄困難的原因,也是很多站點(diǎn)今天給k了明天又放出來的原因。

  2、深度優(yōu)先和權(quán)重優(yōu)先,百度蜘蛛抓頁(yè)面的時(shí)候從起始站點(diǎn)(即種子站點(diǎn)指的是一些門戶站點(diǎn))是廣度優(yōu)先抓取是為了抓取更多的網(wǎng)址,深度優(yōu)先抓取的目的是為了抓取高質(zhì)量的網(wǎng)頁(yè),這個(gè)策略是由調(diào)度來計(jì)算和分配的,百度蜘蛛只負(fù)責(zé)抓取,權(quán)重優(yōu)先是指反向連接較多的頁(yè)面的優(yōu)先抓取,這也是調(diào)度的一種策略,一般情況下網(wǎng)頁(yè)抓取抓到40%是正常范圍,60%算很好,100%是不可能的,當(dāng)然抓取的越多越好。

  如何寫爬取鏈接的蜘蛛小程序?

  1、打開并讀取目標(biāo)網(wǎng)頁(yè)內(nèi)容,可以使用urllib2、request等庫(kù);

  2、解析網(wǎng)頁(yè)內(nèi)容,尋找外鏈的鏈接地址。可以使用re寫正則表達(dá)式來處理(類似于抓字段并提取其中的一部分),也可以通過beautifulsoup等專門的html解析庫(kù)來處理;

  3、從外鏈地址中提取網(wǎng)站名稱。這個(gè)應(yīng)該用re就可以簡(jiǎn)單解決了;

  4、比較此次獲取的網(wǎng)站名稱、之前存儲(chǔ)的網(wǎng)站名稱。如果重復(fù),則跳過;如果無重復(fù),則保存此次獲取的網(wǎng)站名稱。

  5、定時(shí)輸出保存搜索結(jié)果。不停循環(huán)上述過程,直到達(dá)到你的設(shè)計(jì)目標(biāo)。

  不過需要注意的是:

  1、有一些網(wǎng)站不希望被爬蟲爬取,會(huì)留有robot.txt文件進(jìn)行說明。爬蟲程序最好尊重別人設(shè)定的限制。

  2、為了減小對(duì)目標(biāo)網(wǎng)站的訪問負(fù)擔(dān),建議不要在短時(shí)間內(nèi)對(duì)某一個(gè)網(wǎng)站發(fā)起大量鏈接,可以用time.sleep()等機(jī)器人方式均衡負(fù)載。

  以上只是最簡(jiǎn)單的思路,根據(jù)實(shí)際任務(wù)情況的不同,可能會(huì)有很多需要擴(kuò)展的地方,比如:東西

  1、有一些網(wǎng)站要求用戶驗(yàn)證,需要打開網(wǎng)頁(yè)時(shí)特別設(shè)置;

  2、網(wǎng)站編碼問題,特別是正則表達(dá)式的編碼要和網(wǎng)頁(yè)編碼相一致(特別是re搜索中文的時(shí)候);

  3、連接并打開網(wǎng)頁(yè)是否成功?不成功應(yīng)當(dāng)怎么處理?

  4、有一些網(wǎng)頁(yè)內(nèi)容可能是通過ajax動(dòng)態(tài)加載的,這可能就需要額外的解決方案了(比如selenimum, phantomJS等等)。

  5、有時(shí)為了提高抓取效率需要進(jìn)行多線程擴(kuò)充,這就涉及到Queue、multithreading等許多額外的庫(kù)了。

版權(quán)聲明:本文來自互聯(lián)網(wǎng)整理發(fā)布,如有侵權(quán),聯(lián)系刪除

原文鏈接:http://m.avtt22014.comhttp://m.avtt22014.com/shenghuojineng/16282.html

標(biāo)簽:程序 蜘蛛 機(jī)器人 東西

Copyright ? 2021-2022 All Rights Reserved 備案編號(hào):閩ICP備2023009674號(hào) 網(wǎng)站地圖 聯(lián)系:dhh0407@outlook.com

主站蜘蛛池模板: 99re在线视频精品| 在线果冻传媒星空无限传媒| 女**毛片一级毛片一| 国产成人亚洲综合在线| 冠希实干阿娇13分钟视频在线看| 久久精品人人做人人爽| 一区二区3区免费视频| 麻绳紧缚奴隷女囚| 男人添女人下部全视频| 日韩中文字幕在线视频| 国自产拍在线天天更新91| 免费国产黄网站在线观看视频| 一级做a爰全过程免费视频毛片 | 精品久久久久久无码免费| 成人网免费观看| 国产成人三级视频在线观看播放| 亚洲av无码一区二区乱孑伦as| 亚洲人成网男女大片在线播放| 毛片免费观看视频| 国产精品高清一区二区三区不卡| 亚洲日韩欧美一区二区三区在线 | 欧美午夜一区二区福利视频| 妞干网在线观看| 人妻中文字幕在线网站| CAOPORN国产精品免费视频| 浪荡女天天不停挨cao日常视频| 成人国产精品2021| 国产一区二区三区不卡在线观看| 亚洲va国产日韩欧美精品| 91亚洲va在线天线va天堂va国产| 欧美激情综合色综合啪啪五月| 大奶校花催眠全世界| 免费人成在线观看视频播放| 99久久国产综合精品成人影院| 欧美成视频无需播放器| 国产精品无码免费专区午夜| 亚洲系列第一页| 99爱在线视频这里只有精品| 深夜a级毛片免费视频| 国产精品99久久精品爆乳| 久久伊人中文字幕麻豆|