天蠶在你身邊
不方便打電話?讓天蠶聯(lián)絡(luò)你
天蠶在你身邊
不方便打電話?讓天蠶聯(lián)絡(luò)你
解說URL權(quán)重,以目錄深度評(píng)估網(wǎng)頁重要度參考
1、URL權(quán)值的設(shè)定:根據(jù)URL的目錄深度來定,深度是多少,權(quán)值就減少多少,權(quán)值最小為零。
2、URL中出現(xiàn)字符”/”,”?”,或”&” 1次,則權(quán)值減1,出現(xiàn)”search”,”proxy”,或”gate” 1次,則權(quán)值減2;最多減到零。
(包含”?”,或”&”的URL是帶參數(shù)的形式,需要經(jīng)過被請(qǐng)求方程序服務(wù)獲得網(wǎng)頁,不是搜索引擎系統(tǒng)側(cè)重的靜態(tài) 網(wǎng)頁,因此權(quán)值相應(yīng)降低。包含”search”,”proxy”,或”gate”,說明該網(wǎng)頁極大可能是搜索引擎中檢索的結(jié)果頁面,代理頁面,因此要降低 權(quán)值)。
3、定URL初始權(quán)值為10(此值設(shè)定的越小,從未訪問URL集合中排序輸出就越快。但是也不能太小,否則URL的權(quán)值意義就不大了,導(dǎo)致搜集策略不明顯);
4、選擇未訪問URL的策略。
因?yàn)闄?quán)值小不一定說明不重要,所以有必要給一定的機(jī)會(huì)搜集權(quán)值小的未訪問URL。選擇未訪問URL的策略可以采用輪流 的方法進(jìn)行,一次按照權(quán)值排序取,一次隨機(jī)?。换蛘逳次按照權(quán)值排序取,M次隨機(jī)取(N1,M1)。
N,M 的選擇可以根據(jù)系統(tǒng)實(shí)際運(yùn)行情況獲得。
例如:URL多樣化
抓取優(yōu)先級(jí)
爬蟲順著一個(gè)個(gè)的URL在互聯(lián)網(wǎng)上抓取網(wǎng)頁,它一邊下載這個(gè)網(wǎng)頁,一邊在提取這個(gè)網(wǎng)頁中的鏈接。假設(shè)從搜索引擎某一個(gè)節(jié)點(diǎn)出來的爬蟲有爬蟲A、爬蟲B、爬蟲C,當(dāng)它們到達(dá)www.ifaceseo.com這個(gè)網(wǎng)站的時(shí)候,每個(gè)爬蟲都會(huì)抓取到很多URL
這里會(huì)有一個(gè)待抓取列表
重慶網(wǎng)絡(luò)公司
地址:重慶市渝中區(qū)上清寺鑫隆達(dá)B座28-8
郵編:400015
電話:023-63612462
EMAIL:cnjl_net@163.com