国产精品免费观看在线_国产视频久久网_久久婷婷久久一区二区三区_国产高清视频一区二区

專注抖音視頻、谷歌推廣20年
證券簡稱:思億歐 證券代碼:839255
1對1的貼心服務(wù)13603054593

您當(dāng)前的位置:首頁 >> SEO知識 >> 網(wǎng)站幫助

搜索策略的基本邏輯

發(fā)布時間:2020-06-21 10:38:21瀏覽次數(shù):

網(wǎng)絡(luò)資源數(shù)量巨大,種類多樣。任何搜索引擎要采集所有的網(wǎng)絡(luò)資源,既不可能,也沒有必要。如何根據(jù)鏈接結(jié)構(gòu)及對網(wǎng)絡(luò)數(shù)據(jù)的分析確定適用的訪問策略,是信息采集的關(guān)鍵。常見的訪問策略包括常規(guī)遍歷算法和優(yōu)化遍歷算法兩類。

常規(guī)遍歷形式,通常包括廣度優(yōu)先算法、深度優(yōu)先算法、IP地址搜索策略等。

廣度優(yōu)先算法按照鏈接的層次進(jìn)行,在訪問完一個層次后再進(jìn)行下一層次的訪問,如此由淺入深、逐級進(jìn)行。這一算法可以增加訪問的廣度,使得多個服務(wù)器的上層資源得到采集,但鏈接結(jié)構(gòu)中層次較后的有價值資源往往難于獲得。

深度優(yōu)先算法從起始頁面出發(fā),沿頁面上的某一個鏈接進(jìn)行搜索,逐級深入,一直到達(dá)底層網(wǎng)頁,才返回起始頁,選擇其他鏈接進(jìn)行類似的訪問。這種算法可以遍歷一個站點F的深層頁面,但會影響它的遍歷廣度或遍歷的時間,有時還有陷入循環(huán)狀態(tài)的危險。

IP地址搜索策略將訪問限制在指定的IP地址范圍中,不考慮各文檔中指向其他站點的鏈接。這種算法能夠有針對性地對于特定領(lǐng)域的資源進(jìn)行采集,適合于按照特定目的編制的搜索引擎。

上述各種方式在實際使用中也可以根據(jù)需要,結(jié)合使用,例如將廣度優(yōu)先與深度優(yōu)先結(jié)合等。但一般情況下,這些常規(guī)遍歷形式通常只提供一般的訪問算法,并不能優(yōu)化采集的質(zhì)量。要改進(jìn)采集質(zhì)量,應(yīng)當(dāng)按照使用的需要,選擇與系統(tǒng)有較高相關(guān)性且質(zhì)量比較高的網(wǎng)頁,并結(jié)合采用相應(yīng)的優(yōu)化采集算法。有些論文論述了網(wǎng)絡(luò)采集中常用的一些優(yōu)化算法,包括:

(1)興趣驅(qū)動(Interest-driven)。即以用戶需求作為網(wǎng)頁采集的依據(jù)。通常依據(jù)檢索杏詢與網(wǎng)絡(luò)的匹配度確定,方法是依據(jù)選定的查詢詞集作為網(wǎng)頁采集的依據(jù),根據(jù)查詢詞與網(wǎng)頁文本的匹配程度確定其相關(guān)性,同時結(jié)合該詞在整個網(wǎng)頁庫中的反文獻(xiàn)頻率(idf),確定其重要性值。由于使用idf項需要的全局信息在采集過程中無法得到,可根據(jù)已采集到網(wǎng)頁的平均值或以過去數(shù)據(jù)的估算值加以代替。

(2)流行驅(qū)動(Popularity-driven)。即判斷重要性程度或得到承認(rèn)的廣泛程度,方法是考察指向它的鏈接數(shù)量。采用這一方式,通常應(yīng)計算出網(wǎng)頁獲得的鏈接數(shù)量,并將這一數(shù)量作為是否采集的依據(jù)。更加全面地判定網(wǎng)頁重要性的方法,是使用Google的PageRank算法,同時計算鏈接該網(wǎng)頁的其他網(wǎng)頁的重要性,但這一方法需要涉及相關(guān)網(wǎng)頁的鏈接情況,在采集的情況下很難做到。

(3)網(wǎng)址驅(qū)動(Location-driven)。即不是以內(nèi)容,而是將網(wǎng)址作為判定網(wǎng)頁重要性的依據(jù),包括,對特定域名賦予高值,進(jìn)行針對性采集;對于包含特定字串如"home"的地址賦予高值;選用帶有較少斜線的網(wǎng)址等。網(wǎng)址驅(qū)動容易操作,在特定系統(tǒng)中也十分有用。例如在專業(yè)搜索引擎中,可以明確將選定的網(wǎng)站、域名作為網(wǎng)頁采集的邊界。

URL列表的排序控制是在采集控制器中進(jìn)行的,在未獲得網(wǎng)頁的情況下,網(wǎng)址驅(qū)動是一個可以直接加以采用的方式,如北大天網(wǎng)在搜索中采用這一方法;但對于相關(guān)性判斷或重要性判斷,由于在訪問過程中,不可能事先得到該網(wǎng)頁數(shù)據(jù),一般只能利用采集器已采集的信息作為依據(jù)。例如,利用已采集網(wǎng)頁的鎖定文本(Anchor Text)來估計特定網(wǎng)頁可能包含的文本,甚至以“鄰近”網(wǎng)頁的文本作為評估依據(jù)等。某個文獻(xiàn)記錄了采用上述方法在有限范圍中試驗的情況。一些論文討論了結(jié)合數(shù)據(jù)挖掘進(jìn)行采集優(yōu)化的問題,但目前仍缺乏大型搜索引擎實際應(yīng)用的例子。

聯(lián)系我們
地址:深圳市龍崗區(qū) 龍城大道85號萬科龍崗云中心16層
13603054593
版權(quán)所有:深圳市西企網(wǎng)科技有限公司|抖音短視頻推廣_抖音短視頻運營_深圳SEO公司,技巧,效果怎么樣 粵ICP備15110110號
X

截屏,微信識別二維碼

微信號:13603054593

(點擊微信號復(fù)制,添加好友)

打開微信

主站蜘蛛池模板: 康乐县| 杭州市| 泌阳县| 延寿县| 汪清县| 龙泉市| 汤原县| 左云县| 南和县| 德江县| 长葛市| 靖江市| 平昌县| 涡阳县| 垫江县| 南宫市| 定陶县| 岳阳县| 松潘县| 日土县| 吐鲁番市| 天等县| 龙山县| 阳谷县| 湖南省| 株洲县| 罗源县| 林甸县| 巴彦县| 阜新市| 延庆县| 沿河| 泸水县| 万盛区| 龙江县| 探索| 三明市| 忻州市| 八宿县| 天长市| 独山县|