熟知排名算法,快速提升網站轉化率
搜索引擎的(de)工作過程非常複雜,其工作過程大(dà)體可以(yǐ)分爲(wéi / wèi)三個(gè)階段:
(1)網頁收集:搜索引擎蜘蛛通過鏈接進行爬行和(hé / huò)抓取,将抓取到(dào)的(de)頁面存儲到(dào)原始數據庫中。
(2)預處理:搜索引擎蜘蛛抓取到(dào)的(de)頁面不(bù)能直接進行用戶查詢排名,需要(yào / yāo)進行預處理。
(3)檢索服務:用戶輸入查詢詞後,排名程序調用索引數據庫中的(de)數據,将與用戶搜索詞相關的(de)頁面展示給用戶。
搜索引擎是(shì)通過蜘蛛程序對互聯網中的(de)網頁進行抓取和(hé / huò)收集的(de),網頁收集是(shì)搜索引擎工作的(de)第一(yī / yì /yí)步。了(le/liǎo)解搜索引擎的(de)網頁抓取機制,便于(yú)蜘蛛抓取更多的(de)頁面,使網站有更好的(de)排名。
(1)什麽是(shì)蜘蛛
網絡爬蟲,又被稱爲(wéi / wèi)網頁蜘蛛、網絡機器人(rén),是(shì)指按照一(yī / yì /yí)定的(de)規則,自動抓取互聯網中網頁的(de)程序或者腳本。
(2)蜘蛛的(de)工作方式
對于(yú)互聯網中的(de)網站來(lái)說(shuō),如果沒有對其中的(de)鏈接進行屏蔽設置,蜘蛛就(jiù)可以(yǐ)通過鏈接在(zài)網站内或者網站間進行爬行和(hé / huò)抓取。
由于(yú)互聯網中的(de)網站及頁面鏈接結構異常複雜,蜘蛛需要(yào / yāo)采取一(yī / yì /yí)定的(de)爬行策略才能抓取更多的(de)頁面。
最簡單的(de)爬行策略有兩種:一(yī / yì /yí)種是(shì)深度優先,另一(yī / yì /yí)種是(shì)廣度優先。
廣度優先:是(shì)指蜘蛛會先抓取起始網頁中鏈接的(de)所有網頁,然後再選擇其中的(de)一(yī / yì /yí)個(gè)鏈接網頁,繼續抓取在(zài)此網頁中鏈接的(de)所有網頁。這(zhè)是(shì)最常用的(de)方式,因爲(wéi / wèi)這(zhè)個(gè)方法可以(yǐ)讓網絡蜘蛛并行處理,提高其抓取速度。
深度優先:是(shì)指蜘蛛會從起始頁開始,一(yī / yì /yí)個(gè)鏈接一(yī / yì /yí)個(gè)鏈接跟蹤下去,處理完這(zhè)條線路之(zhī)後再轉入下一(yī / yì /yí)個(gè)起始頁,繼續跟蹤鏈接。
深度優先和(hé / huò)廣度優先通常是(shì)混合使用的(de)。這(zhè)樣既可以(yǐ)照顧到(dào)盡量多的(de)網站,也(yě)可以(yǐ)照顧到(dào)一(yī / yì /yí)部分網站的(de)内頁,同時(shí)也(yě)會考慮頁面權重、網站規模、外鏈、更新等因素。而(ér)且搜索引擎爲(wéi / wèi)了(le/liǎo)提高爬行和(hé / huò)抓取的(de)速度。都是(shì)用多個(gè)蜘蛛并發分布爬行。
根據這(zhè)一(yī / yì /yí)原理,在(zài)優化網站時(shí),應該合理設置網站中的(de)鏈接,便于(yú)蜘蛛更加順利的(de)爬行網站中的(de)各個(gè)頁面。
(3)認識種子(zǐ)站點
一(yī / yì /yí)些互聯網中的(de)網站被蜘蛛格外看重, 蜘蛛的(de)爬行也(yě)往往以(yǐ)這(zhè)些網站作爲(wéi / wèi)起始站點。通常情況下,這(zhè)類站點具有一(yī / yì /yí)定的(de)權威性和(hé / huò)導航性,如新浪、hao123 等。這(zhè)些具有權威性和(hé / huò)導航性的(de)網站稱爲(wéi / wèi)種子(zǐ)站點。因此,在(zài)優化網站時(shí),可以(yǐ)在(zài)種子(zǐ)站點中添加自己網站的(de)鏈接,增加線 蛛抓取的(de)入口。
(4)搜索引擎的(de)收集機制
如蛛對于(yú)網站的(de)取頻率受網站更新周期的(de)影響,若網站定期定量更新,那麽,蜘蛛會規律進入網站中進行爬行和(hé / huò)抓取。
蜘蛛每次爬行都會把頁面數據存儲起來(lái),如果第二次爬行發現頁面與第一(yī / yì /yí)次收錄的(de)完全一(yī / yì /yí)樣,說(shuō)明頁面沒有更新,多次抓取後蜘蛛會對頁面更新頻率有所了(le/liǎo)解。不(bù)常更新的(de)頁面,蜘蛛也(yě)就(jiù)沒有必要(yào / yāo)經常抓取。如果頁面内容經常更新,蜘蛛就(jiù)會更加頻繁地(dì / de)訪問這(zhè)種頁面,頁面上(shàng)出(chū)現的(de)新鏈接,也(yě)自然會被統蛛更快地(dì / de)抓取。
因此,在(zài)優化網站時(shí),應該定期定量地(dì / de)更新内容,增加網站被抓取的(de)頻率。
(5) 文件存儲
視索引擎蜘蛛抓取的(de)網站制作頁面存入原始數據庫中。搜索引擎會對原始數據庫中的(de)頁面進行相應的(de)處。
上(shàng)一(yī / yì /yí)篇:如何更好的(de)優化自己的(de)網站?看看這(zhè)些方法
下一(yī / yì /yí)篇:網站seo優化界面整潔