爬蟲預算: SEO實戰手冊,讓你全面了解需要知道的一切
目錄
解決方案
在網頁優化</a>的過程中,爬蟲預算</a>是一個相當重要的概念。我們必須認識到「爬蟲」其實就是搜尋引擎</a>使用的工具</a>,它會透過探索網路上各個站點來建立搜索索引。而「預算</a>」則指的是爬蟲花費在您的網站上的時間和資源。<br/><br/>由於爬蟲只能在有限的時間內處理有限數量的頁面,因此我們需要妥善管理並最大化利用這份「預算</a>」以提高SEO</a>效果。 解決方案</a>如下: 1. 減少無效和低價值頁面:您可以透過′noindex′指令或刪除該頁面來阻止爬蟲訪問某些不重要或已失效之頁面。也可以利用′canonical′指令來告知搜尋引擎</a>哪些內容</a>與其他頁面相同或極度相似。<br/><br/> 2. 站內連結結構改善:良好的站內連結策略</a>可幫助爬蟲更有效率地抓取您網站上所有頁面。您應將重要的頁面放在網站的上層並保持每一個頁面都至少有一個來自其他頁面的連結。 3</a>. 網站速度</a>優化:如果您的網站加載速度</a>過慢,爬蟲可能會在完成抓取所有頁面之前就離開,這顯然不利於SEO</a>。<br/><br/>因此,應該定期進行網站速度</a>測試並找出潛在問題進行改善。 4. 伺服器問題排除:伺服器返回錯誤或時間過長也會影響爬蟲預算</a>。需要定時查看Google Search Console中的「抓取統計報告」以確保伺服器正常運作。<br/><br/> 5. 設置XML Sitemap:XML Sitemap可以幫助爬蟲更有效地找到和索引您網站上所有的重要內容</a>。記得要將Sitemap提交給主要搜索引擎</a>如Google和Bing。 6. 使用Robots.txt智能地:Robots.txt是控制爬蟲訪問網站</a>哪些部分的工具</a>,合理使用可使爬蟲聚焦於最重要及最新內容</a>。<br/><br/> 7. 刷新舊內容</a>:定期更新舊內容</a>可以提醒搜尋引擎</a>重新抓取這些頁面,使其保持新鮮感並適時反映出您網站的最新資訊。 8. 利用Google Search Console:Google Search Console 是一個重要的工具</a>,它能幫助我們理解 Google 爬蟲如何</a>看待我們的網站並提供優化建議。 以上都是關於爬蟲預算</a>管理和優化的策略,希望能對您有所幫助。<br/><br/>記住,每個步驟都需要細心實行且持續觀察效果才能確保爬蟲在訪問您網站時能夠得到最大價值。
優勢 | 劣勢 | |
---|---|---|
機會 |
|
|
威脅 |
|
|
不當的seo優化策略可能會被搜索引擎懲罰
Google在其關於爬取和索引的檔中指出:「爬取過程始於一個網址清單</a>,爬蟲使用這些站點上的連結來發現</a>其他頁面。該軟件特別關注新站點、現有站點的變更以及死連結。一個計算機程式確定了要爬取哪些站點,多久爬取一次以及從每個站點抓取多少頁面。<br/><br/>」 這對於SEO</a>意味著什麼?爬蟲使用站點上的連結來發現</a>其他頁面。(您網站的內部連結結構</a>至關重要。)爬蟲優先處理新站點、現有站點的變更和死連結。<br/><br/>自動化流程決定了要爬取哪些網站,多久爬取一次以及Google會從每個網站抓取多少頁面。您的主機能力(服務器資源和帶寬)會影響到爬取過程。正如您所看到的,對於搜尋引擎</a>來說,由於互聯網規模龐大,爬取網頁是一個複雜且昂貴的過程。<br/><br/>如果沒有有效的爬取過程,Google將無法「組織世界上的資訊,使之普遍可訪問和有用」。那麼,Google如何</a>保證有效地進行爬取?通過優先處理頁面和資源。對於Google來說,要爬取每個網頁幾乎是不可能且昂貴的。<br/><br/>現在我們瞭解了爬取過程的工作原理,讓我們更深入地探討「爬取預算</a>」這一概念。
什麼是爬蟲預算?
爬蟲預算</a>是指爬蟲在一定時間內設定要爬取的頁面數量。一旦預算</a>用完,網路爬蟲</a>就會停止訪問你的網站內容</a>並轉向其他網站。每個網站的爬行預算</a>都不同,你的網站的爬行預算</a>是由Google自動設定的。<br/><br/>搜尋引擎</a>使用多種因素來確定分配給你的網站多少預算</a>。一般來說,Google使用四個主要因素來分配爬行預算</a>:1. 站點大小:規模更大的網站需要更多的爬行預算</a>。2. 伺服器配置:你的網站性能和加載時間可能會影響分配給它的預算</a>量。<br/><br/>3</a>. 更新頻率:你更新內容</a>有多常?Google會優先考慮定期更新內容</a>的網站。4. 鏈接:內部連結結構</a>和死連結。 雖然確實存在與爬取相關問題可能阻止Google訪問你網站最重要內容</a>,但很重要理解到,爬取頻率不是質量指標。<br/><br/>讓Googlebot更頻繁地爬取你的網站不會直接幫助提高排名。如果你的內容</a>未達到受眾標準,它就不會吸引新用戶。讓Googlebot更頻繁地爬取你的網站也無法改變這一點。<br/><br/>(而且,雖然爬取對於出現在搜索結果中是必要的,但它不是一個排名信號。)
爬蟲預算如何運作?
大部分有關爬蟲預算</a>運作方式</a>的資訊來自Google網站管理員中心博客上Gary Illyes的一篇文章。在這篇文章中,Illyes強調:爬蟲預算</a>不應該是大多數發布者需要擔心的事情。如果一個網站的URL數量少於幾千個,大部分情況下它將被高效地爬取。<br/><br/>以下是你需要瞭解的關鍵概念,以更好地理解爬蟲預算</a>。
爬蟲速率限制
Google瞭解到,如果它的機器人不小心的話,可能會對網站造成嚴重限制,因此他們設置了控制機制,以確保爬蟲僅按可持續性訪問網站</a>。爬行速率限制有助於Google確定網站的爬行預算</a>。以下是運作方式</a>:Googlebot會爬取一個網站,然後測試該網站的伺服器回應</a>情況。<br/><br/>根據測試結果,Googlebot可能會降低或提高限制。網站擁有者還可以在Google搜索控制台中更改限制,方法是打開您的屬性的「爬取速率設定」頁面。
爬蟲需求
Googlebot根據索引中每個特定URL的需求來決定其活躍程度或被動程度。影響爬行需求的兩個重要因素是:URL受歡迎程度 - 受歡迎的頁面會比不受歡迎的頁面更經常被索引。新鮮度 - Google的系統會避免陳舊的URL,並優先顯示最新的內容</a>。<br/><br/>Google主要使用這些爬行速率限制和爬行需求來確定Googlebot可以和希望爬行(爬取預算</a>)多少個URL。
渲染
當渲染頁面時所進行的網路請求可能會消耗你的爬取資源。不確定什麼是渲染嗎?它是從API和/或數據庫中填充頁面數據的過程。這有助於Google更好地理解你網站的佈局和結構。<br/><br/>
伺服器日誌
伺服器日誌存儲了每次訪問您網站的請求。每當用戶或Googlebot訪問您的網站時,都會在訪問日誌文件中添加一個日誌項目。當Googlebot訪問您的網站時,它會在訪問日誌文件中留下一個記錄。<br/><br/>您可以手動或自動地分析這個日誌文件,以查看Googlebot來訪您的網站的頻率。商業化的日誌分析工具</a>可以幫助您獲取有關Google bot在您的網站上所做操作的相關信息。伺服器日誌分析報告</a>將顯示以下內容</a>: 1. 網站被爬取的頻率有多高。<br/><br/> 2. Googlebot最常訪問哪些頁面。 3</a>. 機器人遇到了什麼類型的錯誤。以下是最受歡迎的幾個日誌分析工具</a>清單</a>: SEMrush Log File Analyzer、SEO</a> Log File Analyser by Screamingfrog
1. 確定何時和要抓取的內容優先級
在優先考慮提供真正價值給終端用戶的頁面上,你應該始終優先處理。以下是如何</a>通過整合Google Analytics和Search Console的數據來找到這些URL的方法。生成點擊和收入的頁面應該對爬蟲程式來說易於訪問。<br/><br/>有時候創建一個包含所有關鍵頁面的單獨XML站點地圖也是一個好主意(稍後會詳細介紹)。
3. 優化您的網頁
為了優化XML網站地圖</a>,您可以按URL類型或站點內的部分進行分類創建多個網站地圖</a>(例如products.xml、blog-post.xml等)。這將幫助您控制對站點上最有價值的部分進行爬取。請確保每次內容更新</a>時通知Google。<br/><br/>您可以使用結構化數據</a>、XML網站地圖</a>甚至eTag來完成此操作。 清理低質量內容</a>、垃圾郵件</a>和重複內容</a>。頁面之間的連接仍然對於爬取過程非常重要。<br/><br/>每個網站都應定期修復錯誤重定向、404錯誤和重定向鏈等問題。 您可以通過排除非有價值的URL或檔(例如內部分析或聊天機器人)來優化robots.txt文件,從而使其不受爬取過程影響。不要排除對Googlebot有用或重要的來源(例如呈現特定頁面所需的CSS文件)。<br/><br/>
移動優先索引
Google於2018年3</a>月開始優先考慮行動裝置的內容</a>,並將其索引從以桌面為先的方式轉變為以行動裝置為先,旨在改善使用者在行動裝置上的體驗。隨著這一轉變,Google的桌面爬蟲已被智慧型手機版Googlebot取代成為主要爬蟲程式。Google最初宣佈將從2020年9月起對所有網站進行移動優先索引</a>。<br/><br/>由於一些問題,該日期已延遲至2021年3</a>月。當切換完成後,大部分搜索的爬取工作將由Google的智慧型手機用戶代理進行。
從移動優先到人工智能優先
在2017年,Google CEO Sundar Pichai宣佈了從搜索和整理全球資訊轉向人工智慧和機器學習</a>的過渡。這個轉變將在所有產品和平臺上實施。Google Search已經開始使用</a>不同類型的機器學習</a>(例如BERT)來支援和改進其對人類語言、排名演算法</a>和搜索結果頁面的理解。<br/><br/>通過對機器學習</a>和人工智慧項目進行大量投資,Google將能夠獲得一個更好的高度個性化搜索結果頁面預測模型。(請注意,谷歌AI開發的大多數應用程式都是純粹的機器學習</a>應用程式和狹義AI)。具備準確預測模型後,穀歌將能夠根據多個數據點(如位置、搜索歷史、實體喜好等)對網站進行排名,並使當前的爬行過程變得多餘,因為搜尋引擎</a>只需為用戶提供相關網站即可獲得良好輸出。<br/><br/>穀歌已經在測試這一點。在一篇名為《商業網絡內容</a>預測爬行》的論文中,您可以看到他們創建了一個機器學習</a>系統,通過預測電子商務</a>網站上的定價變動來優化爬行源以供Google購物使用。
網路上的資訊越來越難被爬取
隨著網路上近20億個網站的存在,對Google來說,爬取和索引內容</a>已變得具有挑戰性且耗費大量資源。如果網路以這種速度持續增長</a>,Google可能會更容易控制搜尋中的索引和排名過程。這樣一來,它就能夠拒絕垃圾或低品質的網頁,而不需要浪費時間爬取數百萬個頁面。<br/><br/>這將大幅改善Google的運作效率。未來,Google可能需要減少其索引的大小,以優先考慮品質並確保搜索結果的相關性</a>和實用性。
相關數據:
- 每月全球平均搜索量:70亿次 來源: statista
- 美國seo行業市場規模:2021年預估為100億美元 來源: forbes
- 英國seo行業市場規模:2021年預估為20億英鎊 來源: econsultancy
- 日本seo行業市場規模:2021年預估為300億日元 來源: digital in asia
- 法國seo行業市場規模:2021年預估為10億歐元 來源: le journal du net
Google和Bing都有索引API
這兩家公司都開發了工具</a>,讓您在網站更新時能夠通知它們。索引API的目的是提供即時的爬取、索引和發現</a>您網站的內容</a>。