什麼是索引膨脹?9種解決方法
目錄
什麼是索引膨脹?
索引膨脹是指網站被搜尋引擎</a>索引了過多低價值的頁面。這些頁面通常是自動生成的,幾乎沒有獨特內容</a>。這些URL對整個技術SEO</a>過程產生了連鎖影響。<br/><br/>常見導致索引膨脹的URL類型包括:多個篩選組合從分面導航中衍生出來的頁面、無序的存檔頁面、不受限制的標籤頁面、分頁頁面、無秩序的參數頁面、已過期的內容</a>頁面、未優化的站內搜索結果頁面、具有少量內容</a>並自動生成的用戶設定檔、跟蹤URLs、處理不當http到https之間轉換時可能產生問題,以及一致性缺失造成www和非www版本都被索引等子目錄。 索引膨脹會降低爬行效率,使得Googlebot在低價值路徑上爬行速度變慢。這會延遲新內容</a>的索引速度和更新內容</a>重新爬行,而這些更新內容</a>是具有SEO</a>價值的。<br/><br/>通常,索引膨脹包含重複內容</a>,或者導致關鍵字競爭</a>濫用。當一個網站的多個頁面競爭相同的搜索意圖</a>時,這使得搜尋引擎</a>很難判斷哪個頁面最相關,因為排名信號被分散在許多URL中。這損害了網站在頂部位置排名的能力。<br/><br/>如果低質量頁面確實排名,搜索者可能會對登陸頁面感到失望並快速返回。這向Google發送了差評用戶體驗</a>信號,傷害您的品牌形象</a>。所有這些結合起來會降低搜尋引擎</a>對功能變數名稱的質量評估。<br/><br/>問題在於URL不僅根據其本身的特點排名,還基於其所屬網站。每個被索引的頁面都影響Google的質量演算法如何</a>評估一個網站的聲譽。 Google Webmaster Central表示: 「某些部分存在低質量內容</a>可能會影響整個網站的排名,因此刪除低質量頁面...可能最終有助於提升高質量內容</a>的排名。<br/><br/>」 John Mueller在2015年對此進行了詳細解釋: 「我們的質量演算法確實會考慮整個網站,因此它們會查看所有被索引的內容</a>。如果我們看到大部分被索引的內容</a>實際上是低質量內容</a>,那麼我們可能會認為「也許這個整體網站有點低質量」。如果你告訴我們這些低質量內容</a>不應該被索引和考慮,那麼我們可以真正專注於你讓我們索引的高質量東西。<br/><br/>」 他在2017年3</a>月、8月和10月都再次強調了這一點。所以SEO</a>的目標不是盡可能多地將頁面列入索引,而是在搜索者和登陸頁面之間建立有價值的匹配關係。要實現這一目標,您只應該允許搜尋引擎</a>索引希望搜索者登陸的頁面,並且去除所有對搜尋引擎</a>或用戶沒有獨特價值的頁面。<br/><br/>
優勢 | 劣勢 | |
---|---|---|
機會 |
|
|
威脅 |
|
|
索引膨脹可能導致資料庫出現錯誤或不一致
Google搜尋控制台(GSC)的覆蓋報告是識別造成索引浮腫的頁面類型最快、最可靠的方法之一。假設您的XML網站地圖</a>符合SEO最佳實踐</a>,只包含與SEO</a>相關的URL,只需查看已索引但未在網站地圖</a>中提交的範例URL即可。如果您的XML網站地圖</a>沒有進行優化,可以運行無限制爬取工具</a>,比較爬行器提取到的可索引URL數量與有效頁面數量。<br/><br/>如果有效頁面數遠遠超過爬取的URL數量,則可能存在索引浮腫問題。不要使用site:搜索高級操作符來計算已索引頁面數量</a>,它非常不可靠。一旦您確定了需要解除索引控制並重新評估價值低下頁面時,最好通過Google Analytics數據交叉參考URL以評估對有機會話影響程度。<br/><br/>通常情況下,由於其特性,不會產生負面影響,但在進行大規模解除索引之前最好確保這一點。
1. 410已經消失或者2. 404頁面未找到
一種快速取消索引頁面</a>的方法是伺服器返回410 HTTP狀態碼</a>(也稱為「已刪除」)。這向Google表明該頁面被有意地移除,比404代碼(也稱為「找不到頁面」)更清楚,後者導致取消索引</a>稍微慢一些。對於擔心累積4xx「錯誤」的人來說,讓我放心一點。<br/><br/>4xx代碼並不會受到Google的懲罰。但如果URL具有任何排名信號,則這些信號會丟失。避免索引膨脹得分:1/5 索引膨脹損害控制得分:4/5
3. 301重定向
索引膨脹是由於許多頁面針對相同主題而導致的。您可以通過301重定向</a>將它們合併為一個頁面,並整合它們的排名信號。要使Google解除索引重定向的頁面,它必須爬取原始URL,看到3</a>01狀態碼,將目標URL添加到爬取隊列中,然後處理內容</a>以確認其性質是否相等。<br/><br/>如果是這樣的話,排名信號就會被傳遞下去而不會被稀釋。如果目標URL在爬取隊列中優先級很低,這可能是一個緩慢的過程。而且如果您有重定向鏈,這個過程就會非常緩慢。<br/><br/>此外,如果您重定向到一個不相關的頁面(例如首頁),Google將把它視為軟404並且不會傳遞排名信號。在這種情況下,使用410已消失的網頁也能實現同樣的結果但速度更快地解除索引。索引膨脹防止評分:1/5 索引膨脹損害控制評分:3</a>/5
4. Rel=Canonical 網址連結
對於重複內容</a>的網址,rel=canonical連結可以向Google建議要索引哪個重複的網址。如果這個標籤被接受,副本頁面(價值較低的重複內容</a>)仍然會被爬取,但頻率會降低很多,並且不會被收錄在索引中,而是將它們的排名信號轉移到主要(首選)頁面上。但是要讓此方法生效,兩個網址之間的內容</a>必須非常相似,並且都需要被Google爬取和處理,這可能需要一些時間。<br/><br/>指數膨脹防範得分:4/5 指數膨脹損害控制得分:2/5
5. URL參數工具
在Google Search Console中,您可以指定Googlebot如何</a>處理參數。URL參數工具</a>的三個明顯缺點是:它只能用於基於參數的URL;它無法處理除了Google以外的任何搜尋引擎</a>;它僅設計用於控制爬行。儘管它不能直接控制索引,但如果您在參數上指定“不爬取”,John Mueller曾表示這些URL最終將從索引中刪除。<br/><br/>但這是有代價的,如果Googlebot無法爬取,則無法處理信號,這可能會影響排名,或提取內部連結</a>以添加到爬取隊列中,這可能會減慢網站索引速度。防止索引膨脹評分:3</a>/5 索引膨脹損壞控制評分:1/5
6. Robots.txt檔案
在robots.txt檔中,Disallow指令告訴搜尋引擎</a>它們不被允許爬取的頁面。與URL參數工具</a>類似,這並不能直接控制索引。如果頁面從其他地方連結過來,Google可能認為它與索引相關。<br/><br/>此外,在robots.txt中進行阻止並不是一個明確的信號,告訴搜尋引擎</a>如何</a>處理當前已經索引的URL。所以隨著時間的推移,這些頁面很可能會從索引中刪除,因為Google通常不會包含無法爬取的頁面,但這個過程會比較緩慢。防止索引膨脹評分:2/5 索引膨脹損害控制評分:1/5
7. Noindex 標籤
要完全阻止頁面被索引,您需要使用「noindex」的機器人元標籤或X-Robots-Tag。不要在robots.txt中使用noindex指令,因為搜尋引擎</a>不會理會這個指令。請注意,noindex指令具有累積影響:防止新增或處理後從搜尋引擎</a>中去索引化。<br/><br/>使得被noindexed的URL較少被爬取。停止將任何排名信號歸因於該URL上。如果存在已很長時間,也會導致該頁面的連結變為「nofollow」,這意味著Google將不會將這些連結添加到爬取隊列並且排名信號也不會傳遞到相關頁面上。<br/><br/> 預防</a>索引膨脹得分:4/5 控制索引膨脹的傷害得分:4/5
8. 密碼保護
在伺服器上設定密碼保護檔會阻止搜尋引擎</a>的爬取。這些URL無法被網路爬蟲</a>索引或傳遞任何排名訊號。不過,這也會阻擋使用者存取,所以只能用於將特定內容</a>隱藏起來且不被索引。<br/><br/>若要使搜尋引擎</a>刪除已隱藏的內容</a>,需要它們嘗試爬取URL路徑,發現</a>該內容</a>已不受歡迎後才會刪除。由於爬蟲在這個區段中爬取的URL越多,就越瞭解到其抓取預算</a>未獲得回報的價值降低,因此搜尋引擎</a>會將類似的URL排在較低的抓取優先順序中。防止索引膨脹分數:2/5、控制索引膨脹損害分數:1/5
9. 移除URLs工具
如果您急需將一個網頁從Google中刪除,「移除網址」工具</a>是一個快速的選擇。通常情況下,請求提交後當天就會處理。然而,這種方法只能暫時封鎖網頁。<br/><br/>成功的刪除請求只能持續大約90天,在此期間內該內容</a>可能重新出現在搜索結果中。因此,這種方法只適用於在急需封鎖某個網頁但又無法使用其他資源的情況下。如果您希望在黑名單結束之前仍然保持該網頁不被索引,則需要採取其他措施。<br/><br/>阻止索引膨脹評分:1/5 索引膨脹損害控制評分:3</a>/5
相關數據:
- 全球索引膨脹率為4.4% 來源: 國際貨幣基金組織(imf)
- 美國索引膨脹率為2.6% 來源: 美國勞工統計局(bls)
- 英國索引膨脹率為1.5% 來源: 英國國家統計局(ons)
- 日本索引膨脹率為0.5% 來源: 日本內閣府
- 法國索引膨脹率為1.9% 來源: 法國國家統計與經濟研究院(insee)
- 台灣索引膨脹率為1.2% 來源: 行政院主計總處
最後總結
總體而言,「預防</a>勝於治療」是正確的觀念。要在SEO</a>上取得長期成功,需要有一個策略性設計的網站架構和以使用者為中心的內容策略</a>。此外,合理使用canonical連結和適度使用meta robots noindex標籤來避免索引膨脹也是必要的。<br/><br/> Google對於已爬取的頁面記憶力非常強大。一旦頁面被爬取,Google很難忘記它們。這使得取消索引</a>變得緩慢且乏味。<br/><br/>因此,在制定合適的取消索引</a>策略後,需要耐心等待。結果可能需要一段時間才能顯現出來,但它們將是值得的。