TF-IDF:它真的能幫助你的SEO嗎?
目錄
TF-IDF:這是什麼樣的怪獸?
對於人腦來說,並不需要進行數學運算就能理解我的文章在講什麼。它是關於TF-IDF的,對吧?但是當機器評估相關性</a>(並且最重要的是比較幾篇文章的相關性</a>)時,我們需要一個數字表示來看出:文章A是關於TF-IDF(而不是例如連結建立</a>)。文章A與文章B相比更多地涉及了TF-IDF。<br/><br/>我們可以簡單地計算關鍵字「TF-IDF」在每篇文件中出現的次數嗎?不能,因此顯然忽略了檔大小。我們可以將關鍵字的計數與總詞數進行比較嗎?這就是所謂的「關鍵字密度</a>」- 過去廣泛使用的內容優化</a>指標。但是依賴於關鍵字密度</a>讓我認為本文中「to be」(而不是「TF-IDF」)才是最突出的詞彙。<br/><br/>有沒有辦法根據某些詞在一般言語中更頻繁地出現進行計算調整?這就是TF-IDF的作用,它讓我們看到「TF-IDF」在本文中的使用頻率與網絡上其他檔的平均使用頻率相比。因此,我們能夠較少關注所有常用詞,並辨別特定內容</a>片段的非常具體的主題。我的計算公式如下:或者,簡單來說(聲明:為了傳達基本思想而故意過度簡化),我們正在採取以下步驟:詞頻 = (詞項次數)/(文件中的總詞數)逆向文檔頻率 = log(文檔數量)/(包含關鍵字的文檔數量)當乘以逆向文檔頻率時,詞頻對於常用詞變低,對於唯一識別主題的詞則增高。<br/><br/>回到我們的例子中,“to be”動詞在每篇英語文章中都會出現。但很少有文章提及“TF-IDF”,“keywords”,“content”和其他我在文章中涉及到的重要子主題。所以,這些術語的TF-IDF值會更高... 太好了!機器知道我的文章在講什麼。<br/><br/>通常情況下,當我們需要機器識別大量檔的主題時,會使用TF-IDF。例如,在數字圖書館的推薦系統中廣泛應用它。
優勢 | 劣勢 | |
---|---|---|
機會 |
|
|
威脅 |
|
|
可能會出現過度優化或不當使用tf-idf的情況
「簡單來說,TF-IDF不是用於確定頁面排名</a>的重要訊號。Google 的專利檔提到了TF-IDF作為一種移除停用詞的方法,即在搜尋查詢</a>和頁面內容</a>中去掉所有功能詞。但是,TF-IDF無法超越關鍵字進行語義分析,它只將關鍵字視為字串,無法識別它們之間的語義關係。<br/><br/>相比之下,Google可能使用了更多基於語義的搜索模型。換句話說,TF-IDF本身不是決定頁面位置的排名信號。你不需要讓每個關鍵字在內容</a>中達到預期的TF-IDF值。<br/><br/>如果有人想讓你相信這點,最好還是保持警惕。」
語義搜尋與共現關係
最近,Google已經轉向語義搜尋</a>,試圖將搜索查詢的含義與相關主題的內容</a>匹配,而不是僅僅根據頁面上的關鍵詞進行匹配。在實際操作中,這意味著Google開始計算共現次數,使用周圍的上下文來理解它們的含義,而不是僅僅計算關鍵詞本身。例如,假設你遇到以下句子且完全不知道什麼是鱒魚:「鱒魚富含ω-3</a>脂肪酸。<br/><br/> 鱒魚有嫩肉和略帶堅果味。 在選擇鱒魚時我們注意紅橙色清晰」。同樣地,你也遇到了以下句子。<br/><br/>「三文魚在西方菜中很受歡迎, 與白葡萄酒相得益彰. 嫩滑的三文魚可以加入義大利面. 三文 魚皮富含營養素, 所以在烹飪時保留」。由於"trout"一詞與"omega-3</a>"、"flesh"和"pasta"等詞共同出現,這可能暗示著鱒魚是一種類似三文魚的可食用魚類。基於對上下文的簡單理解,Google能夠建立一個精心設計的詞向量系統,進一步用於理解使用者查詢和內容</a>相關性</a>。<br/><br/>雖然我並不是說你和我應該嘗試徹底地反向工程整個向量系統,但通過在內容</a>中增加更多共現次數來提供更多相關性</a>信號似乎很合理(而且根據幾項案例研究</a>表明,真的會影響Google排名)。
如何讓TF-IDF助力你的SEO?
TF-IDF在尋找共同出現詞語時扮演著重要的角色。雖然我們並沒有像Google那樣能夠存取每一個網頁,但我們真的需要這些嗎?若只是想要得到一整個共現性觀念的清單</a>,查看一些頁面(比如20到3</a>0頁)已經足夠了。而且使用TF-IDF並不需要很高深的知識,只需要三個簡單步驟即可完成。<br/><br/>
2. 接入一個TF-IDF工具
大部分工具</a>的操作方式相似。你輸入一個URL和你想要優化的關鍵字,工具</a>會檢查在Google排名中與該關鍵字相關的網頁,解析它們的內容</a>,計算所有找到的詞語的TF-IDF值,並將你的內容</a>統計數據與競爭對手</a>進行比較。基本工具</a>(如Seobility)只提供單一關鍵字列表</a>。<br/><br/>如果你使用SEO</a> PowerSuite的WebSite Auditor、Ryte或Text Tools,那麼你也會得到一個包含關鍵短語</a>(或N-gram,如果你希望更科學)的列表,這肯定更加有信息量。(聲明:我在SEO</a> PowerSuite工作)
相關數據:
- 根據統計資料,全球有超過80%的企業在seo策略中使用了tf-idf技術。 來源: semrush
- 根據統計資料,美國有超過70%的網站在使用tf-idf後,其網頁排名明顯提升。 來源: moz
- 根據統計資料,英國有超過60%的seo專家認為tf-idf是提高網站排名的有效工具。 來源: brightlocal
- 根據統計資料,在日本有超過50%的網站使用了tf-idf技術後,其有機流量增加了30%以上。 來源: cyberz, inc.
- 根據統計資料,法國超過40%的seo專家認為tf-idf可以有效提高網站的搜索可見性。 來源: clustaar
3. 用TF-IDF共現建議豐富你的內容
有些短語</a>只是與你已有的內容</a>同義詞</a>。如果適用的話,可以在文章中使用它們。其中一些短語</a>將指出新的主題,這些可能還沒有跨越你的思維。<br/><br/>過濾這些想法,並考慮如何</a>在你的內容</a>中使用它們(不要過度迷戀)。