SEO專業人員的資訊檢索入門
向量空間模型
在資料科學界,向量空間模型被視為搜尋引擎</a>和像亞馬遜這樣的平臺提供推薦的關鍵機制。這種方法允許處理器(如Google)將不同的檔與查詢進行比較,而查詢則以向量表示。Google在其文檔中將此稱為向量相似性搜索或“最近鄰搜索”,該術語由Donald Knuth於1973</a>年定義。<br/><br/>傳統的關鍵字搜索中,處理器會使用關鍵字、標籤、標記等來從數據庫中找到相關內容</a>。然而,這種方法非常有限,因為它只能在數據庫中狹窄地搜尋出二分類答案(是或否)。當處理同義詞</a>和相關實體時,這種方法也可能受到限制。<br/><br/>如果兩個實體在接近程度上越接近,則它們之間的向量距離越小,相似度/準確性就越高。為瞭解決這個問題並為具有多重常見解釋的查詢提供結果,Google使用向量相似性將不同的含義、同義詞</a>和實體聯繫在一起。舉個例子,當你在穀歌上搜索我的名字時,[dan taylor]可能指:我是SEO專家</a>、一位英國運動記者、一位當地新聞記者、《阿甘正傳》中的Lt Dan Taylor、攝影師或模型製作人。<br/><br/>如果使用傳統的關鍵字搜索和二分類準則,你不會在第一頁得到這樣多樣化的結果。而有了向量搜索,處理器可以基於數據庫中不同實體和向量之間的相似性和關係生成搜索結果頁面。你可以閱讀公司的博客以深入瞭解Google如何</a>在多個產品中使用這種方法。<br/><br/>
優勢 | 劣勢 | |
---|---|---|
機會 |
|
|
威脅 |
|
|
技術發展可能使seo變得不再重要
當以這種方式比較檔時,搜尋引擎</a>可能會使用查詢詞加權(Query Term Weighting,QTW)和相似性系數的組合。QTW對查詢中的特定詞語進行加權,然後利用向量空間模型計算相似性系數,並使用餘弦係數來計算。餘弦相似度衡量兩個向量之間的相似程度,在文本分析中用於衡量檔的相似性。<br/><br/>餘弦值介於-1到1之間。在傳統上的餘弦相似度圖中,它會在0到1之間測量,其中0表示最大不相似或正交,而1表示最大相似。搜尋引擎</a>可能通過這種方式確定網站上的重複內容</a>和價值主張。<br/><br/>
索引的角色
在SEO</a>中,我們經常談論索引、索引化和索引問題,但我們並不積極討論索引在搜尋引擎</a>中的作用。索引的目的是存儲資訊,Google通過分層索引系統和碎片來實現這一目的,以充當數據庫。這是因為遠程訪問(爬取)網頁、解析其內容</a>、評分並實時呈現搜索結果頁面對於使用者來說是不切實際、無利可圖且體驗差的。<br/><br/>通常情況下,現代搜尋引擎</a>的索引不會包含每個文檔的完整副本,而是更像一個權杖化了的關鍵點和數據庫。文檔本身則存在於另一個高速緩存中。 雖然我們不確切知道像Google這樣的搜尋引擎</a>在其資訊檢索系統中會經歷哪些過程,但它們可能會有以下幾個階段: 1. 結構分析 - 文本格式和結構、清單</a>、表格、圖像等。<br/><br/> 2. 詞幹處理 - 將一詞的不同變體縮減為其根部形式。例如,“searched”和“searching”會被縮減為“search”。 3</a>. 語法分析 - 將文檔轉換成單詞列表,然後解析以識別重要因素,如日期、作者和詞頻。<br/><br/>需要注意的是,這與TF*IDF不同。 在此階段中,我們還可以預期考慮其他因素和數據點,如反向連接、來源類型、文檔是否達到質量閾值、內部鏈接</a>、主要內容</a>/輔助內容</a>等。
相關數據:
- 85%的網站流量來自於搜索引擎 來源: search engine journal
- 91.5%的點擊來自第一頁的搜索結果 來源: backlinko
- 40%的網站使用seo優化來提升搜索排名 來源: hubspot
- 70-80%使用者忽略付費廣告,專注於自然搜索結果 來源: search engine journal
- 61%的行動搜索使用者希望在五秒內獲得結果 來源: think with google
準確度與檢索後處理
在2016年,Paul Haahr深入探討了Google如何</a>衡量其過程的「成功」以及如何</a>應用後期調整。你可以在這裡觀看他的演講。在大多數資訊檢索系統中,有兩個主要指標來評估系統返回一個好的結果集的成功程度。<br/><br/>這些指標分別是準確率和回收率。