Google內容演算法與排名影響
RankBrain與神經配對的差異
以下是穀歌關於RankBrain和神經匹配的官方聲明,通過Danny Sullivan(也被稱為SearchLiaison)在推特</a>上發佈: - RankBrain説明穀歌更好地將頁面與概念相關聯...主要起作用(某種程度上)是説明我們找到頁面上寫的單詞的同義詞</a>。 - 神經匹配幫助穀歌更好地將單詞與搜索相關聯...主要起作用(某種程度上)是幫助我們找到您在搜索框中輸入的事物的同義詞</a>。 ..."某種程度上"是因為我們已經擁有並長期使用了同義詞</a>系統。<br/><br/>這些系統超越了之前的系統,並以不同方式進行處理。但這樣理解它們可能更容易。 例如,神經匹配幫助我們理解搜索“為什麼我的電視看起來奇怪”與“肥皂劇效應”的概念相關。<br/><br/> 然後,即使沒有使用確切的單詞,我們也可以返回關於肥皂劇效應的頁面...
優勢 | 劣勢 | |
---|---|---|
機會 |
|
|
威脅 |
|
|
政府對於搜索引擎內容的監管可能加強,對google的內容算法和排名效果產生限制和影響。
Bill Slawski與我討論的那篇論文名為「Contextual Long Short Term Memory (CLSTM) Models for Large Scale Natural Language Processing (NLP) Tasks」。這是一份於2016年發表的重要研究論文,你可以在此找到該論文的PDF連結。Bill建議相關的專利文件連結在這裡。<br/><br/>他並沒有認為該論文和專利代表了神經匹配技術,但他認為它們看起來某種程度上關聯。該研究論文使用以下三個句子中出現「magic」一詞的情境作為例子,以展示它所做的工作: 1) Sir Ahmed Salman Rushdie是一位英籍印度小說家和散文家。據說他將魔幻寫實與歷史小說相結合。<br/><br/> 2) Calvin Harris和HAIM合作推出了一支充滿魔法感覺的音樂錄影帶。 3</a>) 藥草具有巨大的魔力,因為它們包含地球能量。 然後,該研究論文解釋了如何</a>理解句子和段落中「magic」一詞的語境: 捕捉語境的一種簡潔方法是使用文本段落的主題(例如,句子或段落的主題)。<br/><br/> 如果上下文具有主題「文學」,最可能的下一個詞應該是「寫實」。這個觀察啟發我們探索在語言模型</a>中使用不同文本段落主題來捕捉層次和長程語境。 我們將這些上下文特徵(即基於文本不同部分的主題)納入LSTM模型中,並稱之為Contextual LSTM (CLSTM)模型。<br/><br/> 該演算法被描述為用於單字預測、下一句選擇以及句子主題預測等任務。這些任務涵蓋了預測手機上鍵入文字時下一個可能出現的字、問答任務或生成文字訊息和電子郵件中的範本回覆。該研究論文還將其描述為預測用戶口述查詢的回覆主題,以瞭解其意圖。<br/><br/>最後一點聽起來與神經匹配技術所做的事情相似(「幫助Google更好地將詞語與搜索關聯起來」)。這篇於2019年發表的研究論文似乎是該演算法的改進版本:「A Hierarchical Attention Retrieval Model for Healthcare Question Answering Overview」。你可以在此找到該論文的概述連結,以及PDF連結。<br/><br/>以下是概述中提到的內容</a>: 大部分此類查詢可能是非事實性的,因此傳統基於關鍵字的檢索模型在這些情況下效果不佳。 此外,在許多場景中,得到一個足夠回答查詢的簡短答案往往更理想,而不是只有少量有用資訊的長文檔。 本論文提出了一種用於醫療領域問答中排名檔的神經網路模型。<br/><br/>該模型使用了單字、句子和文檔層次上的深度注意力機制,以便對不同長度文檔上包含事實性和非事實性查詢進行高效檢索。 具體而言,單字層次上的交叉注意力允許模型識別可能與查詢最相關的詞語,而句子和文檔層次上的層次注意力則使其能夠對長文檔和短文檔進行有效檢索。 這是一篇有趣的論文。<br/><br/>醫療問答論文中提到: 「2.2 神經資訊檢索</a> 隨著深度神經網路在學習</a>文本數據特徵表示方面的成功,已有多種用於文字檔搜索的神經排名架構被提出。 ...而[22]中提出的模型使用LSTM編碼器的最後一個狀態輸出作為查詢和文件特徵。然後,這些模型使用查詢和檔表示之間的余弦相似度計算它們之間的相關性</a>。<br/><br/> 然而,在大部分情況下,可觀察到與查詢相關聯的文本通常只佔整個檔非常小片段。因此,將整個檔池化表示與查詢池化表示匹配並不能得到很好結果,因爲該表示還包含來自檔其他不相關部分的特徵。」 然後它提到了深度相關性</a>匹配模型: 「為了克服基於文檔級語義匹配的資訊檢索</a>模型的問題,最近提出了幾種基於交互作用的資訊檢索</a>模型。<br/><br/>在[9]中,作者提出了Deep Relevance Matching Model (DRMM),該模型使用查詢和文檔詞語之間基於詞計數的交互作用特徵...」 而且有趣地提到了基於注意力的神經匹配模型:「...其他使用單字層次交互作用特徵的方法包括使用注意力對單字嵌入進行建模的attention-based Neural Matching Model (aNMM) [42],以及使用余弦或雙線性運算對Bi-LSTM特徵進行建模的[3</a>6]」。
aNMM與Google所說的神經配對有關聯嗎?
在這篇論文《aNMM:基於注意力的神經匹配模型用於短回答文本排序》中,提到了一種基於深度學習</a>方法的問題回答技術。傳統的基於特徵工程的問答方法已被卷積神經網路(CNNs)和長短期記憶模型(LSTMs)等深度學習</a>方法所取代。然而,為了獲得良好的結果,這些模型通常需要結合其他特徵,如詞重疊或BM25分數。<br/><br/>如果沒有這些組合特徵,這些模型與基於語言特徵工程的方法相比表現明顯較差。因此,在本文中我們提出了一種基於注意力機制的神經匹配模型來對短回答文本進行排序。 2018年是否更注重長文章?MarketMuse公司的Jeff Coyle表示,在3</a>月份更新中發現</a>包含長形式列表(例如:前100部電影)的搜索結果頁面(SERPs)有較大變動。<br/><br/>這是有趣的,因為該文章討論了一些演算法是關於理解長文章並將其壓縮成簡潔回答。具體而言,類似與《Healthcare Question Answering paper》所討論內容</a>戰略和穀歌2019年3</a>月更新相關聯時也提及了從長文章中提取答案的最新研究論文。所以當Jeff提到在與長形式列表相關的SERPs中存在大量變動時,我立即想起了這些最近發表的關於從長文章中提取答案的研究論文。<br/><br/>那麼2019年3</a>月的更新是否也包括了對理解長形式內容</a>的改進呢?我們永遠無法確定,因為穀歌並不透露這樣的資訊。
相關數據:
- 90%的全球搜索流量來自google 來源: statcounter globalstats
- google在美國市場的搜索引擎市佔率為65.4% 來源: statcounter globalstats
- google佔英國搜索引擎市場份額的85.7% 來源: statcounter globalstats
- google佔日本搜索引擎市場份額的72.9% 來源: statcounter globalstats
- google佔法國搜索引擎市場份額的91.3% 來源: statcounter globalstats
Google所說的神經配對是指什麼?
在Reddit的AMA中,Gary Illyes將RankBrain描述為一個具有公關吸引力的排名組件。 "公關吸引力"這部分的描述意味著該名稱是基於其描述性和引人注目而命名,與其實際功能無關。RankBrain這個術語並沒有傳達該技術是什麼或做什麼用的。如果我們搜索“RankBrain”專利,我們不會找到任何相關內容</a>。這可能是因為正如Gary所說,它只是一個具有吸引力的名字。在正式宣佈神經匹配技術時,我在Google相關專利和研究中搜尋了那些明確含有這些詞彙的內容</a>,但並未找到任何結果。因此... 我根據Danny對此技術的描述來查找可能的相似項目。碰巧十天前我發現</a>了一個可能符合要求的項目並開始撰寫文章。深度相關性</a>排序使用增強文檔-查詢交互<pre><code><br /></code></pre><pre><code><br /></code></pre><pre><code><br /></code></pre><pre><code><br /></code></pre> PDF<pre><code><br /></code></pre><pre><code><br /></code></pre>http://www2.aueb.gr/users/ion/docs/emnlp2018.pdf 概述<pre><code><br /></code></pre><pre><code><br /></code></pre>https://ai.google/research/pubs/pub473</a>24 我對該演算法寫了以下描述: “儘管這種演算法的研究相對較新,但它改進了一種革命性的深度神經網絡方法,用於完成一項名為文檔相關性</a>排序(Document Relevance Ranking)的任務。這種方法也被稱為即時檢索(Ad-hoc Retrieval)。” 為了理解這個描述,我需要首先研究文檔相關性</a>排序和即時檢索,因為新的研究是基於這些工作之上的。“文檔相關性</a>排序,也被稱為即時檢索... 是使用查詢和每個文檔的內容</a>來對大量文檔進行排序的任務。” 這解釋了即時檢索是什麼。但並沒有解釋增強文檔-查詢交互是什麼。與同義詞</a>的聯系 基於增強文檔-查詢交互的深度相關性</a>排序與同義詞</a>有關,而Danny Sullivan將其描述為超級同義詞</a>。以下是研究論文的描述:“在基於交互的範例中,會產生查詢和文檔之間的明確編碼。這允許直接建模精確匹配或近似匹配的詞彙(例如同義詞</a>),這對於相關性</a>排序至關重要。” 這似乎在討論理解搜索查詢。現在將其與Danny如何</a>描述神經匹配進行比較: “神經匹配是一個基於人工智慧的系統,Google從2018年開始使用</a>它主要用於瞭解單詞與概念之間的關聯。它就像一個超級同義詞</a>系統。同義詞</a>是與其他單詞密切相關的單詞......” 神經匹配的秘密 神經匹配可能不僅僅是一個演算法。值得考慮到神經匹配可能由多種演算法組成,而“神經匹配”這個術名稱用來描述一組共同工作的演算法。