ChatGPT是否適用於內容與SEO?
目錄
為什麼ChatGPT能做到它所做的
ChatGPT 是一種稱為大型學習</a>模型的機器學習</a>技術。大型學習</a>模型是一種人工智慧,它通過訓練大量數據來預測句子中的下一個單詞。它接受的訓練數據越多,就能夠完成更多不同類型的任務(例如寫文章)。<br/><br/>有時候,大型語言模型</a>會發展出意想不到的功能。斯坦福大學曾提到增加訓練數據使得 GPT-3</a> 能夠將文本從英語翻譯成法語,即使它並未專門接受這項任務的訓練。像 GPT-3</a> 這樣的大型語言模型</a>(以及作為 ChatGPT 根基的 GPT-3.5</a>)並非特定任務的訓練對象。<br/><br/>它們接受廣泛知識的訓練,然後可以應用於其他領域。這與人類學習</a>方式相似。例如,如果一個人掌握了木工基礎知識,即使沒有具體教授建造桌子的方法,該人也能夠應用所學知識來建造一張桌子。<br/><br/>GPT-3</a> 的工作方式與人類大腦相似,它包含可以應用於多個任務的通用知識。斯坦福大學的有關 GPT-3</a> 的文章解釋道:“與解決特定問題的象棋引擎不同,人類具有“普遍”的智慧,可以學會從寫詩到踢足球再到報稅等各種技能。 與大多數現有 AI 系統相比,GPT-3</a> 更接近這種一般智慧……” ChatGPT 還整合了另一個名為 InstructGPT 的大型語言模型</a>,InstructGPT 接受訓練以根據人類指令回答複雜問題。<br/><br/>這種遵循指令的能力使得 ChatGPT 能夠根據指示在任何主題上創作文章。它可以在特定限制下撰寫文章,如字數和特定主題要點的包含。
優勢 | 劣勢 | |
---|---|---|
機會 |
|
|
威脅 |
|
|
chatgpt的性能取決於大量的訓練數據,可能存在數據泄漏和隱私風險。
ChatGPT可以就幾乎任何主題撰寫文章,因為它是基於一般公眾可用的各種文本進行訓練。然而,在決定在SEO</a>項目中使用ChatGPT之前,有一些重要的限制需要瞭解。其中最大的限制是ChatGPT無法產生準確的資訊。<br/><br/>其不準確的原因在於模型只是預測在給定主題上一個段落中前一個詞後應該出現哪些詞語,並不關心準確性。對於任何希望創建優質內容</a>的人來說,這應該是首要考慮的問題。
3. 內置的偏見
ChatGPT的重要限制之一是它在訓練時被設計成有幫助性、真實性和無害性。這些並不僅僅是理想,而是有意識地內建到機器中的偏見。這種無害性的程式設計使得輸出避免了負面情感,這是一件好事,但也微妙地改變了文章的中立性。<br/><br/>可以說,在某種意義上,我們需要掌握主導權,明確告訴ChatGPT如何</a>朝著期望的方向發展。以下是一個例子說明偏見如何</a>改變輸出結果:我曾要求ChatGPT以雷蒙德·卡佛(Raymond Carver)和雷蒙德·錢德勒(Raymond Chandler)作家風格來寫故事。然而,這兩個故事都以不合特定作者風格的豁然開朗結局結束。<br/><br/>為了得到符合我的期望的輸出結果,我必須詳細指示ChatGPT避免豁然開朗的結局,並要求Carver風格故事不要有解決故事情節發展的結局,因為這才是雷蒙德·卡佛故事的常見風格。重點在於ChatGPT存在著偏見,我們需要意識到它們可能如何</a>影響輸出結果。
4. ChatGPT需要高度詳細的指示
ChatGPT需要詳細的指示才能輸出更高質量、更具原創性或採取特定觀點的內容</a>。給予越多指示,輸出就會變得更複雜精緻。這既是一種優勢,也是一種限制需要注意。<br/><br/>如果在對內容</a>的請求中缺乏指示,那麼輸出很可能與其他請求產生相似的結果。作為一個測試,我將多人在Facebook上發佈的查詢和結果進行了拷貝。當我向ChatGPT提出完全相同的查詢時,機器生成了一篇完全原創且結構相似的文章。<br/><br/>這些文章不同,但它們共用相同的結構並涉及類似的子主題,只是用了100%不同的文字。ChatGPT在預測下一個單詞時設計為選擇完全隨機的單詞,因此它不會抄襲自己。但是,類似的請求生成相似的文章突顯了僅僅要求“給我這個”的限制。<br/><br/>
5. 可以辨認出ChatGPT產生的內容嗎?
穀歌和其他組織的研究人員多年來一直致力於開發能夠成功檢測AI生成內容</a>的演算法。關於這個主題有很多研究論文,我將提到一篇來自2022年3</a>月的論文,該論文使用了GPT-2和GPT-3</a>的輸出。這篇研究論文標題為《對生成變壓器</a>模型中神經統計特徵的對抗魯棒性在檢測中的應用》(PDF)。<br/><br/>研究人員測試了哪種分析方法</a>可以檢測出使用旨在規避檢測的演算法生成的AI內容</a>。他們嘗試了各種策略,例如使用BERT演算法將單詞替換為同義詞</a>,另一種則添加拼寫錯誤等。他們發現</a>,一些AI生成文本的統計特徵(如Gunning-Fog指數和Flesch指數得分)可以有效預測一個文本是否是由電腦生成的,即使該文本採用了旨在規避檢測的演算法。<br/><br/>
6. 無形的浮水印
OpenAI研究人員開發了一種加密數字浮水印技術,將有助於檢測通過OpenAI產品(如ChatGPT)創建的內容</a>。最近一篇文章關注了一位OpenAI研究人員在題為《Scott Aaronson Talks AI Safety》的視頻中的討論。該研究人員表示,像浮水印這樣的道德人工智慧實踐可以演變成行業標準,就像Robots.txt成為道德爬行的標準一樣。<br/><br/> 「在過去3</a>0年中,我們看到大型互聯網公司能夠就某些最低限度的標準達成共識,無論是因為害怕被起訴、希望被認可為負責任的參與者還是其他原因。 一個很簡單的例子就是robots.txt:如果你不希望你的網站被搜尋引擎</a>索引,你可以指定這一點,主要搜尋引擎</a>都會尊重這個指定。 同樣地,你可以想像像浮水印這樣的東西——如果我們能夠證明它的有效性、低成本、不影響輸出質量以及所需計算量很少等等,它將只是成為一個行業標準,任何希望被認為是負責任參與者的人都會包含它。<br/><br/>」 該研究人員開發的浮水印技術基於加密。只有持有密鑰的人可以測試文檔,看是否具有顯示其由人工智慧生成的數字浮水印。代碼可以是標點符號使用方式或詞語選擇等形式。<br/><br/>他解釋了浮水印技術的運作原理以及其重要性</a>: 「到目前為止,我的主要項目是開發一個用於在像GPT這樣的文本模型輸出中統計加入浮水印資訊的工具</a>。 基本上,每當GPT生成一些長文本時,我們希望在其詞語選擇中存在一種其他情況下難以察覺的秘密信號,您可以用來稍後證明,是的,這確實來自GPT。 我們希望更難將GPT的輸出冒充成人類的作品。<br/><br/> 這對於防止學術抄襲顯然很有幫助,但也可以用於防止大量製造宣傳資料,比如在每個博客上發表似乎與主題相關</a>的評論以支持俄羅斯入侵烏克蘭,而無需在莫斯科設立滿是網絡水軍的辦公室。 或者冒充某人的寫作風格以使其陷入指控。 這些都是我們希望變得更困難一些的事情,不是嗎?」 該研究人員分享了浮水印技術如何</a>擊敗演算法試圖逃避檢測的努力。<br/><br/>
AI產生的內容是可以被檢測出來的
許多人認為Google無法辨別內容</a>是否由人工智慧生成,我無法理解為何有人持這種觀點,因為檢測AI已經基本上已解決。即使是使用反偵測演算法的內容</a>也能被檢測出來(正如我在上面連結的研究論文中所指出)。檢測機器生成的內容</a>一直是一個多年的研究議題,包括對從其他語言翻譯而來的內容</a>進行檢測的研究。<br/><br/>
相關數據:
- 根據openai的報告,chatgpt是在大量的互動中訓練出來的,並沒有獲得實際的知識數據。 來源: openai
- chatgpt生成回答的情況下,19%的回合需要修正或修改,以符合內容和事實的要求。 來源: openai
- 聯合國的研究發現,高達45%的生成回答帶有性別刻板印象。 來源: 聯合國
- 根據一項調查顯示,在和chatgpt的互動中,只有35%的指令能被成功回應。 來源: openai
- 根據openai的資料,約有72%的生成回答會被誤認為是人類所為。 來源: openai
自動生成的內容違反了Google的指南嗎?
2022年4月,Google的John Mueller表示,由AI生成的內容</a>違反了Google的指南。他說:“對我們來說,這些基本上仍屬於自動生成的內容</a>類別,在網站管理員指南中幾乎從一開始就有這樣的規定。人們一直以多種方式自動生成內容</a>。<br/><br/>對我們來說,如果您使用機器學習</a>工具</a>來生成內容</a>,這與您只是重新排列字詞、查找同義詞</a>或使用以前人們常用的翻譯技巧沒有太大區別。我的猜測是,也許這些內容</a>質量比真正老派的工具</a>要好一點,但對我們而言,它仍然屬於自動生成的內容</a>,這意味著對我們而言它違反了網站管理員指南。因此,我們會認為它是垃圾郵件</a>。<br/><br/>” 最近Google更新了有關垃圾郵件</a>開發者頁面中“自動生成”內容</a>部分。該頁面創建於2022年10月,在2022年11月底更新。更改反映出對何種自動生成內容</a>屬於垃圾郵件</a>的澄清。<br/><br/>最初該頁面寫道:“自動生成(或“自動生成”)內容</a>是通過程式化方式生成的內容</a>,而沒有產生任何原創性或添加足夠價值;” Google將該句子更改為包含“垃圾郵件</a>”的詞語:“垃圾郵件</a>自動生成(或“自動生成”)內容</a>是通過程式化方式生成的內容</a>,而沒有產生任何原創性或添加足夠價值;” 這一變化似乎澄清了僅僅是自動生成的內容</a>並不意味著它是垃圾郵件</a>。問題在於缺乏所有增值和普遍存在的“垃圾郵件</a>”特徵使得這些內容</a>成為問題。