利用Google試算表和AI進行網路爬蟲的技巧
工具:AI與聊天機器人
如今,我們對AI、ChatGPT及類似的聊天機器人已經耳熟能詳。事實上,許多人甚至利用像是ChatGPT這樣的工具</a>來撰寫自己的程式碼、腳本和程序,即使他們幾乎沒有或只有非常有限的編程知識。過程就像是提供詳細的指示給予提示,並與聊天機器人合作建立工具</a>,這些工具</a>直到最近我們還認為它們遠不在我們能力所及之內。<br/><br/>但最重要的是,這些工具</a>深刻地改變了我們處理日常工作的方式。例如,如果我們問ChatGPT以下問題:“IMPORTXML函數是什麼以及我怎樣可以在Google Sheets中使用它來抓取一個HTML</a>網頁的標題?請提供在Google Sheets中執行此操作所需的代碼。”其回答極其精準。<br/><br/>僅需幾秒鐘時間,我們就得到了可立即使用於Google Sheets中的公式。但老實說,那只是一項非常基礎且簡單的任務,即使沒有ChatGPT我們也能輕易完成。
任務執行
那麼,如果我們想要提取的數據與常規的頁面標題或描述相比較起來不那麼標準,這個過程該如何</a>進行呢?例如,如果我們想從Search Engine Journal的PPC</a>首頁提取以下數據,該怎麼操作呢? 列出所有特色文章、它們的作者、連結URL以及列於https://www.searchenginejournal.com/category/paid-media/pay-per-click/ 的文章描述。 我們可以直接用ChatGPT來完成這項工作嗎?
運用ChatGPT
在設計請求指令時,我們需要多次嘗試才能提供足夠詳細的指示,讓聊天機器人完全理解任務目標並返回優質結果。很多時候,感覺上AI似乎承受著迅速回應</a>的壓力,即便其準確性尚待考驗。任務是分析網頁並列出所有特色文章、作者、連結URL以及3</a>0篇文章每一篇的描述。<br/><br/>然後將數據整理成表格,最後導出成CSV文件。起初,ChatGPT只返回了7篇文章的樣本,僅含有它們的標題和URL;經過重新設計請求指令後,它成功地列出並導出了所有3</a>0篇文章及其連結。這已經不錯了。<br/><br/>因此,要完成任務,我們只需要加入作者和文章描述。但在這裡,機器人遇到了障礙,并未能準確提供每篇文章的描述,儘管我們提供了它需要找到並复制的頁面元素示例。ChatGPT一次又一次地忽略指示、提供自己版本的文章描述。<br/><br/>即使我們嘗試不同方法下載並上傳頁面HTML</a>副本時, ChatGPT也失敗了。這一次它能夠為7篇文章提供準確數據但無法超越此限。 報告問題: “…該頁面的結構與內容</a>對於在單一會話中實現全面數據抽取呈現顯著挑戰。<br/><br/> 由於頁面相當廣泛且複雜,在當前互動格式下無法抽取全部3</a>0篇文章。”
ChatGPT結合Google表格
兩者比較
那麼,ChatGPT 和 ChatGPT 結合 Google Sheets 的 IMPORTXML 功能相比如何</a>呢?根據我的經驗,我沒有找到一種快速簡便的方法使用 ChatGPT 抓取我需要的數據—當然,這不代表做不到,可能有好幾種方式可以達成,但我個人是沒發現</a>。對我而言有效的是結合使用了不同工具</a>,這對我要達成的目的非常有幫助。ChatGPT 在撰寫我需要在 Google Sheets 中使用的 IMPORTXML 公式方面提供了巨大的幫助,剩下的部分就靠這些公式完成了。<br/><br/>ChatGPT 結合 Google Sheets 的另一個額外優點是你只需使用免費</a>的3</a>.5版本ChatGPT 就能建立你所需的 IMPORTXML 公式,而不必升級至4版去掃描頁面和提取數據。