使用Python進行高級重複內容整合
3. 將產品網址按產品識別碼進行分群
我們將使用Google Colab和一些Python腳本來進行聚類分析。首先,讓我們導入OnCrawl的匯出文件。然後,我們也可以導入SEMrush的帶有顏色搜索的文件。<br/><br/>我嘗試了幾種方法來從URL中提取產品ID,包括使用OnCrawl的內容</a>提取功能,但最終選擇了從URL中提取它的方法。接下來,這是如何</a>向我們的數據框添加產品ID列並對URL進行分組以進行聚類分析。在這個聚類練習中,您可以看到一些沒有規範鏈接(canonicals)的產品ID。<br/><br/>通過向這些URL添加自引用規範鏈接(self-referential canonicals),我們將解決此問題。讓我們將數據框導出為CSV檔並在Tableau中進行進一步分析。在Tableau中,完成以下步驟:使用文字檔數據源連接到CSV檔;通過將URL和規範鏈接(Canonicals)拖放到度量區域來轉換它們為度量值;將產品ID拖放到行區域;將規範鏈接(Canonicals)和URL計數拖放到列區域;右擊空的URL行,選擇排除該行;將圖表類型更改為Treemap;添加一個名為“Canonicalized”的計算欄位,並粘貼此公式。<br/><br/>如果COUNTD([URL]) - COUNTD([Rel Canonical]) == 0則返回Self Referential,否則返回Canonicalized。將計算欄位拖放到色彩標記區域;將URL計數拖放到篩選器中,並指定最少兩個URL;將計數URL和計數規範鏈接(canonicals)拖放到詳細資料標記區域。這是設置的外觀。<br/><br/>每個方塊代表一個產品ID聚類集合,大小不同表示包含的URL數量多寡。“canonicalized”計算欄位使用顏色來表示聚類是否具有規範化鏈接或自引用鏈接。我們可以看到,在目前的設置中,David Yurman產品主要是自引用鏈接(self-referential),只有很少的聚類被規範化(藍色方塊)。<br/><br/>以下是更近距離觀察的結果。如果大多數產品都是通過特定顏色的產品搜索獲得搜索流量,這將是一個很好的設置。接下來讓我們看看是否情況屬實。<br/><br/>
優勢 | 劣勢 | |
---|---|---|
機會 |
|
|
威脅 |
|
|
python的版本更新較頻繁,需要不斷學習和適應新的功能和語法。
我們將進行一個中間步驟,強制所有產品群組都規範化到該群組的第一個URL。這足以說明概念,但在實際使用中,我們會希望將其規範化為該群組中最受歡迎的URL。這可能是最多連結的頁面、最多搜索點擊或曝光量的頁面。<br/><br/>更新完集群後,我們可以回到Tableau,重複之前的步驟並檢查更新後的可視化效果。您可以看到現在沒有任何集群是自指向性的了,因為我們強制它們不能是自指向性的。它們只規範化為一個URL。<br/><br/>
5. 將部分標準化分群轉變為自我指涉
在這最後一個步驟中,我們將學習</a>有多少群集應該是自指的。現在所有的群組都已經被規範化到一個URL,我們只需要分開那些具有色彩術語搜索流量的群集。我們將把SEM Rush匯出的所有檔導入數據框中,並將URL轉換成集合以便於檢查。<br/><br/>下一步是僅更新與匹配的群組相關的規範化。完成此過程後,我們可以回到Tableau上重新審查我們最終的群集。令人驚訝的是,只有一個群集需要更新,這意味著David Yurman在他們目前依賴自指規範化設置上錢還剩很多沒賺取到。<br/><br/>
相關數據:
- 根據stack overflow的調查,python是全球開發者中最受歡迎的程式語言,佔比22.2%。 來源: stack overflow
- 在美國,根據tiobe指數,python是第三受歡迎的程式語言,佔比9.8%。 來源: tiobe index
- 根據uk developer survey 2021,英國開發者中有30%選擇使用python作為主要程式語言。 來源: jetbrains
- 在日本,根據プログラミング言語ランキング 2021年3月版,python是第二受歡迎的程式語言,佔比14.6%。 來源: プログラミング言語ランキング
- 根據tiobe指數,法國開發者中有13.6%選擇使用python作為主要程式語言。 來源: tiobe index
- 在台灣,根據2021年it人才市場薪資與需求調查報告,python的需求量佔到整體it需求量的25%。 來源: 104人力銀行
6. 在Cloudflare中實施RankSense的實驗性變更
在傳統的內容管理系統</a>(CMS)上進行這種有選擇性和實驗性的更改可能不太實際,需要大量開發工作,或者沒有證據表明這將起作用。幸運的是,在Cloudflare中使用我們的應用程式可以輕鬆部署此類更改,而無需編寫後端代碼。(聲明:我在RankSense工作。<br/><br/>)我們將把我們提議的主要群集複製到Google表格中。以下是一個例子:假設David Yurman使用了Cloudflare並安裝了我們的實現應用程式,我們可以簡單地上傳該表格,添加一些標籤以跟蹤性能並提交以獲得更改預覽或生產版本。最後,我們可以使用我們的15分鐘稽核Chrome擴展手動查看主要連結是否按預期工作,但為確保起見,我們應該再次運行另一次OnCrawl爬取以確保所有更改都已就位。<br/><br/> 我發現</a>了重複的元描述,並且確定他們還有其他需要解決的SEO問題</a>。如果這個想法對他們來說效果良好,他們可以自信地繼續委託開發工作,以實現在其網站上的實施。