百度sitemap網站地圖協議規范說明及常見問題

Sitemap(站點地圖)是一種文件的統稱,通常Sitemap(站點地圖)可以是txt或者XML格式。通過Sitemap(站點地圖)你可以告訴搜索引擎關於你的站點中的網頁、視頻或者其他文件的相關信息,幫助搜索引擎更好的認識和理解你的站點。格式正確的Sitemap(站點地圖)文件會幫助搜索引擎更高效地抓取你的網站。

百度Sitemap說明

文件地址格式為txt或xml,每個地址文件最多包含50,000個網址且需小於10MB。

sitemap提交工具僅對已驗證站點開放使用,開發者無法提交同一主域下其他未驗證站點的數據。

請勿提交索引型sitemap,索引型不予處理,且若存在索引型sitemap,將不允許提交新文件;請刪除索引型sitemap後再嘗試提交數據。

txt文本格式

在一個txt文本列明需要向百度提交的鏈接地址,將txt文本文件通過站長平臺進行提交

  • http://www.example.com/repaste/101562698_5230191316.html
  • http://www.example.com/repaste/101586283_5230215075.html
  • http://www.example.com/repaste/101639435_5230310576.html

需要遵循以下指南:

文本文件每行都必須有一個網址。網址中不能有換行。

不應包含網址列表以外的任何信息。

您必須書寫完整的網址,包括 http。

每個文本文件最多可包含 50,000 個網址,並且應小於10MB(10,485,760字節)。如果網站所包含的網址超過 50,000 個,則可將列表分割成多個文本文件,然後分別添加每個文件。

文本文件需使用 UTF-8 編碼或GBK編碼。

xml格式

xml格式提供有關您網站的其他信息,如上次更新日期、Sitemap文件的更新頻率等,供百度Spider參考。

標簽名稱 標簽說明 標簽類型 標簽限制 可選/必選 舉例
urlset
url url標記每條信息的開始和結束 / / 可選 
最多出現50000次
url
loc 該條數據的存放地址 任意URL 最小長度1個字符
最大長度256個字符
符合正則表達式(http://)(.+)
必選 http://www.baidu.com/
lastmod 指該條數據的最新一次更新時間 日期或日期時間 格式為:YYYY-MM-DD[Thh:mm:ss],日期與時間之間使用T分隔,可以僅提供年月日部分 可選 2013-01-01
changefreq 指該條數據的更新頻率 字符串 有效值為:always、hourly、daily、weekly、monthly、yearly、never 可選 always
priority 用來指定此鏈接相對於其他鏈接的優先權比值,此值定於0.0-1.0之間 小數 大於等於0.0
小於等於1.0
可選 1.0

XML格式舉例

<?xml version="1.0" encoding="UTF-8"?>
<urlset>
<!-- urlset,urlset用來標記整個文檔的開頭,最少出現1次 最多出現1次 -->
    <url>
    <!-- url,url標記每條信息的開始和結束,最少出現0次 最多出現50000次 -->
        <loc>http://www.baidu.com/</loc>
        <!-- loc,該條數據的存放地址,最少出現1次 最多出現1次,類型為URL地址,最小長度1個字符 最大長度256個字符 必須符合正則表達式(http://)(.+) -->
        <lastmod>2013-01-01</lastmod>
        <!-- lastmod,指該條數據的最新一次更新時間,最少出現0次 最多出現1次,類型為日期或日期時間,格式為YYYY-MM-DD的日期或者格式為YYYY-MM-DDThh:mm:ss的日期時間(請註意日期與時間之間以“T”分隔) -->
        <changefreq>always</changefreq>
        <!-- changefreq,指該條數據的更新頻率,最少出現0次 最多出現1次,類型為字符串,有效值為:always、hourly、daily、weekly、monthly、yearly、never -->
        <priority>1.0</priority>
        <!-- priority,用來指定此鏈接相對於其他鏈接的優先權比值,此值定於0.0-1.0之間,最少出現0次 最多出現1次,類型為小數,最小值為(包含)0.0 最大值為(包含)1.0 -->
    </url>
</urlset>

若有多條url,按照上述格式重復之間的片斷,列明所有url地址,打包到一個xml文件,向站長平臺進行提交。

如何提交Sitemap

第一步,將需提交的網頁列表制作成一個Sitemap文件,文件格式請閱讀百度Sitemap協議都支持哪些格式。

第二步,將Sitemap文件放置在網站目錄下。比如您的網站為example.com,您已制作瞭一個sitemap_example.xml的Sitemap文件,將sitemap_example.xml上傳至網站根目錄即example.com/sitemap_example.xml

第三步,登錄百度站長平臺,確保提交Sitemap數據的網站已驗證歸屬。

第四步,進入Sitemap工具,點擊“添加新數據”,文件類型選擇“URL列表”,填寫抓取周期和Sitemap文件地址

最後,提交完之後,可在Sitemap列表裡看到提交的Sitemap文件,如果Sitemap文件裡面有新的網站鏈接,可以選擇文件後,點擊更新所選,即對更新的網站鏈接進行瞭提交。

Sitemap常見問題

填寫的周期是什麼含義?

百度Spider會參考設置周期抓取Sitemap文件,因此請根據Sitemap文件內容的更新(比如增加新url)來設置。請註意若url不變而僅是url對應的頁面內容更新(比如論壇帖子頁有新回復內容),不在此更新范圍內。Sitemap工具不能解決頁面更新問題。

Sitemap提交後,多久能被百度處理?

Sitemap數據提交後,一般在1小時內百度會開始處理。在以後的調度抓取中,如果您的sitemap支持etag,我們會更頻繁抓取sitemap文件,從而及時發現內容更新;否則抓取的周期會比較長。

提交的Sitemap都會被百度抓取並收錄嗎?

百度對已提交的數據,不保證一定會抓取及收錄所有網址。是否收錄與頁面質量相關。

我可以壓縮我的 Sitemap 嗎?它們是否需要用 gzip 壓縮?

可以。請使用 gzip 壓縮 Sitemap。無論壓縮與否,Sitemap 應該小於 10MB(10,485,759字節)。

XML格式的 Sitemap 中,“priority”提示會影響我的網頁在搜索結果中的排名嗎?

不會。Sitemap 中的“priority”提示隻是說明該網址相對於您自己網站上其他網址的重要性,並不會影響網頁在搜索結果中的排名。

網址在 Sitemap 中的位置是否會影響它的使用?

不會。網址在 Sitemap 中的位置並不會影響百度對它的識別或使用方式。

Sitemap中提交的url能否包含中文?

因為轉碼問題建議最好不要包含中文。

總結

到此這篇關於百度sitemap網站地圖協議規范說明及常見問題的文章就介紹到這瞭,更多相關百度sitemap協議規范內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: