百度sitemap網站地圖協議規范說明及常見問題
Sitemap(站點地圖)是一種文件的統稱,通常Sitemap(站點地圖)可以是txt或者XML格式。通過Sitemap(站點地圖)你可以告訴搜索引擎關於你的站點中的網頁、視頻或者其他文件的相關信息,幫助搜索引擎更好的認識和理解你的站點。格式正確的Sitemap(站點地圖)文件會幫助搜索引擎更高效地抓取你的網站。
百度Sitemap說明
文件地址格式為txt或xml,每個地址文件最多包含50,000個網址且需小於10MB。
sitemap提交工具僅對已驗證站點開放使用,開發者無法提交同一主域下其他未驗證站點的數據。
請勿提交索引型sitemap,索引型不予處理,且若存在索引型sitemap,將不允許提交新文件;請刪除索引型sitemap後再嘗試提交數據。
txt文本格式
在一個txt文本列明需要向百度提交的鏈接地址,將txt文本文件通過站長平臺進行提交
- http://www.example.com/repaste/101562698_5230191316.html
- http://www.example.com/repaste/101586283_5230215075.html
- http://www.example.com/repaste/101639435_5230310576.html
需要遵循以下指南:
文本文件每行都必須有一個網址。網址中不能有換行。
不應包含網址列表以外的任何信息。
您必須書寫完整的網址,包括 http。
每個文本文件最多可包含 50,000 個網址,並且應小於10MB(10,485,760字節)。如果網站所包含的網址超過 50,000 個,則可將列表分割成多個文本文件,然後分別添加每個文件。
文本文件需使用 UTF-8 編碼或GBK編碼。
xml格式
xml格式提供有關您網站的其他信息,如上次更新日期、Sitemap文件的更新頻率等,供百度Spider參考。
標簽名稱 | 標簽說明 | 標簽類型 | 標簽限制 | 可選/必選 | 舉例 |
---|---|---|---|---|---|
urlset | |||||
url | url標記每條信息的開始和結束 | / | / | 可選 最多出現50000次 |
|
url | |||||
loc | 該條數據的存放地址 | 任意URL | 最小長度1個字符 最大長度256個字符 符合正則表達式(http://)(.+) |
必選 | http://www.baidu.com/ |
lastmod | 指該條數據的最新一次更新時間 | 日期或日期時間 | 格式為:YYYY-MM-DD[Thh:mm:ss],日期與時間之間使用T分隔,可以僅提供年月日部分 | 可選 | 2013-01-01 |
changefreq | 指該條數據的更新頻率 | 字符串 | 有效值為:always、hourly、daily、weekly、monthly、yearly、never | 可選 | always |
priority | 用來指定此鏈接相對於其他鏈接的優先權比值,此值定於0.0-1.0之間 | 小數 | 大於等於0.0 小於等於1.0 |
可選 | 1.0 |
XML格式舉例
<?xml version="1.0" encoding="UTF-8"?> <urlset> <!-- urlset,urlset用來標記整個文檔的開頭,最少出現1次 最多出現1次 --> <url> <!-- url,url標記每條信息的開始和結束,最少出現0次 最多出現50000次 --> <loc>http://www.baidu.com/</loc> <!-- loc,該條數據的存放地址,最少出現1次 最多出現1次,類型為URL地址,最小長度1個字符 最大長度256個字符 必須符合正則表達式(http://)(.+) --> <lastmod>2013-01-01</lastmod> <!-- lastmod,指該條數據的最新一次更新時間,最少出現0次 最多出現1次,類型為日期或日期時間,格式為YYYY-MM-DD的日期或者格式為YYYY-MM-DDThh:mm:ss的日期時間(請註意日期與時間之間以“T”分隔) --> <changefreq>always</changefreq> <!-- changefreq,指該條數據的更新頻率,最少出現0次 最多出現1次,類型為字符串,有效值為:always、hourly、daily、weekly、monthly、yearly、never --> <priority>1.0</priority> <!-- priority,用來指定此鏈接相對於其他鏈接的優先權比值,此值定於0.0-1.0之間,最少出現0次 最多出現1次,類型為小數,最小值為(包含)0.0 最大值為(包含)1.0 --> </url> </urlset>
若有多條url,按照上述格式重復之間的片斷,列明所有url地址,打包到一個xml文件,向站長平臺進行提交。
如何提交Sitemap
第一步,將需提交的網頁列表制作成一個Sitemap文件,文件格式請閱讀百度Sitemap協議都支持哪些格式。
第二步,將Sitemap文件放置在網站目錄下。比如您的網站為example.com,您已制作瞭一個sitemap_example.xml的Sitemap文件,將sitemap_example.xml上傳至網站根目錄即example.com/sitemap_example.xml
第三步,登錄百度站長平臺,確保提交Sitemap數據的網站已驗證歸屬。
第四步,進入Sitemap工具,點擊“添加新數據”,文件類型選擇“URL列表”,填寫抓取周期和Sitemap文件地址
最後,提交完之後,可在Sitemap列表裡看到提交的Sitemap文件,如果Sitemap文件裡面有新的網站鏈接,可以選擇文件後,點擊更新所選,即對更新的網站鏈接進行瞭提交。
Sitemap常見問題
填寫的周期是什麼含義?
百度Spider會參考設置周期抓取Sitemap文件,因此請根據Sitemap文件內容的更新(比如增加新url)來設置。請註意若url不變而僅是url對應的頁面內容更新(比如論壇帖子頁有新回復內容),不在此更新范圍內。Sitemap工具不能解決頁面更新問題。
Sitemap提交後,多久能被百度處理?
Sitemap數據提交後,一般在1小時內百度會開始處理。在以後的調度抓取中,如果您的sitemap支持etag,我們會更頻繁抓取sitemap文件,從而及時發現內容更新;否則抓取的周期會比較長。
提交的Sitemap都會被百度抓取並收錄嗎?
百度對已提交的數據,不保證一定會抓取及收錄所有網址。是否收錄與頁面質量相關。
我可以壓縮我的 Sitemap 嗎?它們是否需要用 gzip 壓縮?
可以。請使用 gzip 壓縮 Sitemap。無論壓縮與否,Sitemap 應該小於 10MB(10,485,759字節)。
XML格式的 Sitemap 中,“priority”提示會影響我的網頁在搜索結果中的排名嗎?
不會。Sitemap 中的“priority”提示隻是說明該網址相對於您自己網站上其他網址的重要性,並不會影響網頁在搜索結果中的排名。
網址在 Sitemap 中的位置是否會影響它的使用?
不會。網址在 Sitemap 中的位置並不會影響百度對它的識別或使用方式。
Sitemap中提交的url能否包含中文?
因為轉碼問題建議最好不要包含中文。
總結
到此這篇關於百度sitemap網站地圖協議規范說明及常見問題的文章就介紹到這瞭,更多相關百度sitemap協議規范內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!