仲介交易 SEO診斷 淘寶客 雲主機 技術大廳
《互聯網新聞開放協定》是百度新聞搜索制定的搜尋引擎新聞源收錄標準,網站可將發佈的新聞內容製作成遵循此開放協定的XML格式的網頁(獨立于原有的新聞發佈形式)供搜尋引擎索引,將網站發佈的新聞資訊主動、 及時地告知百度搜尋引擎。
採用了《互聯網新聞開放協定》,就相當於網站的新聞被搜尋引擎訂閱,通過百度——全球最大的中文搜尋引擎這個平臺,線民將有可能在更大範圍內更高頻率地訪問到您網站的新聞,進而為您的網站帶來潛在的流量。
開放協定非常簡單! 您可以在我們的説明下輕鬆使用。 開放協定內容
下圖為遵照《互聯網新聞開放協定》製作的XML格式的網頁,網頁上按照標準格式列出了網站發佈的新聞的相關資訊。
XML網頁示例:
XML標籤說明: 其中帶星號標記的為必選項,未帶星號標記為可選項。
*<document>——標記整個XML檔內容的開始和結束。
*<webSite>——網站位址。
*<webMaster>——負責人員的Email。 當有必要時,我們通過這個位址與您聯繫。
*<updatePeri>——更新週期,以分鐘為單位。 搜尋引擎將遵照此週期訪問該頁面,使頁面上的新聞更及時地出現在百度新聞中。
*<item>——標記每篇新聞資訊的開始和結束。 標記內為單篇新聞資訊,不包括新聞專題。
*<title>——新聞標題。
*<link>——新聞url位址,與單篇新聞一一對應;若分頁的新聞存在多個URL,相當於多篇新聞。
<description>——新聞內容簡介。
*<text>——完整的新聞正文(僅包含正文文字,不包含HTML語言等其它字元)。 此項的目的是使該篇新聞更多、更准地出現在搜尋結果中。
*<image>——新聞正文內相關圖片,採用絕對位址。 若該篇新聞無相關圖片,可以為空;若含有多張圖片,請重複使用該標籤。 此項的目的是使該篇新聞的相關圖片展現在搜尋結果中。
<headlineImg>——為有可能成為頭條的新聞製作的頭條圖,採用絕對位址。
<keywords>——反映新聞主題內容的一個或多個關鍵字,關鍵字之間以空格隔開。 此項僅作為參考,檢索結果不完全依賴于此標籤中的內容。
<category>——新聞分類, 可以遵循網站自身的分類體系,最好採用一級分類。
<author>——新聞作者,可以為機構或個人 。
<source>——新聞來源,即原創媒體或其它機構 。
*<pubDate>——新聞發佈時間,與該篇新聞HTML頁面上的發佈時間保持一致。 請精確到分鐘;若您網站的發佈時間未記錄小時分鐘,提供年月日即可。
推薦時間格式:年月日小時分鐘秒
如:2005-11-09 10:37 | 2005/11/09 10:37:00 | 2005.11.09 10:37:00 |
2005年11月09日10時37分00秒 | Fri, 09 Nov 2005 10:37:00 GMT開放協定使用
使用之前,您需要瞭解以下幾點:
無論您的網站已經成為百度新聞源,還是尚未被百度新聞搜索收錄,都可以使用此開放協定。 您使用開放協定提供的內容應全部符合下面《新聞源收錄標準》。 《互聯網新聞開放協定》只是原始新聞源收錄方式的一種協助和有益補充,而不是完全取代。
新聞源收錄標準:
百度希望新聞源多樣化,鼓勵原創新聞內容。 如果是具有大量有價值的新聞內容並能及時更新的正規、合法媒體網站,且網站伺服器穩定、高速,就符合了百度收錄新聞源的基本原則。
百度新聞搜索收錄的內容包括時政、娛樂、體育、財經、科教文化、社會生活等各類新聞報導及媒體評論,數碼產品、房產、汽車等行情資訊及評測,各行業的動態及行情,組織機構的工作動態等,是由專業人士撰寫或編輯的中文資訊, 不包括發佈的個人資訊、論壇、博客、廣告、幽默笑話、情感故事、情色、寫真、劇照、明星檔案、食譜、下載、多媒體等其它類型、其它語言互聯網資訊。
您應對提供的全部內容承擔一切法律責任,保證您提供內容的真實性、合法性,並不得侵犯任何協力廠商的權益。
下面就開始吧!
第一步:創建XML檔
請按照上面公佈的開放協定內容製作XML檔。
其它說明:
支援的編碼格式有GB2312、UTF-8、BIG5。 您可以將網站某一時間段發佈的全部新聞放在一個XML檔中,也可以分頻道或欄目放在多個XML檔中。 請保持每個XML檔處於按更新週期持續自動更新狀態。 每個XML檔至多存放最新發佈的100條新聞,無需保存之前的新聞。 請將發佈的新聞按照時間排序,即最新發佈的新聞在最上端,否則可能有新聞被遺漏。 XML標籤內容中的一些特殊字元必須轉換為XML定義的逸出字元,否則將發生錯誤導致搜尋引擎不能獲取頁面上的新聞,具體參見下表。 字元轉義後的字元HTML字元字元編碼和(and)&&amp;&#38;單引號'&apos;&#39;雙引號"&quot;&#34;大於號>&gt; &#62;小於號<&lt;&#60; 逸出字元中的"&"無需再轉。
第二步:驗證XML檔
下面的位址提供了説明您驗證XML檔結構的多種工具:
HTTP://www.w3.org/XML/Schema#Tools
HTTP://www.xml.com/pub/a/2000/12/13/schematools.html
通過驗證的XML檔能夠使您提供的資訊更加標準,確保您發佈的新聞資訊不被搜尋引擎遺漏。
第三步:提交XML網址
提交前請將XML檔上傳到您的網站伺服器, 將XML檔的URL位址及其它資訊輸入下面對應的方框內。 搜尋引擎將定向訪問該URL位址,當URL位址發生變化時需要重新提交。
百度新聞搜索將對您提交的資料進行測試和觀察一周,若您基本按照 《互聯網新聞開放協定》的要求進行製作但存在問題, 我們會根據XML頁面上提供的郵寄地址與您聯繫。
注意: 百度新聞搜索不保證一定能收錄您提交的全部內容。