仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
原創和偽原創成為現在互聯網後時代一個重要的話題,即就是如何保「證內容為王」的問題,對於門戶型的大互聯網公司來說,也許他們有專業的編輯和寫手,但是據我所瞭解的,甚然逃不了要去轉載別人的文章。 如何在原創與非原創之間取得平衡點,是做網站運營人員和編輯必須進行把控的一個點。
搜尋引擎如何辯別原創和偽原創?
以目前的電腦來看,是不可能做到真正的人工智慧識別內容的,也許對英文系還好一些,畢竟英文系的字形檔有限,每個獨立的英語的意思是獨立的或者相關的。 並且英文中有預設的習慣用「-」來進行區分。
而中文則就明顯不同。 同一個意思,可以用無數個詞來形容,千變萬化。 比如說:「人面桃花」這個詞的涵義就多了。 所以電腦是不可能辯識的。 那麼搜尋引擎如何去判定原創和偽原創呢?下面是思路實現。
首先,搜尋引擎把兩篇文章進行有機的篩選,作為比對物件,那如何知道這比對的文章是有關的呢?當然就是關鍵字,根據文章的關鍵字決定的,這也就是為什麼文章中要內置一定比例的關鍵字的原因所在,至少如何區分文章中那一個是關鍵字, 搜尋引擎自有演算法解決的,不再贅述。
取出兩篇文章以後,電腦就進行分析:
1、 設定一個比例,比如定義為M,標注是0.5的係數。
2、 把A篇文章,根據字數,段落為分三段。 B篇文章段落分為三段,然後進行演算法編譯,也可以理解成為加密之類的,也就是說把文字變成符號。 比如說一段話進行編譯之後變成了aaacbdfbcdfsdafefasdfasd 這樣的字串。 當然不一定是用ABCD這種字元,這樣做的好處是因為方便電腦比對和處理。
3、 然後把A,B兩篇文章經過第二步的處理,再通過演算法得到,兩篇文章之間的相似度有多少,(估計這個對比演算法很複雜,我也只能猜測。 )會得到一個值,也就是類似上述1中提到的這個M的係數,根據標準,比如是高於0.5就表示是雷同,低於就表示是不雷同,如果雷同就利用搜尋引擎爬行得到的其他的參數來決定誰是原創,或者是非原創。
我們如何應對搜尋引擎的原創判定呢?
道高一尺,魔高一丈,互聯網上永遠沒有絕對的矛與盾,在現在電腦還不可能真正實現人工智慧,所以,原創和偽原創是一個暫且永恆的話題。 做最強的偽原創可以如下三步走:
1、標題一定要改,並且要改得出神入化。 中國的文字很複雜,同樣的一個意思可以用很多的方法來體現,如果你真的不能改,那麼我告訴你一個方法,就是把標題寫長到20-25個字,你一定很特別的。
2、如果你有不錯的文字功功底,你看了人家的文章之後,你就馬上可以在腹稿裡形成一定的框架,然後用你的語言進行描述,再加上圖片等富文本進行修飾,那絕對是一篇難得的偽原創文章。 比如我們的車市中國網就有專業的編輯人員,對於發佈的各種汽車類新聞都進行一大量的偽原創的效果.
3、內容錯亂。 網上有很多垃圾站。 為什麼人家可以得到關鍵字的排名和流量,原因就是,採集到資訊進行偽原創之後,就完全可以變得原創,這裡面最重要的一個原因就是中國的漢字太複雜了。 程式建立一個詞庫,通過匹配同義字情況,可以基本上實現語句的通順,而減少大量的雷同。 至於文章的內容究竟要表達作者什麼真正的意象,電腦根本是讀不懂的。
原創和偽原創是一對天使和魔鬼,你不必憎恨人家把你的文章進行偽原創,你最多譴責人家人品不好。 所謂文章一大抄。 真正的高手當然是高端。 那就讓偽原創來得更瘋狂吧!
文章原創,轉載請保留此行 深圳車展:HTTP://www.carixy.com/shenzhenchezhan/201009/