百度百科的關鍵詞連結是怎樣實現的呢

來源:互聯網
上載者:User
關鍵字連結

百度百科的關鍵詞帶有連結。我在想少量關鍵詞,只需要簡單替換成連結就可以。可是百度的關鍵詞是狠多的,可能成萬上千萬個。如果替換上萬次,那效率也太低了吧。請教這樣的功能是怎樣實現的呢?謝謝!

附:


回複討論(解決方案)

我也想知道。

百科的關鍵詞是按類別相關性來分配的,所以不會有很多個關鍵詞。
另外你感覺可能要調用replace函數很多次,這隻是PHP的正常實現方式。實際上,用C語言來遍曆一次整篇文章即可,這個效率還是遠遠超過PHP的實現方式的。

dream1206 如果一個類別的關鍵字有一萬個 一篇文章替換一萬次;你認為合理不?

dream1206 如果一個類別的關鍵字有一萬個 一篇文章替換一萬次;你認為合理不? 你還沒明白我的意思,如果演算法得當,只需要 遍曆一次整篇文章。
替換隻是針對文章中的某個字串,已經檢查過的內容並不需要再去檢查,明白嗎?
當然如果考慮到其它因素,例如關鍵詞衝突例如 研究,研究生 這個功能還是蠻複雜的

我也想知道啊,老師現在逼著我做啊,不會。。

少量的關鍵詞 php有個strtr函數

dream1206 如果一個類別的關鍵字有一萬個 一篇文章替換一萬次;你認為合理不?
當然不合理!
但是你為什麼不反過來做呢?
抄寫一遍文章,對於文章中的每一個詞去檢查是否在關鍵詞集合中,不就快多了嗎?

記得我發過基於 trie 的關鍵詞符合代碼

引用 3 樓 anydy2008 的回複:dream1206 如果一個類別的關鍵字有一萬個 一篇文章替換一萬次;你認為合理不?
當然不合理!
但是你為什麼不反過來做呢?
抄寫一遍文章,對於文章中的每一個詞去檢查是否在關鍵詞集合中,不就快多了嗎?

記得我發過基於 trie 的關鍵詞符合代碼

版主 但我怎麼可以知道文章裡的是詞語呢。
比如:

文章 秦始皇東巡洛陽

關鍵詞集合 秦始皇 洛陽

程式是不知道應該將文章的 秦始皇在關鍵詞中也匹配,因為它不知道“秦始皇”是個詞呢。

這就只能說中文的自身的問題了,比如魔獸世界經典的黑色魔紋胸甲,斷句失敗就是黑/色魔/紋胸/甲

好吧,我再發一遍

include 'TTrie.php';class wordkey extends TTrie {  function b() {    $t = array_pop($this->buffer);    $this->buffer[] = "$t";  }}$p = new wordkey;$p->set('秦始皇', 'b');$p->set('洛陽', 'b');$t = $p->match('秦始皇東巡洛陽');echo join('', $t);
秦始皇東巡 洛陽

TTrie.php
class TTrie {  protected $buffer = array();  protected $dict = array( array() );  protected $input = 0; //字串當前位移  protected $backtracking = 0; //字串回溯位置  public $debug = 0;  public $savematch = 1;  function set($word, $action='') {if(is_array($word)) {foreach($word as $k=>$v) $this->set($k, $v);return;}$p = count($this->dict);$cur = 0; //當前節點號foreach(str_split($word) as $c) {if (isset($this->dict[$cur][$c])) { //已存在就下移$cur = $this->dict[$cur][$c];continue;}$this->dict[$p]= array(); //建立新節點$this->dict[$cur][$c] = $p; //在父節點記錄子節點號$cur = $p; //把當前節點設為新插入的$p++;}$this->dict[$cur]['acc'] = $action; //一個詞結束,標記葉子節點  }  function getto($ch) {$i =& $this->input; //字串當前位移$p =& $this->backtracking; //字串回溯位置$len = strlen($this->doc);$t = '';$this->input++;//while($this->input<$len && $this->doc{$this->input} != $ch) $t .= $this->doc{$this->input++};//$t .= $this->doc{$this->input++};do {if($this->input >= $len) break;$t .= $this->doc{$this->input};}while($this->doc{$this->input++} != $ch);return trim($t);  }  function match($s) {$this->doc =& $s;$this->buffer = array();$ret = array();$cur = 0; //當前節點,初始為根節點$i =& $this->input; //字串當前位移$p =& $this->backtracking; //字串回溯位置$i = $p = 0;$s .= "\0"; //附加結束符$len = strlen($s);$buf = '';while($i < $len) {$c = $s{$i};if(isset($this->dict[$cur][$c])) { //如果存在$cur = $this->dict[$cur][$c]; //轉到對應的位置if(isset($this->dict[$cur][$s[$i+1]])) {//檢查下一個字元是否也能匹配,長度優先$i++;continue;}if(isset($this->dict[$cur]['acc'])) { //是葉子節點,單詞匹配!if($buf != '') {$this->buffer[] = $buf;$buf = '';}if($this->savematch) $this->buffer[] = substr($s, $p, $i - $p + 1); //取出匹配位置和匹配的詞$ar = explode(',', $this->dict[$cur]['acc']);call_user_func_array( array($this, array_shift($ar)), $ar );$p = $i + 1; //設定下一個回溯位置$cur = 0; //重設當前節點為根節點}} else { //不匹配$buf .= $s{$p}; //substr($s, $p, $i - $p + 1); //儲存未匹配位置和未匹配的內容$cur = 0; //重設當前節點為根節點$i = $p; //把當前位移設為回溯位置$p = $i + 1; //設定下一個回溯位置}$i++; //下一個字元}if(trim($buf, "\0")) $this->buffer[] = trim($buf, "\0");return $this->buffer;  }  function __call($method, $param) {if($this->debug) printf("位移:%d 回溯:%d\n", $this->input, $this->backtracking);  }}

傳說中的 PHP文字高亮 ,很好的class啊……

mark 我是來學習的

  • 相關文章

    聯繫我們

    該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

    如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

    A Free Trial That Lets You Build Big!

    Start building with 50+ products and up to 12 months usage for Elastic Compute Service

    • Sales Support

      1 on 1 presale consultation

    • After-Sales Support

      24/7 Technical Support 6 Free Tickets per Quarter Faster Response

    • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.