關鍵字連結
百度百科的關鍵詞帶有連結。我在想少量關鍵詞,只需要簡單替換成連結就可以。可是百度的關鍵詞是狠多的,可能成萬上千萬個。如果替換上萬次,那效率也太低了吧。請教這樣的功能是怎樣實現的呢?謝謝!
附:
回複討論(解決方案)
我也想知道。
百科的關鍵詞是按類別相關性來分配的,所以不會有很多個關鍵詞。
另外你感覺可能要調用replace函數很多次,這隻是PHP的正常實現方式。實際上,用C語言來遍曆一次整篇文章即可,這個效率還是遠遠超過PHP的實現方式的。
dream1206 如果一個類別的關鍵字有一萬個 一篇文章替換一萬次;你認為合理不?
dream1206 如果一個類別的關鍵字有一萬個 一篇文章替換一萬次;你認為合理不? 你還沒明白我的意思,如果演算法得當,只需要 遍曆一次整篇文章。
替換隻是針對文章中的某個字串,已經檢查過的內容並不需要再去檢查,明白嗎?
當然如果考慮到其它因素,例如關鍵詞衝突例如 研究,研究生 這個功能還是蠻複雜的
我也想知道啊,老師現在逼著我做啊,不會。。
少量的關鍵詞 php有個strtr函數
dream1206 如果一個類別的關鍵字有一萬個 一篇文章替換一萬次;你認為合理不?
當然不合理!
但是你為什麼不反過來做呢?
抄寫一遍文章,對於文章中的每一個詞去檢查是否在關鍵詞集合中,不就快多了嗎?
記得我發過基於 trie 的關鍵詞符合代碼
引用 3 樓 anydy2008 的回複:dream1206 如果一個類別的關鍵字有一萬個 一篇文章替換一萬次;你認為合理不?
當然不合理!
但是你為什麼不反過來做呢?
抄寫一遍文章,對於文章中的每一個詞去檢查是否在關鍵詞集合中,不就快多了嗎?
記得我發過基於 trie 的關鍵詞符合代碼
版主 但我怎麼可以知道文章裡的是詞語呢。
比如:
文章 秦始皇東巡洛陽
關鍵詞集合 秦始皇 洛陽
程式是不知道應該將文章的 秦始皇在關鍵詞中也匹配,因為它不知道“秦始皇”是個詞呢。
這就只能說中文的自身的問題了,比如魔獸世界經典的黑色魔紋胸甲,斷句失敗就是黑/色魔/紋胸/甲
好吧,我再發一遍
include 'TTrie.php';class wordkey extends TTrie { function b() { $t = array_pop($this->buffer); $this->buffer[] = "$t"; }}$p = new wordkey;$p->set('秦始皇', 'b');$p->set('洛陽', 'b');$t = $p->match('秦始皇東巡洛陽');echo join('', $t);
秦始皇東巡
洛陽
TTrie.php
class TTrie { protected $buffer = array(); protected $dict = array( array() ); protected $input = 0; //字串當前位移 protected $backtracking = 0; //字串回溯位置 public $debug = 0; public $savematch = 1; function set($word, $action='') {if(is_array($word)) {foreach($word as $k=>$v) $this->set($k, $v);return;}$p = count($this->dict);$cur = 0; //當前節點號foreach(str_split($word) as $c) {if (isset($this->dict[$cur][$c])) { //已存在就下移$cur = $this->dict[$cur][$c];continue;}$this->dict[$p]= array(); //建立新節點$this->dict[$cur][$c] = $p; //在父節點記錄子節點號$cur = $p; //把當前節點設為新插入的$p++;}$this->dict[$cur]['acc'] = $action; //一個詞結束,標記葉子節點 } function getto($ch) {$i =& $this->input; //字串當前位移$p =& $this->backtracking; //字串回溯位置$len = strlen($this->doc);$t = '';$this->input++;//while($this->input<$len && $this->doc{$this->input} != $ch) $t .= $this->doc{$this->input++};//$t .= $this->doc{$this->input++};do {if($this->input >= $len) break;$t .= $this->doc{$this->input};}while($this->doc{$this->input++} != $ch);return trim($t); } function match($s) {$this->doc =& $s;$this->buffer = array();$ret = array();$cur = 0; //當前節點,初始為根節點$i =& $this->input; //字串當前位移$p =& $this->backtracking; //字串回溯位置$i = $p = 0;$s .= "\0"; //附加結束符$len = strlen($s);$buf = '';while($i < $len) {$c = $s{$i};if(isset($this->dict[$cur][$c])) { //如果存在$cur = $this->dict[$cur][$c]; //轉到對應的位置if(isset($this->dict[$cur][$s[$i+1]])) {//檢查下一個字元是否也能匹配,長度優先$i++;continue;}if(isset($this->dict[$cur]['acc'])) { //是葉子節點,單詞匹配!if($buf != '') {$this->buffer[] = $buf;$buf = '';}if($this->savematch) $this->buffer[] = substr($s, $p, $i - $p + 1); //取出匹配位置和匹配的詞$ar = explode(',', $this->dict[$cur]['acc']);call_user_func_array( array($this, array_shift($ar)), $ar );$p = $i + 1; //設定下一個回溯位置$cur = 0; //重設當前節點為根節點}} else { //不匹配$buf .= $s{$p}; //substr($s, $p, $i - $p + 1); //儲存未匹配位置和未匹配的內容$cur = 0; //重設當前節點為根節點$i = $p; //把當前位移設為回溯位置$p = $i + 1; //設定下一個回溯位置}$i++; //下一個字元}if(trim($buf, "\0")) $this->buffer[] = trim($buf, "\0");return $this->buffer; } function __call($method, $param) {if($this->debug) printf("位移:%d 回溯:%d\n", $this->input, $this->backtracking); }}
傳說中的 PHP文字高亮 ,很好的class啊……
mark 我是來學習的