similar_text算相似性時歸一化時的疑點

來源:互聯網
上載者:User
similar_text算相似性時歸一化時的疑問
我在算兩個字串的長度時,發現歸一化時好像此函數採取的方式不一樣。
第一次,我試了兩個不一樣長的字串,算其編輯距離:
echo "levenshtein計算:\n";echo levenshtein("seller_id","selr_id");echo "\n";
得到的結果是:2

再用同樣的兩個字串,用PHP的similar_text函數來求其相似性
echo "similar_text計算:\n";similar_text("seller_id","selr_id",$percent);
echo $percent;
出現在相似性是:87.5
把2這個距離歸一化時,正好符合公式:1-(編輯距離/(兩個字串的長度之和))

第二次,我試了兩個一樣長度的字串,分別算其編輯距離和相似性
similar_text("abcd","1234",$percent);echo $percent;echo "\n";
echo levenshtein("abcd","1234");
得到的值分別為:4和0
正好符合公式:1-(編輯距離/(任一個字串的長度))

我的問題是:為什麼對兩個不一樣長的字串求相似性時,分母是兩個字串的長度之和呢?
我在網上找了些pdf文檔看,對編輯距離歸一化時,其分母是最長的那個字串的長度呢。


------解決思路----------------------
應該說 similar_text 函數的設計者,考慮的還是蠻周到的
當傳入的兩個串長度相同時,計算的相似性與理論上並無差異
當傳入的兩個串長度不同時,得到的相似性不像理論上的那麼陡峭。也就是說被匹配的機率變大
當然如果你不希望這樣的話可以自行計算,串都是你的,他也返回了已匹配的數量。計算一下並不困難
  • 聯繫我們

    該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

    如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

    A Free Trial That Lets You Build Big!

    Start building with 50+ products and up to 12 months usage for Elastic Compute Service

    • Sales Support

      1 on 1 presale consultation

    • After-Sales Support

      24/7 Technical Support 6 Free Tickets per Quarter Faster Response

    • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.