有一堆的英文名稱列表
Sjoerd van Tuinen
Ulisses Caramaschi
Ulisses Caramaschi
Pankaj Sekhsaria
Brandon Ballengée
Prima Adi Yoga
Mehmet Tunçer
Guoyou Zhang
Jose Carlos Mariategui
Cesar Amorós
Anne Pyburn
Bruce D Patterson
Nancy Sevcenko
Dwirienna Adiyanti
Ulises Chavez Jimenez
裡面夾雜著中國人的英文名,比如Guoyou Zhang,怎麼用程式能夠快速地篩選出中國人姓名。
可以有中文姓氏和常用漢字的拼音列表。不知道用php程式怎麼寫?
回複內容:
有一堆的英文名稱列表
Sjoerd van Tuinen
Ulisses Caramaschi
Ulisses Caramaschi
Pankaj Sekhsaria
Brandon Ballengée
Prima Adi Yoga
Mehmet Tunçer
Guoyou Zhang
Jose Carlos Mariategui
Cesar Amorós
Anne Pyburn
Bruce D Patterson
Nancy Sevcenko
Dwirienna Adiyanti
Ulises Chavez Jimenez
裡面夾雜著中國人的英文名,比如Guoyou Zhang,怎麼用程式能夠快速地篩選出中國人姓名。
可以有中文姓氏和常用漢字的拼音列表。不知道用php程式怎麼寫?
只能找個庫匹配了。
如果這是你們產品經理提出來的,請果斷讓他放棄這個想法。
這個網上很多吧 ,給個連結
參考excel的識別方式看看
漢字區分出來比較容易啦
主要是如何區分英文與拼音
我的想法是找個拼音庫,然後對比找出拼音,判斷是否中國人姓名
你可以看下面的連結下,看下裡面的源碼是否可以做拼音庫
http://www.oschina.net/code/snippet_862384_25415
需要一個中文拼音的分詞庫!!!否則無法實現!!!
不知道php怎麼處理,Java的話可以用pinyin4j從百家姓產生一份姓氏拼音表再匹配
沒有十分準確的辦法,因為沒辦法嚴格區分。即便你能整理一個拼音庫,也有很多問題。舉個例子,一位嫁給老外的女士,改用丈夫姓氏,對比庫無法處理。藏蒙等少數民族的名字無法處理。韓國、泰國等國家有姓氏的拼字方式和中文重合。
本質是區分拼音和英文單詞,用正則匹配:
1.拿常用姓氏的拼音結尾規則去匹配所有姓名,拿到初篩資料。
2.大部分的漢子拼音都由聲母和韻母結合構成,利用這個規則進一步檢驗初篩資料
你說Marry Zhang這個是中國人還是外國人呢?
能匹配的前提是別像外企一樣讓中國人非得給自己起個洋名
同樣的Mike是英文的麥克還是中文的米克呢?這個問題倒是不大