怎麼從一堆英文名稱裡找出中國人?

來源:互聯網
上載者:User
有一堆的英文名稱列表
Sjoerd van Tuinen
Ulisses Caramaschi
Ulisses Caramaschi
Pankaj Sekhsaria
Brandon Ballengée
Prima Adi Yoga
Mehmet Tunçer
Guoyou Zhang
Jose Carlos Mariategui
Cesar Amorós
Anne Pyburn
Bruce D Patterson
Nancy Sevcenko
Dwirienna Adiyanti
Ulises Chavez Jimenez

裡面夾雜著中國人的英文名,比如Guoyou Zhang,怎麼用程式能夠快速地篩選出中國人姓名。
可以有中文姓氏和常用漢字的拼音列表。不知道用php程式怎麼寫?

回複內容:

有一堆的英文名稱列表
Sjoerd van Tuinen
Ulisses Caramaschi
Ulisses Caramaschi
Pankaj Sekhsaria
Brandon Ballengée
Prima Adi Yoga
Mehmet Tunçer
Guoyou Zhang
Jose Carlos Mariategui
Cesar Amorós
Anne Pyburn
Bruce D Patterson
Nancy Sevcenko
Dwirienna Adiyanti
Ulises Chavez Jimenez

裡面夾雜著中國人的英文名,比如Guoyou Zhang,怎麼用程式能夠快速地篩選出中國人姓名。
可以有中文姓氏和常用漢字的拼音列表。不知道用php程式怎麼寫?

只能找個庫匹配了。
如果這是你們產品經理提出來的,請果斷讓他放棄這個想法。

這個網上很多吧 ,給個連結

參考excel的識別方式看看

漢字區分出來比較容易啦
主要是如何區分英文與拼音

我的想法是找個拼音庫,然後對比找出拼音,判斷是否中國人姓名

你可以看下面的連結下,看下裡面的源碼是否可以做拼音庫
http://www.oschina.net/code/snippet_862384_25415

需要一個中文拼音的分詞庫!!!否則無法實現!!!

不知道php怎麼處理,Java的話可以用pinyin4j從百家姓產生一份姓氏拼音表再匹配

沒有十分準確的辦法,因為沒辦法嚴格區分。即便你能整理一個拼音庫,也有很多問題。舉個例子,一位嫁給老外的女士,改用丈夫姓氏,對比庫無法處理。藏蒙等少數民族的名字無法處理。韓國、泰國等國家有姓氏的拼字方式和中文重合。

本質是區分拼音和英文單詞,用正則匹配:
1.拿常用姓氏的拼音結尾規則去匹配所有姓名,拿到初篩資料。
2.大部分的漢子拼音都由聲母和韻母結合構成,利用這個規則進一步檢驗初篩資料

你說Marry Zhang這個是中國人還是外國人呢?
能匹配的前提是別像外企一樣讓中國人非得給自己起個洋名

同樣的Mike是英文的麥克還是中文的米克呢?這個問題倒是不大

  • 相關文章

    聯繫我們

    該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

    如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

    A Free Trial That Lets You Build Big!

    Start building with 50+ products and up to 12 months usage for Elastic Compute Service

    • Sales Support

      1 on 1 presale consultation

    • After-Sales Support

      24/7 Technical Support 6 Free Tickets per Quarter Faster Response

    • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.