標籤:大資料中文分詞 漢語分詞 語義分析
資訊過濾是根據使用者的資訊需求,運用一定的標準和技術,從大量的動態資訊流中將與使用者無關的資訊濾掉,把滿足使用者需求的資訊提供給使用者,從而減輕使用者的認知負擔,提高使用者擷取資訊的效率。
隨著科技的提高,互連網也得到了快速的發展,互連網發展到今天,已經得到很大的普及和應用。目前已經成為一個全球性、開放性、互動性的綜合性平台。它容納了各類型的原始資訊,提供了各類型的服務,比如資訊擷取、網上購物、即時性資訊交流等,給人們工作、生活帶來很大的便利。可以說它深入人們的方方面面,是人類資訊化技術的一次革命。
網路給我帶來便利的同時,也給我們帶來許多新的社會問題。由於存在著巨大的經濟利益以及世界各個地區與國家、民族之間存在著政治、宗教等矛盾,使得非法人士挺而走險,利用網路開放性的特點,在網上散布各種亂資訊、出暴、感情、不實廣告等無用資訊,嚴重腐燭人們的身心健康,引起民族之間的強烈感情等,給經濟社會穩定發展與人們安居樂業帶來及其嚴重的影響。
敏感資訊監測與過濾技術是網路輿情管理的重要技術,靈玖LJKeyScanner敏感關鍵詞掃描系統正是由於這樣的背景和需求下研發出來的。LJKeyScanner組件是靈玖軟體多位專家經過不斷研發和實驗,針對敏感關鍵詞搜尋業務需求而打造的一套組件系統,具有專業精準、高擴充性和高通用性的特點。可支援文字、數字、特殊符號、繁體字等各種文本關鍵詞的敏感掃描,支援各類資料庫即時搜尋服務,並支援多語言。
LJKeyScanner關鍵詞敏感即時掃描組件功能:
1、全文關鍵詞識別及掃描:支援文字、數字、特殊符號、繁體字等各種文本關鍵詞的敏感掃描,對文章全文關鍵詞可以進行繁簡體、變形文字、文章標引等要素進行識別。可以設定一組關鍵詞,可實現即時高效的關鍵詞掃描出來。設定一個關鍵詞,可以自動識別掃描各類敏感詞的變體,如繁體形式、中間加各類幹擾噪音。
2、關鍵詞提取:能夠對單篇文章或文章集合,提取出若干個代表文章中心思想的詞彙或短語,可用於精化閱讀、語意查詢和快速匹配等。
3、多類別標籤:對原始語料進行分詞、自動識別人名地名機構名等未登入詞、新詞標註以及詞性標註。並可在分析過程中,匯入使用者定義的詞典。
4、自訂的匯入使用者詞表+內建的敏感詞庫:支援客戶自訂匯入使用者詞典,能夠提供不同行業的敏感掃描結果。同時,組件內建有十大類型的敏感關鍵詞詞典,數十萬敏感關鍵詞,其中包括FLG、民運、色感情、涉堵、涉領導人、涉日、政治傾向等敏感詞典。能夠滿足不同的客戶需求。
大資料採礦:靈玖LJKeyScanner網路淨化衛士