來源:互聯網
上載者:User
關鍵字
應用程式
Eclipse
開源軟體
詞彙波
本文視覺化是一個HTTP://www.aliyun.com/zixun/aggregation/17547.html">功能強大到令人膛目結舌的方法,它可以快速確定特定文本所指的內容。 作為一個副產品,視覺化也提供了一種方法進行文本即時分析。 本文將介紹如何使用開源工具和庫開發文本視覺化和分析軟體。 本文的應用程式比較和分析了兩個具有相同或類似內容的文本,支援使用者獲取關於這些文本及其內容的新見解。
您構建的應用程式是基於詞彙雲 視覺化的。 詞彙雲視覺化可分析特定文本,並將其單詞按出現頻率進行排序。 對單詞進行排名,然後根據其排名來設置字體大小。 排名最高的單詞用最大字體顯示。 視覺化單詞佈局可以變化,但它通常看起來像一片雲,如 所示:
圖 1. 一個詞彙雲
為了生成 所示的詞彙雲,我使用了 IBM Many Eyes來分析 IBM 2011 年度報告中的總裁和 CEO 致辭。
在本文中,應用程式生成了一個詞彙波,即一個形狀像波浪的文本視覺化。 詞彙波將排名最高的單詞放在左上角。 展示了一個示例,視覺化與 相同的本文:
圖 2. 樣例詞彙波
視覺化文本顯示了排名較高的詞彙。 基於視覺化的本文分析,假設高排名單詞有一個重要性層次結構。 當兩個文本視覺化同時顯示時,需要進行比較。 如果兩個文本的內容是相同的或相似的,比較尤為重要。 例如,對那些描述同一行業中兩個企業的策略的文本進行比較,就會顯示這兩家公司關注重點的相似之處和不同之處。
是兩個文本的最終比較草圖。 第一個文本視覺化位於頂部,第二個位于底部。 排名較高的單詞位於左側。
圖 3. 視覺化文本比較草圖
本文及其代碼將向您展示如何:
實用開源工具和庫開發一個命令列應用程式來實現文本視覺化,並進行文本比較。 使用詞彙波視覺化創建一個特定文本的視覺化(類似 )。 將兩個視覺化結合到同一圖像中進行比較和分析。 從視覺化中創建一個可視的、引人注目的視頻。
本文並沒有深入探索開發的細節,所以熟悉 JAVA™ 開發和 Eclipse 程式設計模型對讀者很有説明。 所有這些應用程式原始程式碼(應用程式的 Eclipse 專案和準備部署更新的網站)均可 下載。
我首先將會簡要介紹一下開發環境元件。