標籤:
在上世紀九十年代初期,IBM個人電腦在國內逐漸普及。這時,英特爾80286處理器是”標誌物“。比如,IBMPC/AT 286個人電腦就當時的”代表作“。所謂”AT“的意思就是”Advanced Techinology“(高等技術)。
最早的IBM個人電腦PC/AT出現在1984年,主頻只有6MHz,記憶體256KB。後來,AT電腦的主頻提高到8MHz。採用英特爾386處理器的個人電腦在1987年2月出現了,其主頻提升到33MHz至40MHz。這一切都是曆史事實,是中學電腦教科書上的故事。
在上世紀九十年代初期,電腦技術從大洋彼岸大量傳入我國。對於國內業界而言,計算的黎明時代到來了。但是,我們面對什麼問具體題呢?根據初步估算,《鄧小平文選》全書大約有一百多萬個漢字。我們問:如果利用個人電腦尋找《鄧選》中的某個特定的漢字需要多少時間?為討論的簡化,我們暫且把《鄧選》視為一個很長的”大字串”來處理,而不論及書中的篇目結構。很明顯,在這裡電腦處理器主頻的高低是解決問題的關鍵。
大約在1992年年底,北京大學吳樹青校長向我提出一個“任務”,問我能不能利用電腦來協助人們學習、研究馬、列等經典作家的著作?我們把話說明白了,在電腦的黎明時代,談論內容浩繁的經典著作的全文檢索索引系統是否早了一點兒?
現在,時間已經過去了二十多年,謎底應該揭開了。但是,在國內的知情人不多,只好由我個人出來說說了。也就是說,一件看似不可能做到的事情,我們是怎麼真的最終做出來了呢?這與人工智慧神經網路(ANN)的支撐向量技術(Support Vector,1990年提出)有關。電腦的黎明時代是值得留念的。現在的人們開口雲端運算與大資料,1MB記憶體完全忽略不計。且聽下回分解。
說明1:人民出版社為電子版《鄧選》合訂本寫的“出版說明“全文如下:
為了方便廣大讀者學習和研究鄧小平同志基本理論觀點和政策策略思想,特別是建設有中國特色社會主義理論,我們在修訂後的《鄧小平文選》第一、二卷再版發行之際,將《鄧小平文選》這兩卷連同第三卷製作成電子版合訂本,公開出版發行。
《鄧小平文選》第一、二、三卷電子版合訂本,是經新聞出版署批准出版的作為國家正式出版物的電子書。它將《鄧小平文選》的全文及其檢索系統儲存在兩張磁碟片上,讀者使用普通微機可十分方便地閱讀全文,快速地檢索原文中任何字、詞、片語、句子,及其所在的頁碼、篇目、段落、行數及出現的次數,並可摘錄出來。
人民出版社
一九九四年十一月
說明2:電子版《鄧選》合訂本”使用手冊“明文規定,該系統運行環境是PC/AT286或386相容機型,記憶體640KB至1MB,主頻在8MHz至33MHz。
在電腦的黎明時代,我們做了什嗎?