搜尋引擎到人工智慧的終極演進

來源:互聯網
上載者:User

仲介交易 SEO診斷 淘寶客 雲主機 技術大廳

  

K.K在紀錄片《Google and the World Brain》中提到,他在谷歌創業初期問Larry Page,現在已經有了一個性能不錯的搜尋引擎,為什麼還要做一個? Larry Page解釋說,不是要開發新的搜尋引擎,我們要做的是人工智慧。 搜尋引擎是我們的主動意識與互聯網世界之間最重要的連接方式,並且在長期資料積累、存儲技術、雲服務、超級計算和機器學習等方面具有獨特優勢,或許它們將成為最接近人工智慧的互聯網應用。

從目前看來,谷歌創始人當初的願望實現了——谷歌成為了全世界在人工智慧方面最有建樹的互聯網公司。 國內搜索巨頭百度,也在上兩周的技術開放日詳細介紹了「大資料引擎」計畫,裡面提到資料採礦和機器學習等技術、大資料的具體應用、以及對未來趨勢的把握,同樣令人興奮。

一、腦機介面的雛形——搜尋引擎

腦機介面(Brain-Computer Interface,也稱腦機介面)主要研究我們如何通過思維與外部機器進行直接交互,通過建立一個將大腦與機器聯繫起來的統一準則,實現「用意念來控制機器」的終極夢想, 是人工智慧的重要技術支援。 電影《駭客帝國》和《阿凡達》中用意識來控制虛擬世界中「化身」;俄羅斯「Global Future 2045」預測科學家將于2020年通過腦機介面來實現用意識控制機器人; Ray Kurzweil認為30年後人類能夠將自己的意識上傳到電腦實現「數位永生」;這些終極人工智慧都是通過腦機介面來實現的。

那些夢幻版的目標還離我們太過遙遠,對於廣大互聯網使用者來說,離我們最近的腦機介面類應用就是搜尋引擎,腦機介面在本質上是為我們提供了一種主動意識與外部環境進行交互的方式,從意識的源頭——大腦出發, 與外界實現了最直接的聯繫和互動。 搜尋引擎與腦機介面的共同點主要體現在兩個方面。

1、意識向外界的主動連接

腦機介面將我們最初的意識動機——神經衝動傳遞給外界並獲得回饋。 而當我們使用搜尋引擎時,同樣是先產生意識,然後轉化成關鍵字輸入到搜尋引擎,後者通過搜索將我們的意識與外界資訊進行匹配,在多次反復調試後,為我們找到準確答案。 所以,搜尋引擎承載了我們主動聯繫外部世界的意願,通過有價值的回饋解決了我們提出的問題,充分體現了我們的意識主動性。

這可能也是搜索工具與其他互聯網服務的本質區別,我們在流覽網頁、觀看視頻或者查看社交工具時,都是處在一種被動的資訊接收者的地位,我們看到的內容其實全部取決於對方展示了什麼。 而使用搜索工具卻是一種主動行為,我們需要大腦思考和手動輸入,還需要根據得到的資訊進行調整,直到最終的搜尋結果符合我們的原始動機。 我們可以在不動腦筋的情況下使用其他互聯網服務,卻無法在不懂腦筋的情況下進行網路搜索,當我們將關鍵字輸入到搜索框這一行為發生時,就已經體現了我們的主動意識。 也正因如此,比起其他互聯網工具,搜尋引擎需要我們更多的「動腦」和「動手」,而這些相對繁瑣的操作其實就是我們的意識在行為中的轉化。

2、資訊傳輸和互動的過程

腦機介面以掌握大腦原理為基礎,在大腦和外部物件之間建立了統一的交互規則,使得大腦與外界完美對接,其最終目的還是為資訊傳輸提供一個最理想化的管道。 我們的神經系統也可以看成是一個通過生物電交流資訊的「電腦」結構。 相互連接神經元通過電信號交流,通過神經遞質傳遞資訊,構成了多層的、不同功能的神經回路和電子回路。 因此,電信號成為被大腦和外部智慧型機器所共同接受並進行交流的溝通介質。

對於搜索來說,關鍵字就充當了我們與搜索工具之間的這種溝通介質,借助關鍵字這個「編譯器」,我們實現了自我意識與搜尋引擎之間的交流,形成了一個意識產生、關鍵字轉化、搜索、資訊獲取、動機滿足的資訊閉環。

總之,搜索工具體現了我們的意識主動性,也為我們創造了與外界進行資訊交互的有效途徑,在這方面與腦機介面並無二致。 雖然它是在技術和效率上還與理想中的腦機介面存在巨大差距,但已經在為我們充當了智慧助手的角色。 所以,我們可以將目前廣泛使用的搜尋引擎看成是未來高級腦機介面的雛形或是初級狀態,換句話說,目前的搜尋引擎是目前最有希望進化成腦機介面、實現人工智慧的互聯網服務形態。

二、搜尋引擎向人工智慧演變的必要因素

與人機界面相似的搜尋引擎具備天然優勢,但如果想在機器學習和人工智慧的道路上走的更遠還需具備以下條件。

1、重視戰略資料而非「大資料」

如果把將要實現的人工智慧比作大腦的話,那互聯網就是人體頭部的血管,一個抵達各部位的網狀系統,而資料和資訊便是最重要的、能夠為大腦活動提供能量的血液,它們也是進行機器學習所必需的的輸入量和研究基礎。 百度「大資料引擎」結構中最底層的 「開放雲」服務就是在實現這個功能。

在資料獲取方面,不能漫無目的追求大而全的資料,因為大資料追求的「N=所有」的全樣本是無法實現的,同時大資料樣本非但不能解決樣本偏差問題,反而引發了大量的小資料問題。 搜尋引擎應該更加重視篩選過的、有價值的戰略資料。 例如,不久前的MIT大資料挑戰就是以波士頓交通為主題;谷歌的大資料功能是從預測流感開始;而百度的「大資料引擎」也首先選擇了醫療、交通和金融領域為大資料戰略的具體應用方向。 搜尋引擎在PC端已經有了足夠的積累,隨著手機和其他可穿戴智慧設備的爆發,搜尋引擎將獲得更多有戰略意義的、細分化和情景化的資料。 「百度遷徙」、「景點舒適度預測」和「城市旅遊預測」就是百度以細分化的戰略資料為切入點的成功案例。

2、搜尋引擎的資料採礦優勢

當資訊爆炸時代來臨,是否擁有資訊已經不再重要,重要的是如何能夠快速的找到所需資訊,而搜尋引擎在這方面有著天然優勢,也是解決資訊數量和資訊(有價值的)獲取效率之間矛盾的唯一途徑,而搜尋引擎的資料採礦將產生更加明顯的效果。 例如,在智力節目中擊敗人類的沃森就是因為「海量資料加搜索匹配」而產生了學習能力。

互聯網搜索的驚人效率與傳統的資訊搜索方式形成了鮮明對比,因此每個理性的人在獲取資訊時都會優先使用互聯網搜索工具,在享受搜索帶來的高效率時貢獻出個人資訊,促使搜索工具對我們更加瞭解,從而在下次為我們提供更有效率、更準確、 更個人化的搜索服務,隨著資訊獲取速度和準確率的提高,我們也將更加頻繁的使用搜索工具從而貢獻出更多的個人資料...... 這便形成了Jeff Bezos提出的那個「飛輪模型」,一個封閉的良性迴圈過程。

這個良性迴圈為搜索工具帶來了持續增長的使用者習慣和資料量,更重要的是當資料積累到一定程度,搜尋引擎將掌握足夠多的使用者個人標籤和行業標籤,在多維度的資訊整合後對使用者和行業形成準確定義, 從而通過自身的資料積累和挖掘為使用者和行業提供更加智慧的資訊服務。 而這個過程應該就是李彥宏在「大資料引擎」會議上提到的「技術變革的臨界點」,也是副總裁王勁口中那個「百度多年深厚技術積累的一次質變過程」。 定義個人的各種標籤是一個個標準的資料元,這個把所有使用者都貼上標準化的標籤進行統計分析的過程就是會上提到的「量化自我」。 而百度「大資料引擎」的相關負責人也提到除了搜索工具在PC端的積累,手機、可穿戴智慧設備的增長也加速了資料量的增長,這將貢獻可以「量化自我」的更多數位標籤。

因此,搜尋引擎在資料採礦方面的優勢不僅體現在自身演算法和計算能力,更是體現在對使用者資訊的量化分析和資料採礦,並以此基礎上提供的更加智慧的資訊服務。 值得一提的是,這些有價值的標籤只有經過長時間積累和長期使用者沉澱才能取得,就像人與人只有在長期交流溝通後才能深入瞭解對方,機器對使用者的瞭解也是建立在長期的、無數次交互的基礎之上,而對使用者的瞭解程度又決定了機器學習的核心演算法。 因此,已經在市場上佔據領導地位的搜尋引擎在這方面的優勢會較為明顯。

3、技術奇點的出現

在搜尋引擎收集戰略資料並進行資料採礦之後,接下來將是實現人工智慧的最後一個階段——機器深度學習。 搜尋引擎實現從傳統搜索到人工智慧的過渡,不僅是因為自身積累的資料量達到了質變的水準,還因為硬體存儲、雲計算、超級計算、類比神經網路等相關技術的成熟。

搜尋引擎可以憑藉自身的獨特優勢成為此次技術變革中的領導者,並且他們也已經開始了相關的準備工作。 谷歌很早就通過自主研發和收購的方式來彙集實現人工智慧的必要技術,包括利用1.6萬個處理器構建的類比人腦神經系統的且具備學習功能的Google Brain; 將收購的Deepmind的機器學習技術應用於聲音和文本搜索以更好的讀懂人類自然語言;將機器深度學習領軍人物Geoffrey Hinton招致麾下。 而百度也是國內第一家提出機器學習(百度大腦)和組建相關研究機構(IDL,百度深度學習研究院)的互聯網公司;提出「少帥計畫」招攬青年科學家;擁有了超越天河二號的超級計算能力; 組建起了世界上最大的擁有200億個參數的深度神經網路。 這些技術都將與搜尋引擎自身積累的資料優勢一起成為他們率先進入人工智慧領域的重要推動力。

4、正確的機器學習之路

在此前的文章《潛伏的強大暗流:終極智慧的群組進化路徑》中曾提過通往終極人工智慧有兩條道路,一是從理論研究出發,在完全掌握人類的智力原理後再通過技術進行複製;二是從基礎技術和具體應用出發, 結合人腦各階段的研究成果來得到相應水準的人工智慧,再通過漫長的技術進化提高智慧水準。

如果採取第一種途徑,在沒有完全弄清大腦原理之前,只對大腦結構進行類比是沒有任何實際意義的。 因此,這種方式不適合要向使用者持續提供服務的搜尋引擎公司。 加利福尼亞斯坦福大學的Andrew Ng完成了世界上最大的擁有110億神經連接的人工大腦,但谷歌大腦工程的兩位研究者指出這個神經網路電腦甚至都沒達到老鼠的智力水準。

長達十年且耗資數十億歐元的歐盟人腦計畫也沒有把目標定為完全掌握人腦原理並對其進行類比,而是一直在強調每個階段的研究成果都要付諸實踐,通過模仿部分人腦原理來創造出一些類人腦功能(Human-like)的智慧系統或應用。 而對於一直面向使用者的搜尋引擎來說更是如此,它們應該選擇第二種自下而上的、分散式的智力實現方式,每一次技術的智慧化革新都是從使用者的實際需求出發,每一次技術進步都代表著機器智慧的進一步發展。 谷歌在收購Deepmind之後明確表示不會首先將其應用在機器人部門,而是先從基礎的語義識別開始。 而百度也是將深度學習技術應用在了具體的使用者服務方面,比如說降低語音技術的相對錯誤率,提高中文語音辨識率、完善圖像識別能力、全球首個全網人臉搜尋引擎等。

上文提到,搜尋引擎構建了人與資訊的意識主動化的連接,而且使用者與搜尋引擎的每次交互都是一種相互瞭解、共同成長的過程。 與其他互聯網服務不同,使用者在使用搜尋引擎時也是在作為一個「開發者」參與其中,這也就是在百度「大資料引擎」開放日上北航校長講到的,「一種超越眾包的、融合電腦與人群」的軟體發展新思路。

5、基於人腦神經網路的機器學習

人腦與電腦最大的區別就在於它是一種雙向聯繫,可以不停地把新資訊回饋回去,加固已有東西,這就是我們的學習功能。 我們大腦的層級並非生而有之,與生俱來的是毫無關聯的模組,相互之間沒有形成任何模式,所有模組之間的連接和增強都是通過後天學習來實現的。

我們大腦的學習和推理能力符合貝葉斯數學原則,推理是基於由經驗而來的概率,我們在遇到新情況時,總是要追溯自己的已有記憶和經驗,然後再根據新情況進行調整,最後得出一個概率相對較高的應對策略, 所以我們才學會了如何應對這個或然的世界。 我們在執行「貝葉斯原則」進行學習時,首先將遇到的新情況在此前的記憶和經驗庫中進行搜索和匹配,找到成功概率較高的決策付諸實踐,然後再根據現實回饋進行調整,再重複上述過程,直到找到最佳方案。 經過這樣一次次的貝葉斯行動,我們構成了特定的自我,也形成了那種重要的學習能力。

而目前先進的電腦技術可以使貝葉斯計算方法能夠更加有效地執行,《最有人性的「人」》作者克利斯蒂安認為電腦將一改非1即0、非真即假的科學邏輯,能夠理解和使用貝葉斯概率推理。 在認識到人腦的學習原理之後,借助數位化「神經網路」來類比大腦並獨立的收集和回饋資訊已經成為深度學習領域的一個突破性進展,例如,機器人專家Hod Lipson研發出的機器人在觀察和觸摸鐘擺一整天之後,通過學習推算出了F=ma ,而人類花費了幾千年才得出這個公式。

而搜尋引擎的那種「關鍵字輸入、資料庫搜索、資訊匹配、多次調整、返回結果」不恰恰也是完全符合貝葉斯學習原則嗎?所以,我們有理由相信,搜尋引擎通過構建類比神經網路已經可以獲得人類一定程度上的學習能力,例如,目前「百度大腦」 已經達到2歲兒童的智力水準。 美國兒科學會的《育兒百科》中將兒童稱為「恐怖的2歲」,他的詞彙量開始豐富;能夠在心裡想像出事物、行為和概念的圖像;他開始理解物體之間的關係;他開始將不同的活動串聯在一起形成一個邏輯關係;當他意識到社會希望他遵循某些規則後 ,他會開始培養起一定程度的自控能力。 雖然「百度大腦」可能無法與這些智力表現形式一一匹配,但我們還是從中感覺出機器智慧的巨大進步。

6、更加開放的搜尋引擎平臺

對於機器學習和人工智慧這類研究週期長、學科跨度大的研究課題,必須保持開放的心態和積極合作的意願。 歐盟人腦計畫就一直在強調開放式平臺的建立、開發介面的開放和多學科的融合等等。 對於搜尋引擎來說,開放一直是其獨特優勢,其幾乎可以覆蓋所有的使用者和行業。 但機器學習和人工智慧這個長期目標還需要搜尋引擎保持持續開放,我們也可以從百度的「大資料引擎」戰略中看出其對開放和合作的重視程度,它將大資料存儲、分析和智慧化處理等一整套核心能力通過平臺化、介面化的方式對外開放, 以吸引更多的合作方;與北京航空航太大學共同進行科學研究;與交通、金融、醫療行業的深度合作等。 平臺的開放不僅可以使現有的機器學習功能發揮更加廣泛的價值,還能通過更多的應用和外部資源的引入來對現有的機器學習模型進行驗證和完善。

三、搜尋引擎過渡到人工智慧的憂慮

1、個人資料隱私

我們可以對實驗室中的人工智慧漠不關心,因為無論它的研究進展到何種程度,都不會與我們產生直接關係。 但我們對每天都在使用的搜尋引擎智慧化的態度則完全不同,搜尋引擎人工智慧化的動因是我們與其之間進行的無數次交互,我們對其智慧化的定義是它能更快、更準確的幫我們找到所需資訊,它之所以如此智慧是因為更加瞭解我們的需求, 而它對我們的瞭解是基於我們給它提供的個人資訊越來越多,這當然就意味著我們的隱私越來越少。

搜尋引擎知道我們的出行路線、地理位置、工作資訊、日常行為模式和交際圈子,它比任何保險公司或銀行都瞭解我們的風險狀況,隨著可穿戴智慧設備的興起,它也可能比醫生更瞭解我們自身的身體狀況。 或者說,搜尋引擎將變得比我們自己更瞭解自己。

這是資訊時代獨特的背景,對於效率的追求使我們不可避免的享受互聯網搜尋引擎等服務帶給我們的資訊服務,同時也不可避免的享受個人資訊外泄的苦惱。 我們觀察到越來越智慧化和人性化的資訊服務帶來的世界的改變,帶給我們效率的提升,卻忽視了隨著我們個人資訊的越發公開,我們的一舉一動正在被人察覺。 搜尋引擎的機器學習勢必需要越來越多的使用者資訊,這與我們的隱私權存在本質上的衝突。 或許,我們已經意識到這一點,但在效率面前對此無能為力。

2、我們把記憶交給了搜尋引擎

《淺薄》裡提到,互聯網正在塑造著我們的大腦,無時無刻不在改變著我們,而搜尋引擎則首當其衝搶佔了我們的記憶。 幾千年來,人類都依賴彼此記憶日常生活的細枝末節。 現在,我們依賴的是電子設備和「雲」,它們正在改變我們感知和記憶周圍世界的方式。 互聯網不僅可能取代了「他人」這種外援式的記憶資源,也取代了我們本身的認知官能。 互聯網不僅消除了我們與同伴分享資訊的需要,也瓦解了將即時習得的重要資訊,存儲進生物式記憶系統的衝動。 這就是所謂的「搜尋引擎效應」。

如果把我們的記憶看做資料庫,我們的每次記憶存儲是為了將來在某個時刻得到所需要的資訊,我們的每次回憶也是在這個資料庫進行一次搜索。 試想一下,如果更加智慧的搜尋引擎對我們瞭若指掌,當我們通過互聯網搜索資訊的速度比從大腦的記憶中搜索更快、更準確時,我們當然會毫不猶豫的選擇前者,全然在乎這部分「記憶」是存在於外部的互聯網,還是存在於自己的大腦中。

對於這種結果的優劣依然也存在爭論,一種觀點認為,我們將一部分記憶分攤給搜尋引擎之後,他們開始認為比以往任何人都懂得多;但事實上,對搜尋引擎的依賴恰恰說明他們對周圍世界的認識少之又少,我們完全將谷歌演算法的產物當做了自己「 知道」的東西。 而另一種對立觀點則認為,在我們成為「互聯腦」(Inter-mind)一員的同時,會發展出一種不再依賴我們大腦中本地記憶的新型智力。 當我們從記憶日常事實的需求中解放,就可以利用空余出來的這部分腦力資源,去實現個人的雄心。 這種進化之中的「互聯腦」,或許可以將人類個體的創造力與互聯網上豐沛的知識結合在一起,使我們有能力突破一些自己製造的困境。

3、終極智力的移交

雖然意識之謎仍然未解,但至少我們已經知道,我們的意識和思考源于我們的神經連接,在神經元之間進行傳遞的神經遞質所攜帶的資訊構成了我們自身,就像Sebastian Seung所說「我是我的連接體」。 神經科學的出現正在抹殺「靈魂」,在任何一個人中並不存在一個所謂的真正自我,我們所擁有的只有自己的大腦,這意味著我們只是大腦在特定時間中所呈現的狀態而已,而這種狀態完全可以通過資訊來體現。 當然,我們也可以像Hinton一樣把大腦的神經網路看作一個運行在多層面上的軟體。 或者說,我們的神經活動在本質上也是一種資訊傳輸和計算。 《駭客帝國》中有段臺詞對此做了最為精闢的概括:「什麼是真實?該怎麼定義?如果真實指的是觸覺、嗅覺、味覺和視覺等,這些其實都是大腦接受的信號和資訊。 」

當體現我們意識的各種互聯網行為被搜尋引擎量化、統計和重新組合時,這是否就意味著他們可以從中掌握那些原本屬於我們自身的智力?它們通過機器學習類比出我們的智力,再結合它們生來就優於人類的強大功能, 甚至可以解答出人類自身永遠無法企及的難題。 百度的「大資料引擎」除了提到大資料和機器學習在許多重點行業的應用,還提到可以「利用機器學習重新認識外部世界,發現我們沒有發現過的自然規律」。 如果這種情況出現,我們人類最偉大的職業哲學家、科學家和演出者可能都要讓位於搜尋引擎了。

搜尋引擎通過機器學習掌握人類智力雖然不是此消彼長的掠奪,但可能會是一次關於控制權的移交。 我們從自然進化過渡到技術進化,科技帶來超人類主義。 搜尋引擎等互聯網服務讓我們變為了Cyborg(電子人),而其進化的方向——人工智慧則模糊了人腦與機器間的界限,我們可以借此超越人類自身的認知極限,但這種改變並不意味著我們從此陷入失去自我的危機,相反, 我們是與逐步走向智慧的搜尋引擎建立起了強大的史無前例的聯繫——我們只是將自我融入了一個更偉大的事物之中。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.