0509·刘未鹏的TopLanguage聚会[一]
鄭昀@玩聚SR?
北京。五道口。
星期六。己丑年四月十五。氣溫適宜外出活動。
@pongba?前不久離開了南大,受邀微軟來到北京。繼上月他與李笑來會師(江湖曾流傳一句話:自從讀了李笑來, 我就不寫人生感悟了; 自從讀了劉未鵬, 我就不寫學習方法和思維方法)后,他又召集了TopLanguage小組聚會。
本次與會技術人7個(按出場順序排列):
- @pongba?Blog:http://mindhacks.cn?微軟亞洲研究院
- 王樂珩 Blog:http://joyfire.spaces.live.com?中科院計算所
- @googollee?Blog:http://googollee.blog.163.com/?Nthcode
- @zhengyun?Blog:http://blog.csdn.net/zhengyun_ustc/?玩聚網
- @tinyfool?Blog:?http://www.tinydust.net/dev?銀杏泰克
- 張沈鵬 Blog:http://zsp.javaeye.com/?豆瓣
- 孫勇?http://blogs.sun.com/yongsun/?Sun
?
旁的不敘。咱們表一表與會的閑談話題。眾所周知,人(即節點)一多,每個人的交互(即連接)也多,很難整理出一個可閱讀的話題脈絡。以下文字基本上來自每個人的口頭表達,我盡量加工組合,先優選兩個話題拋磚引玉。
1、人工智能和進化
可能是 TL 上?Self-replicating_machine?話題的線下延續。
當來自于生物信息課題組的 joyfire 介紹研究方向是“基因組信息結構的復雜性及遺傳語言的根本規律”時,大家便開始邊跑題邊激蕩腦力。
DNA就是字符串
首先感慨DNA之設計精良,假如上帝是一個程序員的話,視每個DNA為一個四個元素的字符串數組,用區區幾十MB的代碼量,便控制了人的一切生長和行為,堪稱偉大的程序員。
附注:單鏈DNA可以看作是由符合A、G、C、T組成的字符串。我們簡化為就是字符串搜索和匹配,那么可以近似認為基因測序或測定就像搜索引擎一樣是對字符串的操作。相應的應用就是SARS基因序列的測定,以及測定三聚氰胺的質譜儀(這又延伸出另外一個話題:破壞性創新,按下不表)。
圍繞著如此精良的編程功底是如何形成的,于是話題過度到了“進化”。
模擬進化
大家執著于討論:
存不存在可能,模擬一個算法,構建一個環境,把一段代表生命(僅僅是代表草履蟲一樣的早期生命體)的代碼放進去,通過模擬基因變異、適者生存的達爾文法則,通過高速并發計算,最終得到進化到一定程度的高級生命體?
zsp 認為算法有可能跑,但由于模擬的維度是人設計的,必定遠遠少于真實的世界,由于量變才能引起質變,過少的變異維度和環境維度難以,所以核心問題還在于“特征”如何抽取。
一般來說,人類具有抽象能力,能夠通過各種方法論找到一個事物或事務的“特征”,并把“特征”告訴機器,機器計算能力強,執行即可。在這個層面上,自我復制的機器人實際上并不難造,畢竟“特征”都是可以固化的。
但如果機器無法具有抽象能力,無法自動找到讓進化延續下去的外部或內部“特征”,那么“進化”又能到什么階段呢?
進化結果的評價
當然,這里的“進化”終極結果并不是出現像人類這樣的智能生物,只要是符合邏輯的、可延續下去的生物即可。因為你在某一個時間點并不能用好還是壞來評價某一個演進中的生命體,比如恐龍,某個時間段你可能認為它們是最優秀的生命體,但不久后它們全部被隨機產生的外部環境變化毀滅了,那么它是好的還是壞的“進化”?比如人類,現在看我們是最優秀的智能生物,但假如不久后我們通過戰爭自我毀滅,或者被地外生物毀滅,那么我們這個演進路線是對還是錯?
所以,這個程序主要考察生命體是否能不斷進化,最終產生智能。
當然,大家會談到《孢子》游戲。它的進化邏輯有點簡單,但仍然是一個非常優秀的、融合了即時戰略和進化的游戲。
大腦:連接、節點、地址
@tinyfool?提到,以前人們都認為大腦是按功能區劃分的,彼此不可替代。但后來通過試驗發現,大腦的功能區可以轉移,可以“重建”。用大白話說,就是摧毀了左腦某些組織后,本以為相應所負載的功能(如運動、語言功能)會喪失,但隨著時間推移,大腦能迅速在右腦區域重新建造這些功能。
@tinyfool?提到,網絡最開始也是一個看上去很呆滯的方案,最開始只是每一個主機提供靜態網頁,后來出現的HTTP協議也是看上去不美,但神奇的事情發生了。由于只定了三個元素:
- 節點
- 連接
- 地址
最開始也平淡無奇,但隨著進化,每個節點自己慢慢地擁有了自己的智能,如動態網頁等等,通過地址找到節點,節點互相之間建立了連接,節點有智能,于是互聯網便無所不能,本身就是一個擁有海量信息的、具有足夠智能的生物體。
這和大腦的機制,似乎有一些有趣的共性。
先驗知識或本能
大腦的功能重建,以及程序自進化算法,joyfire 都認為,存在一個大問題,就是“先驗知識”。
人或動物擁有很多先驗知識,這些知識是在一代一代進化中固化在基因中的。比如燙了就縮手,比如本能不喜歡苦的味道。
程序如何模擬這些東西呢?
或者說,大腦重建功能區時,如何恢復這些“先驗知識”,假如這些東西是存儲在某一個固定區域的話。
一方認為,先驗知識可以模擬,比如存在多個變異,每個變異者的基因中就攜帶了該變異,如果進化過程中其他變異者毀滅,那么生存下來的變異者就自然攜帶這個變異傳遞下去,這就解釋了“先驗知識”從哪里來的問題。當然,這只是一個理想狀態的描述。因為它沒有涉及哪些變異會固化到基因中。比如一個天生少了一條腿的小狗,在繁衍時,也不會把這個變異傳遞下去,也就是某些變異是不會遺傳的,那么誰來做出判斷要不要遺傳?
對于機器來說,“先驗知識”有點兒像“特征”一樣難以琢磨,原因如前所述,機器很難判斷哪些是應該固化的,用“進化論”還是解釋不了這個問題。
這樣,我們又繞回到“特征”抽取問題。
2、破壞性創新
前述 joyfire 的測定三聚氰胺的質譜儀,延伸出另外一個話題:大學教育、破壞性創新和國內環境。
大家應該經??吹竭@樣一種現象,我們的研究機構或者公司,本來憑著中國人的聰明才智,在某一個研究領域幾乎已經逼近或超過國際一流水平,此時大家心中暗喜,但隨著國外某一個實驗組或小公司的一個破壞性創新,導致以前的科研成果又被摧毀被甩出老遠,人家繼續領跑,當然是換了一幫人領的。
問題就在這里。
照理說,破壞性創新(后簡稱“破創”)基本上是此起彼伏,在全球范圍內。
但,事實上中國大陸很難出現破壞性創新。
舉個最簡單的例子,當我們的門戶模式稱雄時,SNS橫空出世。當我們的名人博客每天吸引了數十億點擊時,Twitter橫空出世。
joyfire 說,在生物信息領域,當我們迅速逼近、趕超他們時,突然他們出現跨越式成長,“跳”了起來,而我們不會“跳”。
一方歸結為,中國不是不投錢,但投錢投的區域總是很窄,無法產生鏈條聯動效應,總是受困于上一步或下一步。
假設說,國家重點發展的基因測序需要幾微米的試管,我們生產不了,只能買國外的,那么假定這是精密儀器問題。
okay,精密儀器領域,國內也有地方大力鼓勵。
但同樣的工藝和生產線,就是無法達到國外的水平,比如前面說的試管,要求內徑不能忽粗忽細,誤差不得大于某某數值,但國內生產就是無法達標。于是,沒有下家買單,下家還得去國外訂購,訂購不到,下家的科研任務就無法做。于是,精密儀器廠家紛紛倒閉。于是,惡性循環。這有點像我們的大飛機這么多年的歷史。
修改歷史:
0509 23:00
@tinyfool?補充道:“
大概意思是這樣的,就是說以前我們認為大腦各個功能區域,功能涇渭分明,但是現在很多實驗證明,如果某個功能區域被切割下去,大腦的其他區域就有可能接管這些功能(雖然按照過去的認識,他們是完全沒有關系的。另外物理上,也需要一些刺激以及大腦的有足夠的活性和細胞再生能力)。這就很讓人振奮,就是說大腦的所有功能區域都是相等的,可以動態的部署。?
一般認為智能來自有那些神經元細胞之間的連接,比如聽懂語言的能力,就是一系列神經元的連接實現的。如果這些細胞和連接都被切除了,但是如果外界聲音對大腦的刺激沒有消失,原來跟這個能力完全沒有關系的神經元可能會被激發,產生聯系,然后對這些刺激進行處理,最終實現聽懂語言能力的恢復?!?/p>
?
0510 0:04
joyfire 補充道:“
當時說的時候,大概是這個意思,人體是如此復雜高效的一個復雜系統,然而全部的設計藍圖,或者源代碼,其實就全部存儲在很少的DNA字符串里。(而且?
DNA里面其實只有5%被翻譯,其余的可能都是進化痕跡,都可以看作被注釋掉的歷史代碼)上帝作為程序員,效率真的很高。
再往前,說這句話的意思,是為了說明,我們現有的軟硬件結構,離自然界的上限還很遠呢。無論是硬件存儲和檢索能力,還是軟件的編碼效率。
這句話之后,大家議論說,DNA是一種動態語言,可以反過來被它編譯出的exe——蛋白質影響。其中的保守部分,比如每個人都只有一個鼻子,兩個鼻孔,?
容錯性很高,不會隨便就變異掉。但是另外一方面,代碼又有很強的靈活性:每個人又有大量的不同點,以利于多樣性和進化?!??
參考資源:
0424 笑來、pongba會師:
1:素描
“
??????余晟?劉未鵬
霍炬????????????????李笑來
西喬
????? 我?胖兔子粥粥
”
0509 TL聚會:
1:TL聚會,遭遇若干大牛:
“神侃內容:從互聯網廣告的商業模式開始,到電子商務的信譽體系和物流體系;到語義網絡技術、信源挖掘推薦和評價;到人工智能、基因進化和大腦神經機制;到豆瓣應完善的若干features需求;到北京美食和若干"駐京辦"位置;到房價和經濟危機;到國有壟斷行業和IT創業;最后到各自工作中正在面對的算法和工程難題?!?/p>
2:IP、IC、IQ卡,通通告訴我密碼:
“這就又回到昨天TL聚會討論的內容,智能的本質,到底是“超大存儲+超快檢索”(換句話說,足夠多的先驗知識),還是另一種計算模型呢?”
總結
以上是生活随笔為你收集整理的0509·刘未鹏的TopLanguage聚会[一]的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 不买房做什么都是不务正业
- 下一篇: Flask框架学习(二)