微信号:bigdatalab

介绍:宽客俱乐部旗下美国大数据实验室,大数据研究应用.

王俊:生命大数据使人掌控生命

2016-04-27 09:01 大数据实验室


今天,第二届网易未来科技峰会在北京悠唐皇冠假日酒店隆重举行。在上午主论坛的演讲环节,华大基因董事合伙人、碳元科技创始人王俊发表了题为“基因与人工智能”的演讲。

王俊认为,每个个体都是一个运行的生命程序(基因组),它们的功能模块(基因)一脉相承。基因一直在变化,可以被读出来,也可以被拷贝,甚至还能被编写,但生命的公式从未被真正理解。科学研究让我们知道了一些有关生命的皮毛知识,比如人类、种群、个体历史等,我们发现和控制了一些单基因遗传疾病,知道了一些传染源,也出现了一些曙光——肿瘤的个体化治疗。但我们离理解健康还很遥远,更不用说理解生命。

王俊认为,生命大数据的构筑将会使我们了解生命、掌控生命。通过收集基因数据,结合基因和锻炼、饮食、传感器、环境、物联网等数据,我们将能快速认识生命和健康,认识人类自身。而在这个未来,人工智能、深度学习等技术将成为关键。

“世界在同时运行70亿个生命程序,生命在不断试错中前行,基因的连接将让我们对生命不再迷惘。”王俊说,基因与人工智能可能是未来20年最大的机遇。

以下是王俊的发言实录:

王俊:感谢主持人!我们即将成立的企业叫碳元科技。最近很多人都很奇怪我16年前创立了华大基因之后,为什么在这样的一个时候选择离开华大基因CEO的位置,去做一个完完全全前瞻性的事情。今天借这个机会描述一下它背后的科学逻辑,为什么可以这么做,为什么在华大基因走向正轨的时候选择这样一个更加前瞻性的,未来可以影响到人类和健康的更根本性、更前瞻性的事业。

生命的本质是以碳为基础的,元是本元,就是生命本身的源头。如果你用计算机的语言来讲它是一种碳机的智能,计算机是一种以硅为基础的智能。碳机本身的智能实际上是一直在变化的,如果我们思考生命本身是一个程序的话,每一个个体都是一个运行的不同的生命程序,他们的功能模块基因互相之间是一脉相承的。

如果我们看到大千世界的每一个物种实际上都有一个生命程序,不同的生命程序随着它生存环境的不同都在变化,也就是说,这一套生命科学的程序就是每一个个体所产生的程序,是他对应于他所适应的生存环境的一套生存策略,而这个策略不断的在改变,每一个人不一样,每一个物种也不一样。

跟计算机一样的是这套程序是可以被读出来的,16年前华大基因的成立就是为了解读第一个人类基因组的全部的基因图谱。而这种基因图谱可以被解读出来意味着什么,它意味着生命的天书每一个人的生命天书,可以以数字化的形式展现在计算机里面,因为DNA是全世界现在最高效的一种信息化的载体。

这种载体具备很多计算机的特征,比如说DNA是可以被拷贝克隆是一个最简单的拷贝器,我们可以将一个DNA完全拷贝和复制到另外一个DNA上。而且它可以编写,你可以对基因本身的程序进行修改,甚至可以被合成,所谓合成生命学和合成生命意思是可以用计算机编一个代码,在实际情况下把一个细节做出来可以尝试更多的生物学的项目。

在这一套生命程序,计算机程序可以读出来、写出来,甚至可以编辑,重新可以在计算机上编写这样一套生命程序,但是到现在为止尽管我们可以用非常高效的方式解读每一个人的生命程序,但是对于生命、对于健康从来没有被真正理解过。这个生命的公式从基因到你最后所显示出来的生命状态,之间的生物学的第一定律,生命的公式从来没有被真正的解读过。

当然科学界已经做了非常多的尝试,最简单的一个尝试就是我们在几年前做的一个科学研究,去解读为什么藏族人在高山上能够比汉族人更加适应高原,因为在他的基因里有一个基因突变。所以科学研究让我们知道了很多的皮毛,这些皮毛把一些基因和它的对应的一些结果相对应起来。而且基因的进一步的发展,每一个人的基因可以让我们了解一些现状,比如说人类的迁徙史、种群的迁徙史。不仅知道爸妈是谁,而且知道500年前你跟谁是一家,1000年前你是谁。70%的中国人6000年前只来自于3个汉族男人。全世界所有的男人都往前追溯的时候,15万年前实际上是一个男人,所有的这些都蕴藏在你的基因里,因为每一代基因的变化都是可以追溯的。

基因的研究让我们发现可以控制很多疾病,比如说我们现在看到的地中海贫血,比如我们看到的很多先天性的缺陷,包括白化病,包括我们看到的各种各样你能够看到的缺陷。所有的这些非常稀有的疾病,在整个人群比例中并不稀有,这样七七八八的疾病会逐渐的被基因和疾病之间的关系再被解读。同时我们还知道了一些传染源,比如说一个孩子面临着发烧,你可以通过对他的血液进行测序,可以知道哪些微生物或者病毒感染的导致他发烧。这些都还不足以表明基因本身的潜力,比如说现在最热门的一个行业是基因可以用来做肿瘤的治疗,因为中来实际上是一种疾病的疾病在不同的环境下他的基因变化所引发的一种疾病。而这样的基因体细胞突变,因为个体不一样,所以个体化的治疗方案和检测是不一样的。所谓精准医疗就是针对每一个人本身的状况去对他进行精准的诊断和精准的治疗。

尽管基因科技有非常多的发展,尽管基因可能是现在投资领域最热门的一个行业,而且很多很多人都在做基因,但其实我们理解健康、理解基因、理解生命还差得很远。举个例子,这张图谱非常震撼,基本每一条染色体,每一个基因都有很多很多的区分,跟各种各样的复杂性有关系。

以二型糖尿病为例,中国二型糖尿病发生率是11%,从二型糖尿病来看有40个跟糖尿病相关的基因动点,但我们只解决了6%,还有96%基因的遗传性对于二型糖尿病是没有被完全认知的。更不要讲它所身受的微环境和大环境,如果我们知道30年前中国的糖尿病发生率只有0.67%,而现在已经是11%,30年的基因不可能有大的改变,什么变了?你的饮食变了,生活环境变了,生活方式变了。换句话来讲,有可能这些变化引发了你的肠道微生物的变化,肠道微生物你是体内最重要的一种外环境。像这样的东西都会引发各种各样的争议,我自己也把自己的基因测过很多次,用不同的手段。从我的基因图谱里可以知道什么?从我的基因图谱里发现了一个痛风基因的携带,痛风基因的携带,每天感觉一下我的关节会不会疼痛,吃海鲜、喝啤酒的时候都要想一下我有痛风基因的携带。更可怕的是自己在没有任何症状的情况下,尿酸的水平是高的。我自己经过基因的解读,发现我自己本身的尿酸代谢是有些缺陷的,尿酸代谢的缺陷可以通过什么去弥补,找来找去找到了一种茶,牛蒡茶,这种茶我天天喝,喝了以后是不是这样的一种茶可以帮助我体内的微生物去弥补本身的尿酸代谢的缺陷,这样在3个月之后我的尿酸的水平恢复了正常的水平。基因检测真的能给你带来这样的东西吗?我又看到另外一个更可怕的基因现象。因为我不是学医的,我Google、百度一顿查,发现这个病的死亡率非常高。发现原来中国人有一半人有基因突变,而基因解读的结果是基于一个很小的人群,并不是在整过中国人群的一个基础上来做的。

反过来讲,在中国人群特异的遗传背景的情况下,这个基因突变可能和原发性的肝硬化的比例会有关系。我告诉你,当你简单的做基因检测的时候并不能够真正的影响和预测你未来的健康,天书难解,唯一解读的方法是互换更全面的数据。所以碳元科技想要做的一件事情是构建生命科学的大数据,而我们非常需要这样的大数据。生命科学由以前的观察性科学、实验科学逐步的变成了理论化的科学,生命科学第一次用计算机、用数学化的方法来研究和拓展。

如果我们来看基因,基因其实只是一个基线,在基因水平上不同的条件情况下会有不同的反应,这个基因不会告诉你去不去登山,但是会告诉你登山以后你的身体有什么反应,而且会告诉你不断的训练马拉松以后,你会训练到什么水平的马拉松的成绩。所以从基因单纯的角度来讲,作为构建生命数据的基础,仅仅是一个基础的基线,你需要更多的基因的表达数据,基因的表达结构数据,所处的环境数据,包括肠道微生物,甚至包括社交的数据,甚至包括传感器的数据,包括各种各样你所能收集到的生命科学和生命体征的数据。这样的数据量能够达到百万级别、千万级别,海量数据的输入和输出将会成为未来健康产业的引擎。

这种百基因学,所有的各种水平参差的组学计划将会构筑精准医疗、精准健康、精准营养。每一个人现在测定一个基因图谱一万块钱人民币,但我认为在现在的互联网的情况下,每一个人检测自己的基因应该免费。在免费的基础之上,有一个非常重要的假设,就是在大量的数据积累之后,所有数据所能产生的价值将远远超过它产生这个数据所需要的成本。这样的时间有多快到来?这样的时间马上就会到来。

有了你的了基因之后,你可以加上各种各样的东西,你可以加上你的生活习惯,加上你的管理的数据,加上你的饮食的数据,加上你的传感器的数据,加上你的环境的数据,包括PM2.5,是不是抽烟,肠道微生物怎么样等等。如果利用未来有可能智能化的互联网、物联网,所有的东西都是聪明的,聪明的床、聪明的车、聪明的厕所、聪明的房子、聪明的城市,让收集到的生命体征的各种各样数据,联合你的基因和基因表达和分子水平的各种各样的数据,就会重新促进人们对生命和健康的认识。有那么大海量的数据,人的大脑本身也许并不能够足够认识生命自身,我们需要什么?我们也许需要计算机的帮助。IBM做了一个尝试,他想用大型的基础数据做一个人工智能的系统替代大夫做肺癌诊断,最近有非常长足的进展。

大的计算量本身在中国现在也不应该是一个问题,除此之外当然还有人工智能的算法和引擎。有了这三个最核心的东西,也许人工智能和机械学习本身能够真正的重新书写生命的工序。小米小米是我们的主食,我们做了5000株基因和各种各样的数据,在这些基础上构建人工智能模型,预测的准确率超过50%。小米只是一个在控制环境下生长的作物,人所处的环境要复杂得多,人的行为要复杂得多,但是在大量的数据基础之上,也许我们能够再造生命健康的水晶求。未来也许我们需要一个大白,需要一个健康管理的大白,大白能够管理你的健康。如果我们的程序的设定,对每个人来讲,对人,一个物种来讲,程序本身的缺陷会形成遗传病,程序本身的变异会变成肿瘤,我能不能早点知道,早点防。程序的运行如果不在一个正常的状态,或者不在一个最佳的状态,就会形成各种各样的慢性病,我能不能预防掌控它。在这个健康大白的基础上都可以控制。肿瘤的发生可以控制,基因和锻链是可以被精准预制的预知?实行可以改变肠道微生物。在所有认知基础上的修改和再造都重新会会自己个人的健康。

我们先谈的是每一个人的基因和健康,如果把每一个人都连接起来,15万年前所有的男人共享一个祖先,10万年前所有女人都有一个共同的祖先。我们本身是连接在一起的,想象一下从超级计算机到个人电脑,最后再到互联网,我们把它想象成基因,第一个个人基因,第一个人类基因组,每一个人基因组,把基因组连起来,它会带来什么,不仅仅是为自己,也是为全人类。基因本身是人和人之间最简单的最天然的连接,走失儿童将不会再存在任何问题,因为每一个基因都放在那,可以很容易的找到。每一个骨髓配型,基因放在那儿,骨髓配型将会是非常容易的事儿。病人将会对未来的医疗有更大的参与感,因为所有的这些病人他们的基因,他们的病例表,他们的生命数据特征,也许在某种情况下他们是一致的,而这些都会促使他们对疾病有新的认知。

当然以后可以配备基因,或者其实我们再看一下自己每个人本身,全球有70亿作为人的,生命,每一程序都是在试错,因为每一个程序都不一样。人类其实在试错的过程当中不断的修正和不断的往前演化,而我们自己本身的连接就会让我们在试错的过程当中很多东西会清晰化,因为每一个人都是特别的,我们都是生命程序本身的超级英雄。某种意义上来讲,其中一个基因在这个人的个体里面是一个疾病基因,可能在另外一个人的个体里面它是没有关系的,而那个人也许就能帮助这个疾病的个体。所有的基因连接起来它会寻找到那个特殊的超级英雄,它会形成新的疾病的治疗策略。

自然是以山清水秀为美,人以健康长寿为福,它将是最大的产业机会,当我们有了所有的健康数据,以互联网的方式联系起来以后,生命大数据和人工智能将如何给我们带来更加健康的新的生活,我想也许是未来10年、20年全球范围内最大的产业,因为它是在研究人本身的健康和每一,个人切身相关的关系。所以,某种意义上来说我们人生下面的10年、20年,希望通过我们的小伙伴和我们的整个团队来攻克这样一个难题,或者给这样一个问题带来一些有可能往前推进的线索,这个问题就是什么是真理。


(来源:网易科技





理论实战名师荟萃,知识技能证书校友面面俱到

量化投资专业人士不可错过!!

中国人民大学量化对冲高级研修班·精读模块招生简章


全面深入了解量化对冲策略与技术
掌握实战量化思想及交易策略
掌握包括量化投资在内的资产管理实务
赠送经典策略、分析文档、分析工具源码
结识学术专家及业界精英
加入老师、同学量化社交圈,持续助力个人发展
中国人民大学结业证书


开班时间:2016年5月9日---5月13日

学习时间5天,费用:14800元


报名咨询手机/微信:13061694649



 
大数据实验室 更多文章 用户画像数据建模方法 李光斗:警方是如何利用大数据抓到王全安的 降楼价,新加坡居然靠的是无人驾驶! 小数法则和经验主义 什么性格的人适合 Quant 这个职位?能否描述一下 Quant 一天的生活是怎样的?
猜您喜欢 【研发管理】我与鸟哥 Yar 的亲密接触 聊聊 StackOverflow 的标签引擎(上) 和我一起实战React 分享回顾│【Love Data大数据夜修行】闵军:互联网大数据平台建设 人人都看得懂的正则表达式教程