微信号:bigdatalab

介绍:宽客俱乐部旗下美国大数据实验室,大数据研究应用.

比“生物界AlphaGo”更厉害,MIT:给我一个氨基酸序列,就能告诉你蛋白质功能

2019-04-10 06:38 大数据实验室

DeepMind去年公布了生物学界的AlphaGo——AlphaFold,只要知道蛋白质的氨基酸序列,就可以预测蛋白质分子的三维折叠结构。

AlphaFold预测蛋白质结构

现在MIT把AI的预测能力又推进了一步,直接通过氨基酸序列预测蛋白质分子的生物学功能,跳过AlphaFold预测蛋白质立体结构的步骤。

他们的论文《Learning protein sequence embeddings using information from structure》将在今年5月的ICLR学术会议上公布。

如何预测蛋白质功能

研究人员先让模型学习一些特定蛋白质的功能,将蛋白质结构编码成表示,用不同蛋白质结构相似性来监督模型。

他们根据蛋白质结构分类数据库(SCOP),对数千各类别、大约22,000种蛋白质进行模型训练。然后,将蛋白质结构与氨基酸序列编码成嵌入(embedding)这种数字表示,随机组对送入模型中。

这种嵌入与NLP中的上下文表示类似,两种嵌入越相似,单词出现在同一个句子中的概率就越大。

像单词对语义的影响一样,氨基酸是蛋白质的“单词”,蛋白质就是整个“句子”,嵌入包含着每个氨基酸序列与另一个氨基酸序列的相似性信息,机器学习模型可以根据嵌入预测每个氨基酸对整个蛋白质功能的影响。

而且该模型还能预测蛋白质的接触图(contact map),即每个氨基酸与其他氨基酸之间的距离,与来自SCOP已知的接触图进行比较。

源码T02】


高胜率-股票、期货全市场交易系统

<QM_PreBreakATR>交易系统



长按二维码识别咨询回复关键词“T02





这有助于模型更好地了解氨基酸在蛋白质结构中的确切位置,从而进一步预测每种氨基酸对功能的影响。

总的来说,对于某个氨基酸序列,该模型将为3D结构中的每个氨基酸位置产生一个嵌入表示。机器学习模型根据这些嵌入,基于接触图准确预测每个氨基酸的功能。

研究人员使用该模型预测哪些蛋白质可以通过细胞膜,所得结果的准确性已经超过之前最先进的模型。

用于药物研发和基因治疗

蛋白质是氨基酸通过肽键组成的线性链,却能折叠成极其复杂的三维结构,其具体的结构取决于氨基酸序列和它们之间的物理相互作用。而这种结构又决定了蛋白质的生物学功能。

尽管人类已经研究了几十年蛋白质,发明了很多探测手段,但是真正能准确测量出结构的蛋白质只有很小一部分,已经的几百万种蛋白质中,我们只知道其中几万个的结构,研究每个结构都需要花费数万美元。

过去我们需要知道蛋白质的结构才能研究它的功能,MIT希望利用这项技术让预测蛋白质结构的研究边缘化,即使只知道氨基酸序列也能给出蛋白质的功能。

所幸的是,知道蛋白质的氨基酸序列是一件相对比较容易的事情,我们只要给DNA分子测序就能得到。

掌握了蛋白质的功能,我们就能知道它会和药物发生怎样的反应,帮助我们进行药物研发。

此外,某些基因突变会改变蛋白质的结构,这项工作还可以用于基因组学,来检测破坏蛋白质结构的有害突变。



来源:量子位

专业冠军Rainbow老师股市赢家必修课




主讲导师:Rainbow老师

第一财经A股挑战赛2018年7月专业组冠军

独创趋势筹码交易系统寻找优质个股,细节中把控好每个短中线波动可操作的空间,将交易计划融合系统中制定精准点位、风险必须可控的实战策略,擅长捕捉个股大行情。



上海  4月20-22日,报名电话/微信:18516600808

 
大数据实验室 更多文章 蒙古海军够尴尬了吧?还有更尴尬的 美国公布长达35页的《2016-2045年新兴科技趋势报告》 令人羡慕的美国教育,到底是美国哪个阶层的教育? 包豪斯100岁:论设计,苹果只算小学生! 好变态!这个日本人苦练15年做成人玩具,竟能让你大喊不要停!
猜您喜欢 三墩IT人承办“去IOE”现场交流会 H5直播避坑指南 RX480 和 GTX1060,究竟哪个性价比更高?(史上最强评测) 有哪些命令行的软件堪称神器?第 4 期技术微周刊出炉了 被举报无法查看