微信号:infoqchina

介绍:有内容的技术社区媒体

第三只眼:Hack你的DNA

2014-03-08 12:13 包研

上期《数据可视化的危机》的文章获得不少赞,本期继续将标题党进行到底:) 。的确,人类从来没有对探寻自身奥秘失去过兴趣,自从Jmes D.Watson和Fancis Crick发现DNA分子双螺旋结构后,在DNA、生物科学方面的研究就从未停止。尤其IT技术的发展,加速了生物科学的研究。


那么Hack DNA从何谈起呢?据说,O'Reilly还要在“Hack”系列丛书中增加一本《Hacks DNA》。Hack意味着修改、从新设定,Hack DNA就是修改DNA。现实生活中谈论最多的Hack DNA的现象恐怕就是糖尿病、癌症等疾病,这是一种DNA被修改的极端现象。生物在进化过程中形成了DNA或基因智能模式:每个基因都被增强子和启动子做了标记,使得细胞知道何时应该表达该基因,比如生长素基因可以因为饥饿而关掉,而许多药物的原理正是通过调整了某些和疾病相关基因的标记来实现。值得注意的是,这些标记修改还可能会遗传给下一代。换句话说,我们的生活方式(比如长期服用某些药物、激素,饮食习惯、运动爱好、空气污染)可以影响孩子的基因。这一现象让人喜忧参半,我们可以通过养成良好的生活方式给下一代更好的基因,但空气污染等环境影响也会给孩子造成先天的影响。


这里需要强调,对标记的修改并不会影响基因内的原始信息,而癌症却不是这样的。如果把DNA比作一个数据库,标记是数据库的正常信息。癌症的可怕之处在于数据库损坏了,当数据库损坏达到一定量时,DNA已经无法完成正常的复制,癌细胞就产生了。当累计足够多的癌细胞,癌症就发生了。如果把人体比作一个数据中心,细胞就是数据中心的硬盘,MIT的一篇论文(http://www.cs.cmu.edu/~bianca/fast/)显示,硬盘的年失效率为0.88%。想象一下,人体内有100万亿个细胞,我们真该庆幸如此低的癌症发病率。


DNA的双螺旋结构提供了两个几乎一样的碱基信息副本(只有性染色体不同),当一个副本的信息损坏时,另外一个副本会将其修复(就像RAID 1)。而当细胞分裂时,两个DNA副本要各自复制出一个副本,此时一旦信息损坏就无法完成修复。这也就是为什么孕妇和幼儿格外注意防护辐射的原因,因为他们的细胞正在快速的复制中,而成年人的细胞分裂速度要低的多。


双副本结构让DNA抵抗破坏,而DNA的内部信息存储方式还可以有效的降低DNA被破坏的概率。我们知道,DNA由4种碱基排列而成,即4进制数字串。碱基排列对应着人体的20个氨基酸和1个终止信号,即通过3位4进制数就可以对所有信息编码。事实上,3位4进制数字可以表示64个编码,这意味着DNA中的碱基排列存在大量的冗余,当这些冗余信息被破坏时根本不会影响正常的氨基酸排列组合(蛋白质通过20进制进行编码)。


我并不是生物学家,以上的大量内容引自《数据之美》一书,并加上自己的理解,难免有不准确之处。奇妙人体与我们处理数据的方式有着惊人的相似,生命科学与数据科学有着惊人的重合度。


One More Thing:

在这个特别的日子,祝所有的程序媛美眉,程序猿哥哥背后的妹纸们,节日快乐!


“第三只眼”:

主要由InfoQ编辑专门为微信公众账号自编自写的一个栏目,旨在表明编辑态度及表述平日见闻和思考,期望成为和读者沟通的桥梁。亦接受投稿:spark@cn.infoq.com


今日专栏作者:

包子(@Tony包研),InfoQ高级策划编辑,敲键盘,非代码,爱自由。


***********************************

本文来自InfoQ微信公众账号:infoqchina

1、回复“今日新闻”,查看今天更新的新闻;

2、回复“今日英文”,查看今天英文站的更新;

3、回复“文章 +关键词”,搜索关键词相关内容;

4、回复“QCon”,了解QCon大会相关信息;

5、回复“活动”,了解最近InfoQ组织的线下沙龙;

6、回复“架构师”,获取《架构师》下载地址;

7、回复“投稿”,了解投稿和加入编辑团队的流程。

***********************************

 
InfoQ 更多文章 Facebook如何实现PB级别数据库自动化备份 学术派Google软件工程师Matt Welsh谈移动开发趋势 Spotify为什么要使用一些“无聊”的技术? 妹纸们放假了,汉纸们做啥? 大多数重构可以避免
猜您喜欢 腾讯蓝鲸数据平台之告警系统 超1.8万中国Android应用会窃取用户短信 【干货】PHP中的防御性编程 Android 代码性能优化建议 【技术蛋糕】应该知道的Linux技巧