微信号:ikanxue

介绍:致力于移动与安全研究的开发者社区,看雪学院(kanxue.com)官方微信公众帐号.

早期互联网历史存档内容为何如此之少?

2019-06-14 18:01 看雪学院

2005年,还是学生的亚历克斯·图(Alex Tew)想出了一个赚100万美元的点子。


时年20岁的他正在天马行空地想怎么才能支付一个商科学位迫在眉睫的3年学费。亚历克斯·图担心自己的透支金额会迅速增加。于是他在便笺簿上潦草地写道:“如何成为百万富翁。”


20分钟后,他找到了自认为的答案。


亚历克斯·图创建了一个名为“百万美元主页”(Million Dollar Homepage)的网站。该网站的模式极其简单:上面是100万像素的广告位,以10×10像素为基本单位销售,每个像素售价1美元。你一旦购买,它们就永远属于你。售出第100万个像素时,亚历克斯·图就会成为百万富翁。至少,计划是这样的。


在亚历克斯·图花了50欧元注册域名并设定主页后,百万美元主页网站于2005年8月26日开通。广告商购买页面上的像素,并提供链接、小图案和少量文字信息,鼠标停留在广告商的图案上时文字就会显示,点击后就可进入链接的网站。


由于口耳相传和媒体关注度不断提高,刚一个月多一点,亚历克斯·图的主页广告销售就超过25万美元(14万英镑)。2006年1月,最后1000个像素在拍卖会上以38100美元(21500英镑)的价格售出。亚历克斯·图真的赚了100万美元。


创建近15年后,这个百万美元主页还在网上。很多客户,包括英国《泰晤士报》(The Times)、旅游服务网站Cheapflights.com、在线门户网站雅虎(Yahoo!)和双人摇滚组合Tenacious D等在完成了一次性付费后已经打了15年的广告。该网站每天仍有几千名访客,这可能是一笔非常划算的投资。


互联网早期数据的消亡


15年看上去可能并不长,但就互联网而言,就像是一个地质年代。在百万像素主页上,现在大约40%的链接指向的网站已经不复存在,其他链接中很多指向全新的域名,因為原来的URL已卖给了新的所有者。


百万美元主页表明,互联网早期的衰变几乎是无迹可寻。在现实世界中,比如,一家地方报纸的倒闭往往会被广泛报道。但在线网站的消亡通常都悄无声息,只有当点击的链接指向一个空白页面时,你才知道它们已经不存在了。


全球有一系列机构试图在人类互联网出现头十年最后的痕迹完全消失之前挽救出其中的一部分,互联网档案馆是其中最有名的。


南安普敦大学网络科学研究所(Web Science Institute at the University of Southampton)常务所长达姆·温迪·霍尔(Dame Wendy Hall)明白无误地肯定互联网档案馆的贡献。她说,互联网早期的内容“如果不是这个档案馆,就一点不剩了。如果布鲁斯特·卡尔不创办互联网档案并开始保存,没有等任何人的许可,我们现在什么也没有。”


随着报纸从纸媒走向网络,存档工作的形式也发生了变化。这些网站和之前的报纸一样,是重要的信息资源吗?


互联网存档存在的问题


试图对互联网进行存档有一个主要问题是,它从来都不是静止不动的。每一分每一秒,网上的照片、博客文章、视频、新闻报道和评论都会增加。尽管数字存储的价格已经大幅下降,但对所有这些内容存档依然要花经费。


“谁来出钱?”达姆·温迪问。“我们产生的东西比过去多得太多了。”


在英国,数字保存的工作部分落到了大英图书馆肩上。该图书馆有一个英国网络档案馆(UK Web Archive),从2004年开始获准收集网站信息。该档案馆的项目经理韦伯(Jason Webber)说,这个问题比大多数人以为的要大得多。


他说:“不仅是早期的内容,互联网的大部分内容都没有保存。”


“互联网档案馆是从1996年开始保存各网站的网页。那时距离第一批网页创建已经过去了5年。那个曾经从网络复制过来的时代已荡然无存。”就连1991年创建的全球首个网页也已经不复存在。人们在万维网联盟(World Wide Web Consortium)上看到的页面是一年后制作的副本。



在互联网诞生后的最初5年里,很多时候在英国发布的很多内容都以.ac.uk的指定代码域名结尾,表示是学者撰写的学术文章。直到1996年,随着商业网站的数量开始超过学术网站数,互联网上才开始出现更多的综合性网站。


大英图书馆每年都会进行一次“网站领域系统搜寻”,以保存在英国发表的任何信息。“我们努力把所有内容都存下来,可我们一年只能做一次。但大量网站的储存量上限被设置为500MB,这可以涵盖很多小网站,但是你只能存几个视频,很快就会达到上限。”


存档的意义


然而,像BBC新闻这样的新闻网站确实会获得较多次数的系统搜寻。韦伯说,大英图书馆尝试尽可能全面地保存英国脱欧、2012年伦敦奥运会和一战100周年纪念等事件的信息。


韦伯说:“我觉得我们对一切都会失去的认知非常低。数字世界短暂无常,我们看着手机,其实还没有思考,手机上的东西就变了。不过现在人们越来越意识到我们可能正在失去很多东西。


但韦伯说,像大英图书馆这样的机构只有权收集可公开浏览的内容,数量更大的重要历史和和文化数据存储在人们自己的的档案中,比如硬盘。但我们很少有人把这些留给后代。


“大英图书馆保存了大量个人之间的信件。有政客之间的往来信件,也有情书,这些东西对一些人来说真的很重要。”


我们以为自己发表在社交网络上的内容会永远存在,只需要敲一下键盘就能看到。但最近,具有开创性的社交网站MySpace(曾经在美国最受欢迎的网站)最近丢失了大约12年的音乐和照片。这表明,即使是存储在最大网站上的内容,可能也不安全。


即便是搜索巨头谷歌的服务也不能幸免。谷歌试图与Facebook抗衡的社交网络Google+于4月2日关闭。但是否所有用户都备份了发表在Google+上的照片和记忆?


韦伯说:“把照片放在Facebook上并不是存档,因为有一天Facebook也会不复存在。”如果对网络的暂时性有任何怀疑,花几分钟浏览一下百万美元主页。它证明了我们的网络历史会消失得有多快。


数据丢失还有另外一面。达姆·温迪指出,不把新闻网站上的报道存档可能会造成片面的历史观,比如,新政府选择不保存有关自己的负面报道或档案。


伦敦大学(University of London)数字人文学科教授温特斯(Jane Winters)说:“一旦政府换届或半官方机构重组,网站就会被关闭。或者看看竞选网站,其本质上就是临时性的。”


有时候,网站消失是伴随社会的大变革发生的,比如国家本身的诞生和灭亡。她说:“南斯拉夫(Yugoslavia)就是这样。yu曾是代表南斯拉夫的域名,但南斯拉夫解体后,这种情况随之结束。一位研究人员正在尝试恢复南斯拉夫解体前的内容。”


“政治常常与技术紧密相连。”


也许有一线希望。“我是研究历史的,我们一向要克服历史记录中的空白,这些空白有些我们知道,有些我们根本不知道。”


来源:BBC



⚠️ 注意



2019 看雪安全开发者峰会门票正在热售中!

长按识别下方二维码即可享受 2.5折 优惠!



往期热门回顾

1、越狱死灰复燃?最新 iOS 13 越狱已发布!

2、你以为漏洞被发现了,就会被利用吗?研究证明答案为否

3、微软警告:小心垃圾邮件,谨慎下载附件!

4、刺激! KCTF 战况焦灼,他们完美逆袭!








公众号ID:ikanxue

官方微博:看雪安全

商务合作:wsc@kanxue.com



点击阅读原文,了解更多!
 
看雪学院 更多文章 Android应用完整性保护总结 QQ 浏览器中的Hook、Root、模拟器、Debug、DexFile检测技术 SYSENTER-HOOK 技术分析 实践中学习CVE-2016-5195 周一中午12点!看雪.纽盾 KCTF 2019晋级赛Q2攻击篇 正式开赛!
猜您喜欢 国家“千人计划”专家蔡维德教授担任九存首席科学家 回归诊断与优化——OLS回归模型拟合(五) 分享上周六参加博客园组织的DDD分享交流会的PPT Awesomplete - 零依赖的简单自动完成插件 【讲座报名】腾讯云俱乐部巡讲上海站—电商云专场