微信号:HIT_SCIR

介绍:哈尔滨工业大学社会计算与信息检索研究中心

初窥数据与搜索的未来——WSDM 2016

2016-03-02 18:13 WSDM

本文经 微软研究院 授权转载。

第九届ACM网络搜索与数据挖掘国际会议(ACM International Conference on Web Search and Data Mining,简称WSDM)已于上周(2月22日-25日)在旧金山腹地Mission Bay 会议中心举办。而今年的WSDM大会上,有关数字和经济的名词将会难舍难分。那些数据和隐藏在数字间的奥秘有时候就像一片等待寻宝人的宝藏,与会者们仿佛拿着数字的钥匙,转动了财富的锁。网络搜索、大数据、云、风投、经济这些你早已熟悉的词将被行业大佬和新秀们重新审视和讨论。


WSDM涵盖互联网和社交网络的搜索与数据挖掘方面的理论、模型、算法、评测、实验、应用等多个方面,既重视基础研究,也重视实际应用。正因为如此,WSDM越来越具影响力,并已经成为互联网搜索与数据挖掘领域的顶级国际学术会议,给网络搜索与数据挖掘领域的专家们提供了一个绝佳的交流平台。

今年的WSDM 2016会议设置了3场主题报告,4场实践和经验特邀报告,论文报告,5个研讨会,3次辅导报告,1场博士生论坛。此外,这次会议还特别设立风投产业日,并增加了WSDM CUP挑战赛项目。下面就让小编带你走进这场有关搜索与数据的盛会!

永恒的焦点——大会论文

WSDM极为重视会议论文质量,据了解,本届会议共收到来自全球368篇论文投稿,67篇文章入选,接收率仅为18.2%。而在这67篇论文中,微软研究院就贡献了6篇,一起来了解一下吧~

谁动了我的微博

当你将照片或者文字上传到微博或朋友圈,也许心中会默默期待那个TA的回复和转发吧!你的自拍或者分享又期待谁的点赞呢?到底谁动了我的社交平台?微软研究院的论文Who Will Reply to/Retweet This Tweet? The Dynamics of Friendships and Online Social Interactions给出了答案。论文颠覆了把社会纽带作为一个固定值的思维,进行动态关系讨论,并建立了一个模型,预测社交网络行为。


在论文中,研究员们收集了超过7千万公开的在线聊天互动的数据,并通过分析微博回复、转发等互动过程中的所蕴含的时间性、语境的要素,建立了一个预测模型。该模型可以预测如果你的发出一条微博,你的哪些朋友更有可能进行回复和转发。这项模型不仅揭示了现实关系如何影响网络社交行为,更为未来的在线社交平台应用的开发提供一些新的思路。事实上,微软亚洲研究院的这项工作也是目前为止,第一次从用户和微博内容上建立关于回复和转发的预测模型。


博采百家之言

当你在医院体检时,往往需要在不同的科室对身体的各项指征进行检查。医生也需要通过综合多项指标数据才能确定你健康与否。互联网广告商业也与此类似,我们也需要考虑用户、商家、网站信息的一系列信息才能做出最佳的报价评估。因此,在多观点学习研究中,不同信息观点之间的建模工作是一大挑战。


Multi-view Machines这篇论文正是基于这项问题提出了一种多视角机(multi-view machines,MVMs),MVMs可以被应用到各种各样的监督机器学习过程当中,并分析源自不同观点的特征之间是否存在关联和互动。相比于传统的模型,MVMs能够进行全阶相互作用分析,并能够更好处理稀疏参数估计。


发散思维找问题

在很多以“提问-回答”方式进行互动的网站,例如百度知道,雅虎知识堂等,如果你采用关键词检索的方法进行查询,经常会反馈出一些描述极为接近的问题。但事实上,还有很多问题的本质相近,问题描述的文字缺大相径庭的类似问题,例如“健身时我该如何安排自己的三餐?”与“运动期间需要注意的饮食问题?”这两个问题都是与运动和饮食相关的同质性问题。对于网站本身的检索反馈系统来说,如何将这类问题合并与同时呈现给用户是一个较大的挑战。

Learning Distributed Representations of Data in Community Question Answering for Question Retrieval这篇论文提供了解决该问题的一个新思路。微软的研究员通过将文字和问题同时嵌入空间向量办法,寻找不同描述的问题中暗含的联系,并使用上百万的数据进行反复训练,最终建立了一个高效准确的检索模型。同时,这篇论文中涉及的模型代码也开源到了Github,你可以访问 https://github.com/ComputerHobbyist/cqa 获取更多信息。

Multi-Score Position Auctions 、 On obtaining effort based judgments for Information retrieval、Improving IP Geolocation using Query Logs三篇论文则在付费广告拍卖、信息相关性和IP地理定位等方向提出了一些新的模型与算法。

产业与学术并进——风投产业日

学术研究的开展离不开产业的支持,产业的革命也依赖学术领域的突破。如何将二者有机的结合在一起,并促进二者共同前进,也是此次WSDM大会提出的思考之一。为此,WSDM 2016创新性地设立了风投产业日。

在活动当日,与会人员主要围绕了网络搜索与数据挖掘和风投产业的互动这一议题展开讨论。大会还特别邀请了微软集团全球执行副总裁陆奇博士做了题为“一个新兴数字社会的剖析:从产业发展前景窥探未来”(the Anatomy of an Emerging Digital Society: A Look into the Future from an Industrial Development Perspective)的主题演讲。


IT行业正在快速进入移动和云的时代,移动设备和云设备正从本质上改写我们的产业与社会,如何激发我们的潜力并打造出新一代功能更加强大的数字平台是全球工业界与学术界研究者共同面临的挑战。同时这也是一次极大的机遇,而我们期待与你共同挑战未来。

学术搜索排序的未来——WSDM CUP

相比于往年的WSDM大会,本次大会的新增项目WSDM CUP学术搜索挑战赛环节更是十分引人注目。首届WSDMCUP是由微软研究院和著名学术出版商Elsevier共同举办的,以论文搜索排序为题,号召学术界为学术用户探索出合理有效的论文搜索排序算法,以期改善文献检索体验。

事实上,对于每个科研人员来说,了解行业内的研究动向十分重要。当某些细分方向某些论文提出了某一新观点,虽然短时间内相关论文的引用数相对有限,但并不影响学者们对此类论文的重视度。但目前通过关键词进行查询,出现在搜索结果前几位的论文往往是那些引用次数较高,但观点可能不甚新颖的“旧论文”,学术界的新星论文却不易被学者们获取。近年来,国内外的学术界也一直在反思以引用数衡量论文质量是否合理,并开始倡导发展更加丰富多元、求真务实的评价机制,但落实到文献检索工具,则苦于没有更为合理的排序策略能够取代传统的引用数排序。

整个WSDM CUP分为三个阶段,在大会开始之前,参赛者们经过重重筛选,仅有少数参赛队伍能够进入决赛。值得一提的是,在学术搜索挑战赛的第二阶段,由初赛中获胜的八只队伍优化过的算法进入了微软必应学术搜索中,面向所用用户进行了公测。因此,在此期间进入必应学术搜索中进行搜索行为的用户们,你们的搜索将决定着学术检索算法的未来。(相关活动信息已在微软亚洲研究院的微博、微信以及相关网站页面进行了公开。)

此外,基于此前WSDM CUP挑战赛过程中,部分公测用户热情贡献的建议和想法,微软学术搜索开发了极具创新性的语义搜索功能,完善智能搜索的新体验。通过语义搜索技术,搜索引擎的工作不再受限于用户所输入查询的字面本身,而是透过现象了解本质,准确地捕捉到用户所输入语句后面的真正意图,并以此来进行搜索,从而更准确地返回最符合用户需求的搜索结果。

例如,用户希望了解学术领域“speech recognition”的内容,具体到微软研究院的洪小文院长(Hsiaowuen Hon)在学术会议(ICASSP)发表过的某篇文章时,可采用如下查询:papers about speech recognition by hsiaowuen hon in icassp。该查询通过语法开关papers启动语义查询功能,并由语法介词by标示作者,in标示会议;同时,语法介词可多次叠加,以优化的搜索结果,如about可用来细分领域、by标示多个合著作者、from标示作者单位或限定作者于某段科研经历期间发表的论文等等。

此外,微软学术搜索还带来了全新的筛选功能。搜索结果中,与主题相关的内容会分别展示在多维度过滤条件中,供用户筛选搜索结果。如搜索主题为洪小文(Hsiaowuen Hon),其合著作者、研究领域、发表期刊、参加会议、所在机构等,均可作为筛选条件展示在过滤器中,选中相应条件即可过滤内容,获取更精准的论文搜索结果。快去xs.bing.com试试吧~~

BIG 2016 CUP编程挑战赛

WSDM CUP论文搜索挑战赛只是探索论文排序搜索未来的第一步,如果你还在遗憾过错了这个改变论文排序搜索未来的机会,那么也许今天刚刚开放报名的BIG2016 CUP你不该错过。

BIG 2016 CUP是大数据创新收集大会(Big Data Innovators Gathering)的一部分,将与WWW 2016大会同时进行,关注的焦点主要集中于大数据与网络领域。此次BIG 2016 CUP主要关注的问题是数据库中论文和作者匹配错误的现象。BIG 2016 CUP希望参赛者可以从机器学习、信息检索、图数据分析等多个角度入手,提供一个可以验证论文和作者是否匹配的RESTful服务端口。

相比于前几届BIG编程挑战赛,本次BIG 2016 CUP更加鼓励将数据处理和在线查询相结合的创新解决方案。微软则为本次挑战赛提供了微软学术图谱数据集和在线的图查询编程接口。如需了解更多详情,请访问http://big2016.org/big-2016-cup/  • “哈工大SCIR”公众号

  • 编辑部:郭江,李家琦,徐俊,李忠阳,俞霖霖

  • 本期编辑:李忠阳


长按下图并点击 “识别图中二维码”,即可关注哈尔滨工业大学社会计算与信息检索研究中心微信公共号:”哈工大SCIR” 。点击左下角“阅读原文”,即可查看原文。

 
哈工大SCIR 更多文章 人工智能和计算语言学领域权威专家美国斯坦福大学教授Christopher Manning到访哈工大 加拿大国家科学院研究员朱晓丹、陈博兴博士哈工大学术报告会 我中心多名师生参加ACL2015 使用语言云分析微博用户饮食习惯 我中心派代表参加IJCAI 2015,发表2篇长文
猜您喜欢 微软正式推送Windows 8.1 Update 1更新 京东大数据平台的技术创新 网络攻击:美国FBI网站及副局长个人邮箱疑遭黑客入侵 UCloud与东软达成战略合作,NetEye网络安全产品已登陆U市场 setState 源码浅析