微信号:aitechtalk

介绍:关注国内外人工智能与机器科学领域的前沿技术.

学界|如何捕捉冗长讨论里的目标信息?谷歌推出最大标注数据集

2017-05-17 22:47 杨文

AI科技评论按:很多读者在思考,“我和AI科技评论的距离在哪里?”答案就是:一封求职信。

信息爆炸时代,如何在浩瀚如海的网络中找到自己的需求?谷歌研究团队推出了 Coarse Discourse 数据集,可以将一段文字中“废话”剔除,精准识别用户所需要的目标信息。作为一名雷锋网编辑,信息搜集和分类是日常工作中极为耗时的一件事。谷歌推出的新方法能否解决这一问题?

每一天,社区中的活跃者都在发送和分享他们的意见,经验,建议以及来社交,其中大部分是自由表达,没有太多的约束。这些网上讨论的往往是许多重要的主题下的关键信息资源,如养育,健身,旅游等等。不过,这些讨论中往往还夹杂着乱七八糟的分歧,幽默,争论和铺垫,要求读者在寻找他们要的信息之前先过滤内容。信息检索领域正在积极探索可以让用户能够更有效地找到,浏览内容的方式,在论坛讨论缺乏共享的数据集可以帮助更好地理解这些讨论。 

在这个空间中为了帮助研究人员,谷歌发布了 Coarse Discourse dataset,是最大的有注释的数据集。 Coarse Discourse dataset包含超过10万条人可在线讨论的公开注解,这些是从reddit.com网站中的130个社区,超过9000个主题中随机抽取的。

为了创建这个数据集,我们通过一小部分的论坛线程开发了论坛注解的话语分类系统。通俗的说就是阅读每一个评论,并判断评论在讨论中扮演什么角色。我们用众包的人工编辑再重复和修正这种练习来验证话语类型分类的重现性,包括:公告,问题,答案,协议,分歧,阐述和幽默。从这个数据,超过10万条的评论由众包编辑单独注释其话语类型和关系。连同众包编辑的原注释,我们还提供标注任务指南,供编辑们使用帮助他们从其他论坛收集数据和对任务进一步细化。

图中为用话语类型和关系来注释的示例线程。早期的研究结果表明,问和答模式在大多数社区是一个突出的运用,有的社区会话更集中,来回的相互作用。

论文摘要

在这项工作中,我们提出了一种新的方法将在线讨论中的评论分类成一些粗糙语料,是为了在一定规模上更好理解讨论这个目标的实现。为了促进这项研究,我们设计了一个粗糙语料的分类,旨在围绕一般在线讨论,并允许工作人员简单注释。使用我们的语料库,我们演示了如何分析话语行为,可以描述不同类型的讨论,包括话语序列,如问答配对,分歧链,以及不同的社区中的表现。

最后,我们进行实验,使用我们的语料库预测话语行为,发现结构化预测模型,如在条件随机场合下可以实现F1得分75%。我们还演示了如何扩大话语行为,从单一的问和答到更丰富的类别。可以提高Q&A抽取的召回性能。

实验结论

团队使用了一种新的话语行为的分类,我们推出一个从Reddit上数千个社区采样,最大的人工标注的数据集的讨论,在每个线程上的每个评论根据话语行为和关系注释。从我们的数据集,我们观察到常见的话语序列模式,包括问答和参数,并使用这些信号来表征社区。最后,我们用结构化CRF模型进行了分类的话语行为实验,实现了75% F1得分。此外,我们演示了如何使用我们的9个话语行为在只标签了问题和答案的模型,整体提高Q&A抽取的召回性能。

对于机器学习和自然语言处理的研究人员试图描述在线讨论的性质,我们希望这个数据集是一个有用的资源。可以访问我们的GitHub库下载数据。更多细节,请查看论文 ICWSM,“Characterizing Online Discussion Using Coarse Discourse Sequences.

via Google

报名 |【2017 AI 最佳雇主】榜单

在人工智能爆发初期的时代背景下,雷锋网联合旗下人工智能频道AI科技评论,携手《环球科学》和 BOSS 直聘,重磅推出【2017 AI 最佳雇主】榜单


从“公司概况”、“创新能力”、“员工福利”三个维度切入,依据 20 多项评分标准,做到公平、公正、公开,全面评估和推动中国人工智能企业发展。


本次【2017 AI 最佳雇主】榜单活动主要经历三个重要时段:

2017.4.11-6.1 报名阶段

2017.6.1-7.1  评选阶段

2017.7.7    颁奖晚宴

最终榜单名单由雷锋网AI科技评论、《环球科学》、BOSS 直聘以及 AI 学术大咖组成的评审团共同选出,并于7月份举行的 CCF-GAIR 2017大会期间公布。报名期间欢迎大家踊跃自荐或推荐心目中的最佳 AI 企业公司。

报名方式

如果您有意参加我们的评选活动,可以点击【阅读原文】,进入企业报名通道。提交相关审核材料之后,我们的工作人员会第一时间与您取得联系。

【2017 AI 最佳雇主】榜单与您一起,领跑人工智能时代。


AI科技评论招聘季全新启动!


很多读者在思考,“我和AI科技评论的距离在哪里?”答案就是:一封求职信。

AI科技评论自创立以来,围绕学界和业界鳌头,一直为读者提供专业的AI学界、业界、开发者内容报道。我们与学术界一流专家保持密切联系,获得第一手学术进展;我们深入巨头公司AI实验室,洞悉最新产业变化;我们覆盖A类国际学术会议,发现和推动学术界和产业界的不断融合。


而你只要加入我们,就可以一起来记录这个风起云涌的人工智能时代!


如果你有下面任何两项,请投简历给我们:


*英语好,看论文毫无压力

*理工科或新闻相关专业优先,好钻研

*对人工智能有一定的兴趣或了解

 * 态度好,学习能力强



简历投递:

深圳:lizongren@leiphone.com


 
AI科技评论 更多文章 专访|网易有道段亦涛:丁磊亲自过问的神经网络翻译技术到底是什么? 干货 | 大神支招:机器学习中用来防止过拟合的方法有哪些? 清华大学朱军博士:可扩展的贝叶斯方法与深度生成模型 秒懂 | 南京大学俞扬博士独家演讲:强化学习前沿(下) 业界|David Patterson教授加入谷歌TPU团队,跟英伟达的好戏才刚刚开场
猜您喜欢 将Ceph存储集群集成到OpenStack云中 知乎Live首秀——进击的测试 FEX 技术周刊-2015/09/21 火热的DevOps如何在你的团队落地? Mysql分库分表方案