微信号:grzlwx

介绍:光荣之路官方资讯

脑洞大开的自然语言验证码

2015-12-14 23:15 光荣之路

吴老的《selenium webdriver 实战宝典》出版了!

最近12306的验证码被网友们吐槽(hei)得一塌糊涂,由此我也对验证码这个东西产生了研究热情。现在的验证码有以下几种:
1、输入图片中的字母/数字/文字;
2、短信验证码(这个不一定能辨别机器人,主要是验证手机号码确实是你的);
3、语音验证码,有点击收听的,也有打电话过来叫你听的;
4、像12306(微触科技技术提供)这种的点击验证码;
5、像淘宝和极验验证的这种拖动验证;

然后我想到的验证码方式跟这些都不一样,源自于下面这句网语:
“研表究明,汉字序顺并不定一影阅响读。比如当你看完这句话后,才发这现里的字全是都乱的。”

这种打乱顺序的语句对人来说不会有阅读障碍,但对机器来说这样乱的语句非常难与词库作匹配得出正确的语义理解。下面开始讲如何利用(装逼):

1、后台随机抽取原语句,随机打乱词语及词语间的顺序,通常为邻近的字调换和隔一个字调换;

2、前端录音发送到后台,把语音转换成文字(有很多第三方平台可以做),与原语句进行对比;

3、正常人通常可以毫不费力理所当然地读出来,但机器非常艰难,现有的词库都是正常顺序,它需要对乱词进行重排,那怎么分词呢,依据什么来重排呢;

4、可以利用错别字互换,比如“竞”和“竟”等;

5、可以间中利用古诗词这种没有词组的语句来加大重组难度,比如“床前月明光,疑是上地霜”,但也很容易被模糊识别出整一首,慎用;

6、甚至可以考虑偶尔使用一些人们熟知的广告语,获取广告盈利,同样容易识别出整句,慎用。

甚至还可以加上这样的处理(图自贴吧)

最后,求大神可以尝试做一个DEMO出来,以及分析一下这种验证码的破解难度。

详细分析这种阅读现象可以看看这篇文章>>汉字序顺并不定一影阅响读?(http://epaper.yzwb.net/html_t/2013-05/06/content_73627.htm?div=-1)

(作者:batsing 来源:http://www.cnblogs.com/batsing/p/5043189.html)


公益传播测试知识、技能与正能量!感谢作者!
分享测试生活,思考测试人生!欢迎投稿!
文章图片来自网络,如有侵权请见谅,请联系我们妥善处理。
735821166@qq.com



光荣之路
软件测试培训



官网:www.gloryroad.cn

微信公众号:gloryroadtrain

性能测试QQ群:415987441
测试招聘QQ群: 203715128
自动化3群QQ: 371211499

Python群:457561756


 
光荣之路 更多文章 今天晚上的 linux 公开课- Awk 编程 7月28日(今天)晚上的 linux 公开课- shell编程 8月4日(今天)晚上的 linux 公开课- shell编程 9月1日(本周一)晚8点半,光荣之路Web自动化系列基础课—javascript第二讲 推荐本好书《与机器赛跑》
猜您喜欢 揭秘腾讯大数据之平台综述篇 直播课程【2013-07-19】Mysql数据库-优化-事务-关联 Yep 内测邀请 “释放数据能量,提升城市安全” 2016年SODA大赛正式启动 5个难以置信的Visual Studio 2015预览版新特性