12306验证码:识别难度如何确定
2015-12-23 09:12:10 国际金融报春运火车票开售,12306购票系统的图形验证码成了“吐槽对象”,“12306的验证码已经击败了全国99%的购票者,我已经找不到回家的路了!”、“验证码都跟医生写病历似的,你是疯儿我是傻,缠缠绵绵看不清!”
验证码有用吗?
“当然是有用。”上述程序员很肯定的告诉记者,“没有验证码,任何一个有大学本科计算机基础的学生都能盗号。在防止机器暴力行为方面,验证码功不可没。”
验证码的图案、文字或数字,大多扭曲变形。之所以这么设计,是为了避免被光学字元识别(OCR, Optical Character Recognition)之类的计算机程序自动辨识,“验证码要的就是复杂性与无序性,还要有高浓度的噪音背景,对比度、可识别度都不能太高,因为机器比你聪明多了,你能轻易看清的,机器早就识别出来了。”
斯坦福大学的一项研究发现,近两年来,互联网的验证码正变得越来越难以识别,并且每个网站平均有1/5的人,因为复杂的验证码而离开网站。
北京邮电大学网络技术研究院教授马严认为,虽然有些验证码难度较大,但对于防控抢票软件有一定效果。
最常见的验证码是字母和数字组成的四位验证码,这类验证码,抢票软件和浏览器采用非正常手段是可以自动识别。“字母和数字组成的四位验证码,在人眼识别需要2秒的情况下,机器仅用0.1秒就能识别。在高峰时段,相隔这样的时间,也会造成旅客买不到票。”朱建生表示,“为了防范抢票软件的自动识别,我们对图片做出微调、旋转、切割的处理,这样做主要是为了方便旅客购票和打击抢票软件中寻找平衡。”
猎豹浏览器移动工程师李铁军告诉记者,目前有一些刷票软件每秒钟数次提交刷新页面或购票等请求,会给12306网站带来沉重的流量压力,尤其是在购票高峰时段,而难以轻易识别的图形验证码,能有效防止高频的刷票。
一位铁路集团总公司工作人员告诉记者,升级验证码系统的必要性是毋庸置疑的,这是12306网站与黄牛以及抢票软件之间的一场持久的博弈战。如果没有防御性较强的验证码系统,黄牛可以凭借抢票软件随意地大量地占据车票资源。
黄牛之惑:
低成本和高技术能兼得吗
升级的验证码,极大地提高了黄牛的抢票成本,但是面对求票者出的高价中介费,一些“技术黄牛”还是会不遗余力地破解验证码数据库
抢票软件导致购票难是个老问题。
从最早的数字、字母验证码,到加减法、闪烁变形字母、干扰线变形字母验证码,再到今年推出的图片验证码,12306购票网站不断升级验证码的“段位”,五年六代版本。
前述铁路集团总公司工作人员告诉记者,从12306网站推出网络购票功能以来,12306与各种抢票软件之间的“博弈”就没有停歇过。抢票软件的兴起虽然满足了部分消费者购票的需求,但也成为了网络黄牛党的牟利工具。
“部分购票者习惯性将矛头指向12306网站,认为是其无能,导致黄牛党的有乘可机。其实,在井喷式客流造成的巨大访问量和信息处理量时,购票网站在保证正常运行的同时,堵塞各种流氓软件的侵袭,非易事。”前述门户网站程序员说,12306一直以来不断补漏洞,升级系统,依然抵挡不住众多“技术黄牛”在利益驱使下病毒性攻击。
据悉,铁路部门曾求助商业网站巨头的工程师,但无法解决,短时期内,12306只能在不断修补漏洞中维护公平的购票秩序。
从技术上讲,复杂的图形验证码,提升了自动识别的技术门槛,但其图片质量较差,再加上有一些生僻且容易混淆的图片以及不合适的图片处理,造成用户体验较差。一位360工作人员分析认为,客观来说,12306复杂验证码确实对打击黄牛起到了一定的作用,例如其对部分验证码进行模糊颗粒化处理,可以防止黄牛采用专用抢票软件来刷票。
对此,铁道部门及时回应。中国铁道科学研究院电子计算技术研究所副所长朱建生明确表态,“在春运返程订票高峰前,将对验证码中数万张图片进行优化,提高图片分辨率,确保用户体验。”
根据12306网站后台监测及统计数据显示,今年预售春运车票以来,放票时段图形验证码的一次识读正确率约为70%,非放票时段更高。
据记者了解,12306官网推出的图形验证码,确实拦截了一部分技术黄牛。但是,有消息称,“图形验证码推出没多久后,就有人窃取了图形验证码后台数据库,并建立“打码平台”以绕过图形验证码这一环节。据悉目前其打码平台的打码识别率已超过80%。黄牛每打码一次,需付1分-5分不等的费用,给打码平台。黄牛每购买一张票,通常需要打码十几二十次,有的甚至打码上百次。”
“打码”指的是人工识别验证码。即有专业的识别验证码的人工团队,配合软件进行刷票工作——软件负责常规的操作步骤,人工团队负责识别验证码,人工团队为外挂机器人服务。这种方式最早源于游戏产业,为了拦截游戏外挂登陆,设了验证码,这时就有一拨人建立了平台,每天的工作就是识别各种验证码后,将结果反馈给平台。这种平台就被称为打码平台。
梆梆安全创始人阚志刚坦言,实际测试表明,如果采集样本数据足够大,确实有破解图形验证码的可能性,一旦图形验证码被黄牛破解,他们就可以继续刷票,“虽然图形验证码在识别上增加了难度,但破解难度上并没有革命性的改变。”
无独有偶,360浏览器近日宣布,已全面攻破12306验证码,实现了全自动识别技术,并首次公布了581种12306图形验证码大数据。对此,为12306系统提供图形验证码服务的杭州微触科技有限公司负责人宋超在接受媒体采访时坦言,图片的数量不是一个固定的数字,是不断动态增替的过程,会不断通过用户的使用数据来更新。
责编:邢若宸