简单来说,他们把市面上所有类型的验证码,点击类的,拖拽旋转类的,图片选择类的等等等等,都搜罗了过来,分别让 AI 和测试者做了个遍。
其中,最简单的点击识别, AI 直接 1.4 秒就能过,还百分百准确度,而人类不但要得花 3~4 秒,竟然有一两成的人过不了。
到拉大难度的图片验证, AI 虽然在速度上稍有下降,但起码还保持在人类的平均水平里,准确度也和人类相当。
让我选红绿灯,这杆子我是真不知道该不该选
测试结果大家也都看到了,看这AI几乎门门儿接近百分百的准确率,速度也普遍比人快,说夸张点已经是吊类的程度了。
反正论文提交后,这个项目的主任 Gene Tsudik 直接给验证码戴了个 “ 气数已尽 ” 的帽子。
还有一些媒体甚至打出 “ 暴击人类 ” 、 “ 验证码失效 ” 、 “ 验证码被攻破 ” 之类的标题。
连马斯克都出来发文称,过去的验证机器人全失效了。
最近,也有不少朋友反映登个 X ( 原 twitter )要三四个验证码,估计也是这个缘故。
啊这这。。。验证码难道真就这么被
AI锤爆了??
讲真,一开始看到这消息的时候,我心里也是惊了一下。
于是,我们立马找到在国内外都颇具影响力的验证码头部企业极验聊了聊,想听听他们的评价。
结果他们告诉差评,别太担心,类似的事情他们身经百战见得多了。
虽然AI确实越来越强了,但在日常生活中,最新的验证系统还是能够能拦截波机器人的。
其实很多人可能也都知道,验证码的攻和防是个博弈的过程。
黑客那边的攻击手段不断升级,不代表验证系统这里就无动于衷。
就比如初期 AI 模型还没出现的时候,黑客那边破解验证码就是靠穷举法。
前期黑客会通过特定算法去攻击网站界面,用来获取这个网站的所有验证码图像。
黑客频繁向页面发送请求
在得到这些图像后,就该对它们进行标注了,也就是让人类给出标准答案。
但用当地的人工标注,总归是一笔不小的费用,于是黑客就把这些任务外包出去,就是我们常说的打码工。
像东南亚、拉美、非洲那些地区,单价基本在一分钱一张。
折下来,黑客 10 天就能搞掉一个 30 万张的图库,并且成本还能控制在四五百。
这样搞好之后,黑客就有了自己的一个验证码数据库。
破解的时候,就是简单的查答案、写答案过程。
当然,验证系统也得防守。
前面提到既然你机器人搞数据库来破解,那我验证平台就定期更新数据库,并且每次更新数万张。
直接用成本搞垮你。。。
目前,国内普遍的验证平台已经差不多可以做到一周更新一次的频率,最快的都能到 1 小时更新一次。
这个更新频率,换天王老子来也远远吃不消。
然鹅转折又到了,这几年来, AI 迎来井喷期。
从自然语言处理,到计算机视觉,那研究成果是一个接着一个。
在验证码这块儿,类似开头 AI 破解速度超过人类的消息也是不断传出。
验证系统也在不断上强度。
可能系统一波小更新,就能让上面的 AI失效。而极验的朋友就告诉差评,前面论文所谈及的验证码的 AI 识别率,其实都不说是小更新,是它们几年前没有销售的上一代产品了。
目前大家也在针对 AI 做验证系统。
打蛇打七寸,防
AI当然也得从它的软肋下手。
一旦我们摸清了 CV ( 计算机视觉 )领域的主要模型的原理,它的软肋就是手拿把掐的事。
这些图片识别的 AI 缺点就是会像人类一样产生视觉误差。
比如下面这张图,世超也是辨认了好久才认出这是一个人和狗的错位照。
目前图像识别主流的方法就两种,一种靠分类识别,另一种靠相似度识别。
比如对抗分类模型,系统直接把验证码图中的一些物体粗暴地替换成 AI 不容易分类的,这样一来它识别物体的准确率自然就降下来了,主打一个绕道走。
相似度模型的话,则是通过提前模糊掉物体的标志性特点,让 AI 识别不出来。
就比如下面花环中的字符,直接用工具对字符轮廓做一些干扰处理。
除了找软肋,我们还可以换个角度看,AI破解验证码,他背后也是人在控制,用什么模型,投喂什么数据也都是可以操控的事。
既然黑客能用 AI 做工具,那验证系统也能用 AI 来防御。
也就是说,让 AI 破解 AI 生成的验证图片。最典型的就是 AIGC 的一些应用了。
前不久那个把字融到建筑上的照片很火,就可以试着把这样的照片丢给 AI 看它能不能认出来。
极验告诉差评,就目前 AI 破解的水准,这种图它们暂时还拿捏不住。
甚至有网友想出了个损招儿:AI 出了名的弱点不就是手嘛,那让它猜猜下面哪个是真正的人手?
你觉得这道题 AI 能解出来吗?
用极验朋友的话来说,现在验证码已经正式迎来了 “ 用魔法打败魔法 ” 的时代。
可能还会有朋友担心,万一 AI 真的能绕过验证码,那该怎么办?
大可放心,就算机器人突破了,验证系统还有另外一道隐形的防线。
不妨设想一下,一般哪种情况下黑客才会用机器人破解验证码?
设置验证码的场景无非是在一些软件注册、登录界面,或者投票、抢票网页等等。
黑客破解验证码要么是为了恶意爬虫获取信息,要么就是抢票、刷票。
但在这样的场景下它们都有一些共性,要数次访问网站或软件页面。
这时,隐形拦截就会出手。
除了我们能看到的这些数字图片验证码之外,在用户操作的过程中,验证系统也会对操作环境进行判别。
这些环境就包括你用的啥设备,浏览器环境比如 IP 地址,访问次数如何,甚至你的鼠标操作轨迹是怎样的。
就拿浏览器环境来说,正常人肯定不会快速频繁地去刷新登录一个网页。
黑客们就不一定了,频繁访问页面是他们必须要做的。
举个例子,如果黑客要攻击的是下面这种验证码,让你依次点汉字。
在短时间内,他们肯定会访问成千上万次网页,遇到同样的验证题目不可避免。
照他们这样每次都点同样的位置,系统再不判定是机器人就真有点说不过去了。
但这毕竟是隐形门槛,并且还得累积到一定程度上才能识别出机器人,所以系统关键还是要做好前面提到的验证码识别。
总结下来,这场验证系统与黑客之间的攻防战不会停歇,没有一劳永逸的方法, AI 出现只不过在技术层面上拉高了这场 “ ” 的 level 。
更重要的是,至少在短时间内,验证码不会消失,也不会失效。
撰文:松鼠编辑:江江 & 面线封面:焕妍