12306验证码已不再安全 机器准确率99.8%
基于这些认识,我们提出并实现了一种基于知识图谱的验证码。我们有一个目前世界上最大的中文百科知识库CN-DBpedia。利用自有的知识库,自动生成自然语言问题,自动判定答案。所有的问题全是自动生成的,理论上可以生成数以亿计的问题。 同时我们平台可以自动判定答案,但是机器是不知道答案的,机器必须通过理解才能知道答案。我们的验证码还具有交互友好的特性,只要轻轻一点就能通过验证。 那么我们的系统是如何知道答案的呢?其实在CN-DBpedia里存储的是2亿多的结构化事实,比如(复旦大学,所在地,上海),基于这些结构化事实,我们通过深度学习模型自动生成自然语言问题,也就是说我们的系统在提问时是已经知道答案的。 如果要破解我们的验证码需要以下几个技术储备: 识别图片里面的文字以获取问题 理解文本以及问题,进而生成答案 使用一个成熟的涵盖数亿关系知识库的QA系统 因此,破解这个验证码至少比破解目前流行的图片验证码要难(上述第1步)。文本理解以及知识库上的QA(雷锋网注:特别是能回答数以亿计知识的QA),是目前正在研究和探索的问题,还没有成熟的解决方案。因此,至少目前,在机器语言认知能力尚未达到人类水平之前,我们的验证码是难以破解的。 我们的核心技术是从知识库里面结构化知识自动生成自然语言问题。我们提出了基于生成对抗网络(GAN)的从结构化三元组生成自然语言问题的模型,从而实现问题的自动随机生成。理论上有数以亿计的候选问题空间,一个真实的用户是不会两次碰到相同的问题的,从而保证了验证的安全可靠。 同时,为了进一步提高验证的安全性,降低对于真实用户的验证门槛,提高对于机器验证的门槛,我们也考虑到了分级验证。如果是首次登录的普通用户,就采用简单的验证,如果是高频访问的账号就用复杂验证,比如说像淘宝的刷单,我们就可以通过组合验证的方式,将机器拒绝于门外。 组合验证实际上就是通过组合文本理解、图片识别、轨迹识别等不同验证码方式来增加机器破解的难度,从而实现更强的安全验证。 我们的验证码终极形式是常识验证。比如说:“上海GDP仅次于日本东京,问GDP第一的城市是谁?”答案应该是“东京”,回答这类问题本质上是在考验机器的常识理解能力。常识理解问题可以说是人工智能皇冠上的问题。 (编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |