美女头像这么多，腾讯云安全用大数据告诉你哪个是骗子

发布时间：2017-09-11 13:14:58 所属栏目：站长百科来源：雷锋网

导读：副标题#e# 编者按：作为拥有微信和qq等社交应用的腾讯，用户数据是其非常重要的资源，同时也是腾讯安全重点关注的领域，连CEO马化腾都一直在讲，未来的安全是大数据安全。腾讯云安全总监周斌（Blue）在 2017 腾讯安全技术国际峰会中，就以“大数据下的黑产

这也是现在非常大的一个门槛，正是由于这种社交关系链实体之间彼此关联，依赖性强的原则，传统的几个分布式的系统已经很难去处理，我们需要一个更高速的系统，所以我们搭建了围绕顶点流水化磁盘图计算的方法，来搭建了一个扩容性很高的系统，目前的情况下我们使用一台服务器大概需要差不多 120 个小时左右，可以把我们现在权量的关系全部跑一遍。如果要对用户做完整的标记评分，大概需要 62 个小时完成。

由于这个算法的计算，我们会进行大盘数据的分析，最后我们会输出一个结果就会看到，由于算法计算完以后，会看到不同的群体，其实会有相似的这种系统驱动性，但是在这中间就会发现很多不一样的点出来。大家其实看到，这个就是依据于算法跑出来的结果，这个结果里面其实可以看到绝大多数的点都是相同的，但是一定会出现不一样的群体。这些不一样的群体就是我们中间能够发现的高可疑的状态。最终我们把这些可疑的状态纳入到线网当中，去进行一个快速识别时就可以发现大量的疑似恶意的行为。

右边我列了两种恶意的行为，上面是跟内容相关，下面大家看上去好像没什么问题，如果熟悉黑产行业的，各位可能就会知道，右下就是色情引流，用美女的头像去吸引点击，实际上本身的账号就是有非常严重的问题，但从传统的规则匹配或行为匹配上没有任何的问题，这只能在大盘里通过社交关系和单个用户的打分来找出不一样的群体。

这个是在账号这一层做的一些动作，在账号维度之后我们会进入到第二层，也就是说构建第二层段内容的模型。我们在第二层内容的模型一共四层，最底层是数据层，构建画像、信用、信息、种子库这样的基础系统。在算法这一层，包括像文本的识别，像Boosting的算法入到基础的算法库。我们在逻辑处理这一层，可能大家都很了解，像风险识别、子类分析，都有不同这样的维度。最后我们会在接口层上输出不同维度的产品。

我们可以介绍一下这块做的工作。分两部分，一部分是存量，一部分是新增。

我先从存量讲起，对所有存量的数据我们会从三块去做，业务层其实是存量的数据，第二层做了一个无监督的学习，无监督学习这里主要是用Boosting的方法去做，我们先生成了一个词类的字典，然后生成变换举证，去生成小类的表格，然后用算法对整个词生成多套变换矩阵最终进行排序，目标是进行参数判断，最后进入一个打击策略，也就是我们叫做处理的阶段。这个过程不用考虑太多效率的问题，因为毕竟是对历史存量数据的处理，但是对于实时的信息，也就是新增的话，会需要一个更快速的处理逻辑。

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

5/10

首页

尾页