加入收藏 | 设为首页 | 会员中心 | 我要投稿 西安站长网 (https://www.029zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 正文

两年后台产品经理工作,我把这些讲给你听(中)

发布时间:2019-11-24 23:09:28 所属栏目:创业 来源:做站长
导读:副标题#e# 2017年入职,2019离职,2年社交产品后台的工作,让我对后台产品有了很多思考与总结;汇总成这3万字,分上中下三篇发布,此为中篇。希望能对大家有所帮助。 接上篇,继续讲第二部分:做事节奏。 7. 入库流程模拟 当结果数字被验证方案确定无问题,

我们在输出分类的时候,会在页面上给审核同学看,为什么机器打上这个分类,如果机器十分确定,置信度高,会标绿;机器不确定,置信度一般,会标黄;机器懵了,置信度低,会标红。绿色人工可以不干预,黄色会在提交的时候闪一下提示你看我一下,红色必须干预去矫正我。

对于视频分类的判断,还会更复杂一些,我们主要去用ASR技术来去识别语音转文字,然后再用NLP接手,有一些视频还会日常带字幕,也会用OCR技术来去识别字幕,用于内容质量打分的服务。

同时由于视频的特殊性,我们的视频博主的审核台与文本类也是不一样的,会将博主的视频以时间轴形式展现,下方呈现一个一个机器识别出的tag,而最上方与博主信息在一起的部分,就是机器认定的博主的分类情况,博主运营也相对方便地修改机器标签。

2. 内容质量分

内容质量分的核心是内容的连贯性,内容质量分主要服务于我们的业务线划定。

我们只有2条业务线,标准化交易业务线,非标交易业务线。对标准化交易业务线的博主内容质量要求不高,基础数据到达一定量级就可以;对非标博主的内容质量要求非常高,因为要帮助客户制作原创创意软文或软广了。

对于微信文本,我们会将连续的低营销度的内容,分类进行串行观察,看是否能在同一点阵聚类;原创标记占比,非原创内容重合度占比;内容的排版是否相似,我们调用第三方的编辑器一起做这项工作;文章长度是否都在某一区间,这些都是用于判定内容质量的特征。

当连贯性大于某个阈值时,比如说0.8,我们就判定博主为高质量原创内容。

对于微博,单从内容判断就很难了,我们需要判定博主的互动情况,结合内容查重;判断互动的比例如何;和他互动者的博主都是谁,头像、昵称、时间轴是否有水号嫌疑;是否会员加V等信息来判断博主质量。

对于视频,仍然从内容质量度去切入。比方说刚刚说的OCR识别字幕,是否每个视频都会带字幕;是否声纹是一致的(调用的百度识别服务);是否出现的主体(人物和场景)都是一致的(百度服务);横屏竖屏、内容长短、视频质量,综合和微信差不多,串连起来判定博主的内容质量分,这就是为什么刚刚举的例子,那个可能不是一个好博主的原因。

3. 营销度分

最后AI会输出这个博主的营销度评分,我们主要来根据这个博主的营销特征判断它的商业化程度,供后续的估值模型影响博主价值和分级。

在业务中,供库存模型进行计算该博主的库存周期和库存数量。

营销特征主要包含:

文本里面提及了文字,像促销、销量、折扣、价格、宝宝们等;还有一些二跳里很明显的像阅读原文URL、二维码、URL、淘口令等;深层一些的比方说小程序的标题名字是否带营销倾向,小程序跳转后的主页是否类电商,对图片的细分判断比如图主体是什么,主要识别角标位置,是否带品牌logo、价格、日期,或一些其他营销类的用语,结合OCR技术;对视频来讲,主要是是否带橱窗,以及ASR转化为文本后,NLP接手,这个过程和文字处理是一样的。

以上都是我们大量数据分析之后的一些结论,不可能穷举,全部的特征词大概上千个。

其实这个过程是线性流程,但是AI是个黑盒,他是一起输出,计算也是一起计算,我们矫正也是一起矫正,所以3组数据之间可以互利互惠。

目前所有数据也都可以为空。一般情况下不会出现为空,一旦为空会稍后重新计算,每个值会最多计算3次,如果最终还是为空,会写入null,并发送短信通知对应的算法工程师,第二天予以排查。

(编辑:西安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读