今日头条是如何反低俗的? 首次揭秘灵犬背后的技术原理

创业资讯 阅读(567)
?

7月30日,今天的标题宣布正式推出3.0版本的反流氓助手(以下简称“灰狗”),并支持检测图片和文字的低质量和低质量内容。用户可以使用“灰狗”来检测文本和图片等内容健康指标,并参与打击低质量和低质量的内容以及净化网络空间。

在同一天的下午,一个名为“算法如何反庸俗”的通信将在字节节拍中举行。 Byte Beat人工智能实验室主任王长虎分享了这一主题,并首次向外界揭示了“灰狗”背后的技术原理。

%5C

Byte Beat人工智能实验室主任王长虎分享了“灰狗”背后的技术原理

,防伪信息,反低质,并投入近万名专业审计团队。

同一天发布的3.0版“Greyhound”专注于反庸俗识别类型和模型功能,现在涵盖文本识别(反色情粗俗,反暴力,反标题派对)和图像识别(反.色情粗俗,反血腥暴力)。

据了解,在文本识别领域,新版“灰狗”同时使用“Bert”和半监督技术。训练数据集包含920万个样本,准确率提高到91%。在图像识别领域,采用“灰狗”。深度学习作为解决方案,在数据,模型和计算能力方面进行有针对性的优化;

王长虎介绍,“灰狗”背后的文本分类模型已经历了三次迭代。最新版“灰狗”同时使用“Bert”和半监督技术,并在此基础上使用特殊的中文语料库,优化模型结构,使计算效率达到实用水平。 “Bert”是最先进的自然语言处理技术,其在阅读理解,语义蕴涵,问答,相关等任务中的表现得到了极大的提升。

与文本识别不同,图像识别的技术难点主要在于三个方面:不平衡,内部差异和必不可少,即粗俗图片占整体图片内容的比例较低,粗俗图片丰富复杂,这构成了粗俗的图片。特征差异很大。

在这方面,“灰狗”使用的解决方案是深度学习。 “我们在数据,模型和计算能力方面做了很多优化,”王长虎说。在数据层面,“灰狗”已经积累了数千万的训练数据。在模型层面,“灰狗”优化了许多困难样本的模型结构,并试图解决复杂问题,如多尺寸,多尺度和小目标。在计算层面,“灰狗”使用分布式训练算法和GPU训练集群来加速模型的训练和调试。

与此同时,王长虎还提到,反粗俗不能单靠技术来解决。粗俗的定义和标准将随着人群,使用场景和时间等因素而变化。鉴于粗俗判断问题的复杂性和不同判断方法的局限性,王长虎提到,一方面要不断发展技术模式,一方面要有效地结合技术。和手工判断。

新闻始终要求达到最高标准,”王长虎说。 “狗是一个开放的反庸俗窗口。我们希望通过狗接受各界人士对反粗俗的看法。和建议。“