资料图

每个词语在单独使用的时候都至少有一个意思,但这一意义可以根据不同的语境,甚至是随着时间的推移而变化。

一个充满中性词汇的句子可能就充满了敌意(「只有白人应该有权利」),而一个充满潜在敌意词汇的句子(「去他妈的,他妈的你穿的什么」)在你承认它是坎耶·维斯特式的诗句的时候那就是中立的。

人类通常都擅长做这种语法分析,而机器却无法做到。然而,Facebook在去年6月宣布,它已经建立了一个文本分类引擎,以帮助机器翻译文字。

这个名为「深度文本」的系统是基于最高级人工智慧的基础 ,和一种叫做「单词嵌入」的概念来运行的,意思是它的设计是为了模拟语言在我们大脑中的运行方式。当该系统遇到一个新单词时,它会像人类一样,试图从周围的其他单词中推断出它的意思。

例如,白色这个词在不同的环境中会有完全不同的意思,当你看到「雪、袜字、白宫或面粉这些词时都会想到白色。深度文本的设计初衷是要像人类一样思考,并随着时间的推移不断提高。

深度文本是一种内部工具,它可以让Facebook工程师快速处理大量的文本,创建分类规则,然后构建产品来帮助用户。如果你在Facebook上吐槽白袜队,这个系统应该很快就会发现你在谈论棒球,在更深层次上 ,它应该已经知道这是一项运动。如果你在谈论白宫,它分析你可能会想看新闻。如果你在雪附近使用「白色」这个词,它会觉得你可能会想买靴子。如果你谈论的是白色的面粉,也许你不应该出现在这个平台上。

正如Facebook所解释的那样,使用「深度文本」就像是在用鱼叉捕鱼。然后,开发者们就开始在河中跋涉 。

在了解了深度文本之后,Instagram的高管们几乎立刻就看到了一个与Facebook竞争的机会,Facebook曾在2012年收购了一个平台:垃圾邮件。人们使用Instagram主要是为了拍照,但他们经常很快就会离开,因为界面下方很多没用的话,在那里,会有机器人(有时也是人类)推销产品,继续往下,或者只是没完没了地重复「成功」这个词。

Instagram要做的第一步是僱佣一些人来整理平台上的评论,并将他们归类哪些是垃圾,哪些不是垃圾。这类工作,大致相当于社交媒体上的消防员,在科技行业是很常见的。人类训练机器来完成单调甚至是令人沮丧的任务 ,机器最终会做得更好。如果人类把这些工作做好,机器就会失去工作。与此同时,所有人发布的消息都得到了深入的分析。

在分析员们整理了大量的污垢、丑闻和低等级的敲诈信息之后,五分之四的数据被导入了深度文本。然后,Instagram的工程师们努力创建算法 ,试图对垃圾进行分类。

同时,系统分析了每句话的语义,并将信息来源考虑在内。一个你不关注的人的笔记更可能是垃圾邮件,而不单单是那个人有问题;在塞雷娜·戈麦斯(SelenaGomez)的帖子里,那些没完没了的评论可能不是由一个人做的 。

之后,使用算法来检测没有被投入深度文本的那五分之一的数据,以观察这些机器与人类分析的匹配程度。最终,Instagram对这一结果感到满意,该公司于去年10月悄然推出了这款产品。垃圾邮件开始随着算法的运行而逐渐消失,就像一个充满灰尘的大房间一下子变得很干净。

Instagram不愿透露该工具减少了多少垃圾 ,或者泄露该系统是如何运作的内部秘密。当我们向一个垃圾发送者表现出防御姿态时,他们会思考如何反击 。但是,Instagram的执行长凯文·斯特罗姆(KevinSystrom)却很高兴。

因此他决定在一个更复杂的问题上使用深度文本:消除刻薄的评论。或者,更具体地说,删除那些违反Instagram社区准则的评论,或者像该公司的一位发言人所说的,删除那些违反道德准则的评论。这些指导原则相当于社交媒体平台的宪法。Instagram公开发布了一个1200字的规则——要求人们永远尊重他人,永远不要赤身裸体——而且,它还有一个字数更多的内部要求,员工们会把它作为指南。

一个人看一看评论,然后判断它是否合规。如果不合规,他就会将其归类为一种类似于欺凌、种族主义或性骚扰的行为。这些分析员至少掌握两种语言,他们分析了大约200万条评论,每条评论都至少被分析两次。

与此同时,Instagram的员工们也在自己的手机上对该系统进行了测试,同时公司也在不断调整算法:选择和修改那些有用的,删除那些没用的。这些机器给每条评论在0到1之间打分,这就是Instagram的置信度,根据这个可以分析哪些评论是无礼的或不恰当的。

当置信度超过某个阈值,该评论就会受到攻击。和垃圾邮件一样,这些评论都基于对文本的语义分析,以及评论者和分析者的关系,还有发出评论者的历史背景等因素。陌生人比你的朋友发出的东西更容易被公正的评分。

今天早上,Instagram宣布该系统将正式上线。当你输入一些带有恶意或骚扰的东西,如果系统有效,那些话就会消失。这项技术将自动融入人们的信息流中,但也很容易关闭:只需在设置菜单中点击省略号,然后点击评论。

这个过泸器将首先只可以在英语中使用,但其他语言之后也会跟随。与此同时 ,Instagram还宣布,他们正在不断增强自己的机器人垃圾邮件过泸器,以使其他九种语言:英语、西班牙语、葡萄牙语、阿拉伯语、法语、德语、俄语、日语和中文中一些充满恶意的评论不会通过。

当然,也有新的风险,系统可能删除一些无伤大雅甚至有用的评论。托马斯戴维森建立了一个机器学习系统来识别Twitter上的仇恨言论,他指出,Instagram试图解决的问题将会多么困难。机器虽然是智能的,但它们可以被不同语言或不同语境中代表不同事物的单词所绊倒。

以下是一些他的系统作出的错误地判断:

「我这个周末没买酒,只买了20包香菸。我很骄傲,我还剩40英磅。「

「阿拉巴马队在过去的两周里被高估了,在他们的盔甲上,有太多的中国佬给他们造成的破坏。」

当被问及这些特定的句子时,Instagram并没有特别回应。他们只是指出系统也会出现错误。这个系统的基础是原始评分者的判断,而所有人都会犯错误。算法也是有缺陷的,而且他们可能会因为他们所接受的数据而产生偏见,而且,这个系统有着百分之一的错误率,但不是零。

在该系统推出之前,我问了斯特罗姆(Systrom),他是否会让系统在艰难选择中挣扎,那些选择可能意味着要屏蔽那些不应该被屏蔽的东西。

「这是一个很经典的问题,」他回答道。「如果你目标明确,你会对一堆实际上相当不错的东西进行分类。」所以,你知道,如果你是我的朋友 ,我只是在和你开玩笑,Instagram就应该让它通过。我们不想做的事情就是在任何情况下屏蔽不应该被屏蔽的东西。但是现实是,这件事一定会发生,所以,最重要的问题是:这种误差幅度是否能阻止那些真正糟糕的东西?」他接着说,「我们不是来限制言论自由的。我们不是来限制朋友间的有趣对话的。我们在这里是为了确保我们可以消除Instagram上的负面评论。」

如果Systrom的说法正确的话,在这个系统的运作下,Instagram可能会成为网际网路上最友好的地方之一。又或者 ,它看起来似乎过于精致和可控。或者 ,这个系统可能会开始删除友好的玩笑或政治言论。斯特罗姆(Systrom)渴望找出答案。他说:「机器学习的全部理念是,能够理解这些细微差别 ,它比任何一种算法都要好得多,也比任何一个人能做到的都要好得多。」「我认为,我们需要做的是找出如何进入这些灰色区域,并根据时间判断算法的性能,看看它是否真的能改进。」因为,如果它只能给我们带来麻烦,却不起任何作用,我们就会放弃它,重新开始研究新的东西。

http://cdylmjg.com | Welcome to Stondio! | 树脂 | 汽车 | 智邦 | www.ccsh998.com | 家乐 | http://bjxuyuande.com | www.xjjywl.com | www.guilinbeier.com