维基百科是人人皆可编辑的网上百科全书,是互联网最多人访问的网站之一。这种众包创作的模式彻底改变了我们获取信息的方式,但是也引发了传统百科全书没有遇到过的问题:故意用虚假、伪造的信息破坏和搞脏词条的行为,所谓的 vandalism。过去维护维基百科的 Wikimedia Foundation 由于人手不足,在对付此类行为上往往疲于奔命。不过现在资深科学家 Aaron Halfaker 已经想到了对付的办法,他开发了一款人工智能引擎,可以识别此类故意破坏行为。
你可能会想既然这样那小编是不是要下岗了?因为机器可以取代人类了(有人预测 AI 会取代人类 47%的工作)。不过 Halfaker 的项目目的却是要增加人类的参与。维基百科研究总监 Dario Taraborelli 说该项目的目的是把人的注意力分配到最需要的地方。
这是怎么回事呢?
虽然维基百科人人可用编辑,但在过去,如果作为新手的你想对重要的维基条目进行变更,往往会收到一条自动回复称不允许你做出变更,除非用户遵守一套严格的规则要求,从某种程度来说,这属于严进宽出。这一点把很多人排除在维基百科日常编辑的大门外。据调查显示,维基百科的参与程度已经开始出现下降。
Halfaker 现在希望能让维基百科对编辑新手更友好。他的项目叫做 Objective Revision Evaluation Service(客观修订评估服务,ORES),项目利用了一套名为SciKit Learn的开源机器学习算法来自动识别哪些故意破坏的修订行为,但同时又不会驱逐那些正当的参与者—换言之,严进宽出变成了宽进严出。
这套系统的识别主要靠对特定关键字及其变体,以及特殊键盘模式的识别。比方说,系统能够识别一大段异常的文字(如单词之间没有空格等等)。从技术的角度来说,这是相当简单的机器学习例子,但是却很有效。事实上,尽管系统无法识别那些精心编制的虚假条目,但结果证明绝大部分的破坏行为都不是很聪明,模式基本一样(因为精心编撰虚假条目同样需要精力)。
那 AI 能不能自己通过机器学习来编撰百科知识呢?尽管 Google、Facebook 等公司的深度学习在图像识别、语音识别等方面取得了一些进展,但近期内看机器还是无法具备这方面的能力的。维基百科的这套 AI 的目的是驱走劣币(破坏行为),让更多的良币(人类)更方便地编辑条目,从这个意义上来说,AI 也许是给人类创造了更多的机会。
本文参考了多个信息来源:wired.com,36氪编译。
·氧分子网(http://www.yangfenzi.com)延伸阅读: