新闻写作的未来:人类记者和机器人记者如何互动
来源:和讯网 发布时间:2015-11-26 11:36:06

资深媒体人、FT中文网总编辑王丰撰文指出,

巴黎恐怖袭击后短短一周多的时间,已有至少四位中国公民在世界各地被极端伊斯兰恐怖分子杀害。中国人再次深切感受到了在一个全球化的时代,恐怖主义无远弗届的祸害。

在对几次恐怖事件的报道中,我注意到,中文新媒体平台和自媒体都异常活跃迅捷。突发快讯的翻译、实时进展的跟进,甚至独家现场报道,都可圈可点。但是,相关媒体在报道准确性方面也出现了一些不大不小问题。

巴黎恐怖袭击尚在进行中时,国内各门户网站、自媒体公号对袭击细节和伤亡人数的及时更新都动人心魄,吸引了很多读者。但其中不乏误译误报,在短时间内有误导读者的可能。印象较深的是,“遇难人数上升到197”一度被多家新媒体、自媒体引用,事后证明与实际情况差别很大。甚至有门户网站专门指出,“197”是法国警方提供给目击者的紧急热线号码,不是死亡人数。

另外一个比较离谱的错误是,官方通讯社中新社的网站在11月19日上午发布了这样一篇报道:“美波士顿发枪击案 嫌犯引爆爆炸物自杀身亡”,随后被新浪等门户网站转载。

这条新闻在国内似乎未引起太大影响,但很快有身居美国的朋友指出,波士顿根本没发生这类案件。倒是美联社当天发布了一条波黑萨拉热窝发生枪击案的新闻,除了地点外,与上文各种细节完全一致。初步判断是,中新网把“波斯尼亚-黑塞哥维那”错误地翻译成“波士顿”,把枪击案地点挪到了7000公里之外。

举出上述例子并非幸灾乐祸、或是以“行业警察”自居,而是因为我由此联想到了近几年来逐渐火爆的另一个行业话题:机器人写稿。日益强大的计算能力和大数据分析能力,结合机器学习方面的技术进展,已经令电脑程序可以取代新闻从业者的一些职能,并且让国内外不少新闻业同行感到紧张。那么,这些技术是否也可以帮助新闻机构避免此类令人尴尬、误导读者甚至可能造成巨大损失的事实错误?

以我对“机器人写稿”技术发展至今的观察,它似乎主要作用在传统新闻采编流程中的三个节点:

一是信息的采集。在信息爆炸的时代,新闻行业早已开始通过电脑程序筛选信息,捕捉海量信息中的“突发”和“异动”,发现新闻线索。例如,驻华外国财经媒体早在十几年前就开始用类似网络爬虫的软件实时监控关键政府、机构、企业网站和数据库,尤其是央行、财政部、统计局等定期发布的宏观经济数据。相关数据库、网页一旦有更新,这些软件立即以邮件、手机短信或电脑桌面“红条”的形式通知记者处理。财经类通讯社间对发稿时效、第一时间影响市场能力的竞争,往往精确到秒甚至毫秒;比起更早时候新闻助理们整天眼巴巴地盯着新华社电讯终端,或者用鼠标手动刷新网站,爬虫软件显然高效、人性得多。

时至今日,社交媒体日益成为新闻线索的最快、最广来源,监控分析社交媒体动向和趋势的软件更是不断推陈出新,很多技术能力强大的新闻机构更是自行开发相关软件,直接接入自己的内容管理系统(CMS)。

当然,近几年来最为吸引业内和大众眼球的还是人工智能技术在“写稿”环节的应用。就目前的发展看,这一功能的基本原理其实并不复杂:对于一些相对格式化、以数据为核心内容的新闻(例如财经、体育新闻),记者编辑们可以先准备好相对固定模板,其中的变量(时间、地点、数据等)可以随时由上文提到的由爬虫软件获取的最新数据所代替,从而生成最新的报道。

据我所知,彭博社、路透社等财经新闻机构,至少在四五年前即已自行开发相关软件,以多半自动、少半人工的形式生成并发布格式简单的财经新闻。类似技术近年来在国内外新闻机构间不断改进升级,也在大众中引起了越来越高的兴趣。

以今年9月份在国内媒体圈轰动一时的腾讯财经“8月CPI同比上涨2.0% 创12个月新高”这篇新闻稿为例:

“腾讯财经讯 国家统计局周四公布数据显示,8月CPI同比上涨2.0%,涨幅比7月的1.6%略有扩大,但高于预期值1.9%,并创12个月新高。

国家统计局城市司高级统计师余秋梅认为,从环比看,8月份猪肉、鲜菜和蛋等食品价格大幅上涨,是CPI环比涨幅较高的主要原因。8月份猪肉价格连续第四个月恢复性上涨,环比涨幅为7.7%,影响CPI上涨0.25个百分点。部分地区高温、暴雨天气交替,影响了鲜菜的生产和运输,鲜菜价格环比上涨6.8%,影响CPI上涨0.21个百分点。……”

其中CPI和各种商品价格的同比、环比涨跌数据,都可以由“爬虫”从国家统计局网站上获取,填入事先准备好的模板中。腾讯财经此文还引用了多位分析师的观点,估计是采用了更加复杂的预设模板和逻辑判断,并且可能最后仍需一定程度的人工干预(编辑)。

第三个节点是新闻机构生产出的内容的智能发布。例如《纽约时报》开发的Blossom程序,通过大数据分析确定哪些内容更适合发布到社交媒体平台。这个节点似乎与本文讨论的内容关系不大。

那么,问题来了:如果随着机器学习能力的提高,上文提到的“抓取信息+填充模板”的机器人写稿形式逐渐扩大到更多的领域,适应更复杂的情况,它能否同样具有强大的“防错”和“纠错”功能?“机器人记者”除了比肉身记者更加快捷外,还能够更加准确吗?

从理论上看,机器人记者的准确度似乎可以完胜人类记者。

首先,用爬虫类软件从权威信息来源处搜取的信息和数据,在转换成为新闻产品的过程中极大减少了人为误抄录的可能。在翻译问题上,尽管不同语言间的机器翻译仍旧不能完全替代人工翻译,但各种电脑辅助的翻译工具已经可以实现数字、拼写、语法、专有名词、上下文一致性等多种内容的翻译和校对,上文提到的把电话号码误做死亡人数,或是“波黑-波士顿”一类低级翻译错误可以轻易被电脑翻译工具发现并纠正。

当然,准确程度也极大地取决于计算能力和软件的完善程度。四年多前,我所供职的一家国际财经通讯社为了提高对中国宏观经济数据报道的速度,开始试验以软件从政府网站调取最新数据,并自动以简单的新闻模板发布。但是,试验开始不久,就出现了一次重大事故:搜索软件误将政府网站上一个月前的旧页面当做更新页面,将数据调取后形成快讯稿,并且未经编辑核实,直接发到到客户终端,引发不少客户投诉,万幸未造成重大投资损失。时至今日,尽管软件的复杂程度和计算能力已有巨大进步,机器应对种种复杂的现实情况的能力、尤其是学习能力,仍旧是关键。

其次,在信息来源的甄别和核实方面,电脑的强大处理能力也有助于大幅提高准确性。

在浩如烟海的政府、机构、企业、媒体网站和数据库、个人网站和社交媒体账号等等之中,如何判断哪个是“权威”、“可靠”的新闻来源?目前已知的和可以想象的做法,包括通过对海量历史内容的检索和互相验证,形成对信息来源可靠性的评判;判断某一“新闻事件”是否真正发生,可以监控与之最相关领域的媒体、个人和机构的反馈,尤其通过那些可信度较高的个体的反馈加以判断;甚至依据地理位置,从周边大量个人社交媒体账号的反应得出判断… 这些依赖于强大的数据处理和分析能力的工作,电脑显然都比人更加胜任。

但是,人类记者和机器人记者最大的区别出现了:除了相对被动地搜寻现存信息以外,人类记者还可以主动调查和核实信息:联系当事人、可能的知情人或相关专家,通过人际交流实现对信息的证实或证伪。新闻归根到底是为人类服务的,人类记者的最大价值也就体现在人际交流的能力。除非电脑演进到可以与人类主动、无障碍地交流,甚至通过智慧、心理的较量从人类身上获得后者本来不愿提供的信息,这将成为人类记者不可替代的最后一块阵地。当然,如果电脑真的发展到全面“智压人类”的地步,那也就是“天网”统治世界、毁灭人类的时候了。

至于在常识、直觉、同理心(empathy)、感召力、职业道德等等对于广义的新闻工作具有重要意义的能力和素质方面,更是很难想象电脑能够在可见的未来替代人类。

这样看来,依据远超人类的强大计算能力来获取、筛选和分析数据是机器人的强项,新闻业与之相关的工作也正在被电脑不断取代,这对新闻行业整体的时效、准确、客观性提升大有帮助;但是,在可见的未来,即便是在纯粹事实性的新闻报道中,电脑仍旧难以完全取代人类记者。

也许未来的新闻机构不再需要动辄几十人、数百人的“大平面”办公室,会在一定程度上以大型服务器机房甚至是“云计算”取而代之,但在一些关键的、具有高附加值的环节上,经验丰富的人类记者编辑仍旧将占据核心的地位。诸如观点、分析、评论、调查等更加复杂、涉及人类主观意识的新闻形态,在未来很久一段时间内都必须仍旧由人类记者编辑负责——除非这些形态乃至传统意义上的新闻行业,因为市场需求的变迁而先行消亡。

在新闻这样一个面临巨大冲击的行业,上述结论未必能给从业者多少安慰。但是至少,它提醒我们不能放松职守。电脑会让我们中的很多人失业,但不会是全部;电脑替我们做了很多累活苦活,但最重的责任,仍旧需要我们来承担。

说到这里,是否可以请中新社和新浪网至少把“波士顿枪击案”的错误网页删掉?(文章来源:FT中文网)

新闻热词