全自动采集最新行业文章(国外文献综述及机器新闻发展现状(一)Jung)

优采云 发布时间: 2021-12-27 03:06

  全自动采集最新行业文章(国外文献综述及机器新闻发展现状(一)Jung)

  四、国外文献综述及机器新闻发展现状

  (一)外国文学评论

  机器新闻写作起源于美国。因此,西方媒体在相关实践上有着更丰富的经验。依托实践优势,国外研究人员的相关研究也较为全面,形成了较为完整的理论研究体系。纵观他们的研究课题,他们主要集中在以下两个方面:

  一是基于技术原理的相关研究。在技​​术研究中,有学者提出计算机程序设计是基础,算法是辅助。两者同等重要。在两者的保护下,机器最终完成了信息采集和文本转换的工作,实现了新闻写作。从本质上讲,机器新闻应该被视为一种技术,是借助基于算法的技术将数据转化为文本信息的过程。它是一个程序实现的过程。最前沿的研究表明,目前的技术可以是叙事性描述,机器孜孜不倦,不会遗漏信息,不会带有个人偏见。

  二、机器新闻写作影响研究:2018年,Yair Galily指出,科技引领新闻业进入新时代。2017年,皮尤指出,算法将成为未来生活中不可或缺的一部分,必然会为人们的生活和社会发展做出更大的贡献。他明确指出,今后应加强对算法使用的控制。这是确保其发挥积极作用的前提。2014年,美国学者亚当·韦茨认为,即使未来的机器写作再完善,也无法独立完成现有记者的全部工作。换句话说,人类仍然是主要的作家,而机器只是提供一些辅助工作。这是未来的发展方向。Jaemin Jung 等人的研究结果。

  作者最有启发性的研究是美国学者克里斯特·克莱沃尔(Christer Clerwall)的作品,他比较了人类和机器编写新闻,总结了两者之间的差异。研究发现,机器新闻可能看起来很无聊,但更符合事实。在此基础上,他分析了普通人对这两种新闻的评价,结果表明,人类往往很难区分机器新闻和人工新闻。

  从现有的*敏*感*词*研究文献来看,目前还没有*敏*感*词*知名媒体对具体话题的全面报道。对于机器新闻和人工新闻,基于统一的评价标准,比较它们的写作特点、叙事逻辑,以及新闻的可读性、专业性和准确性。性等相关文献,这是本文的重点研究方向。

  (二)国外机报发展状况

  机器人记者于 2006 年 3 月首次出现。美国信息提供商汤姆森使用计算机程序取代了人类记者。该公司宣布该程序可以自动生成经济和体育新闻,机器记者可以在新闻事件发生后的0.3秒内获取有用的数据,并将其分析并整合成完整的新闻报道。

  2013年,美联社使用Automated Insights算法自动生成3亿条新闻,这是全球所有新闻媒体生产的新闻总和。

  2014年3月18日,洛杉矶时报网站的Quakebot记者在地震发生三分钟后发布了地震消息。

  2014年下半年,美联社开始与科技公司Automated Insights合作,利用公司的智能平台Wordsmith制作季度财务报告。随后,美联社、雅虎、英国《卫报》等多家媒体巨头纷纷表示,他们曾尝试用机器撰写大量日常新闻。

  截至2014年底,美联社通过“机器记者”完成财经新闻报道4400篇。美国《*敏*感*词*》杂志也实现了自动稿件写作的*敏*感*词*应用。2015年法国大选,《世界报》与科技公司合作,利用机器人记者成功报道了数千场选举的实时状态。

  2015年5月,美国NPR商业记者斯科特霍斯利与NarrativeScience的新闻软件Wordsmith竞争。他们每个人都写了一篇关于同一主题的新闻稿,记者用了 7 分钟,Wordsmith 用了 2 分钟。

  Mapping the Field of Algorithmic Journalism记录了截至2016年国外主要机器新闻写作软件开发公司及其应用。 最新的机器新闻相关新闻显示,国外机器新闻表现突出:例如美联社机器新闻写作已开启中立和真实的时代,许多经济新闻和体育新闻稿可以直接使用。再比如,日本仿生机器人已经能够在电视上直播,与人类进行简单的交流。

  综合比较,国外机报应用起步比国内早,算法技术比国内先进,发稿量远大于国内机报。

  五、研究方法和新闻评价体系的建立

  (一)研究方法——文本分析方法

  笔者选取机器写的运动机器新闻全文,找到对应的人工新闻进行对比。选择国内的腾讯Dreamwriter和国外的Wordsmith,各有3条机器新闻和3条对应的人工新闻。由于体育比赛的激烈、悬疑和高度情绪化的性质,它拥有庞大的观众群。体育新闻媒体突出竞技体育的报道,以满足这一群体的需求。除了财经新闻在机器人新闻中占比较大之外,还有体育新闻。体育新闻要求记者第一时间向观众呈现赛事情况,对时效性要求极高。这就是机器新闻的优势所在。

  (二)新闻评价标准

  笔者综合*敏*感*词*对机器新闻和人工新闻的比较研究,整理出以下4篇参考文献:

  2014 年,Christer Clerwall 首次给出了文本可信度和文本质量检查的指标,并建立了李克特量表进行问卷调查。研究的不足之处在于,选取的受众较少,仅限于新闻专业的*敏*感*词*和博士生,而且对于选取的样本,文章分类不明确,代表性不够。

  Caswell, David & Dorr, Konstantin 在 2018 年首次使用盲品测试,即观众在评价前不知道哪篇文章是机器做的,哪篇文章是人做的。本研究的不足在于没有建立客观的新闻评价体系。

  早在2005年,于建华就提出了一套网络新闻价值评价指标和标准,对本研究的文本分析起到了指导作用。评测内容涉及新闻话题、新闻内容、新闻来源、文本层次、技术因素和传播效果,非常全面。本研究的不足之处在于,文章仅建立了评价体系,并未应用该体系,也没有相应的使用评价,无法衡量该体系对新闻的评价效果。

  2017年,贾晨燕、姚远、王忠结合Word软件的Flesch可读性分析工具,针对2017年汉语的特点,建立了包括阅读速度、理解力、文字清晰度在内的李克特量表。对金融、地震和体育报道文本进行了人机比较。本研究的不足之处在于不涉及语言专业性和新闻准确性的判断。

  笔者基于上述文献和新闻评价标准的优势和价值,创新建立了一套较为全面的新闻评价标准,并将其应用于问卷调查、访谈和文本分析。

  (三)建立新闻评价体系

  根据余建华的文章《网络新闻价值评价指标体系构建研究》,新闻价值评价应涉及以下几个方面:新闻话题、新闻内容、新闻来源、文本层次、技术因素和传播效果。笔者认为文本层面可以归类为新闻内容,本文技术因素指的是机器新闻写作技术。因此,为了本研究的方便,笔者将新闻评价体系分为以下四个方面:新闻话题、新闻内容、新闻来源和传播效果。

  1.新闻话题

  于建华认为,新闻选题要考虑题材的真实性、客观性、及时性、新颖性和实质性。由于新闻内容要考虑真实性和客观性,作者确定的新闻选题考察包括四个方面:新颖性、选题意义、时效性、新闻标题质量。其中最重要的是新闻标题,它是对新闻内容的高度提炼和概括,是衡量新闻优劣的主要尺度,也是吸引受众的关键。

  2.新闻内容

  在贾晨燕、姚远、王钟的《自动化新闻可读性研究》中,作者在文末指出,判断新闻内容的好坏,要看其可读性、专业性和准确性。本文结合Christer Clerwall,Enter the Robot Journalist作品中对文本内容的一系列可信度和质量评价维度,梳理出新闻内容的评价维度:可读性、专业性、准确性。

  其中,可读性包括文本易读性(文本清晰度、文本可理解性、语言流畅性)、语言标准(语言简洁、语言准确)、阅读体验(阅读速度、阅读舒适度、阅读欲望)。

  专业基础陈学平和朱金宇的文章《突发事件中的媒体微博新闻专业研究》应该考虑真实性、客观性和一些伦理问题。笔者认为,《走进机器人记者》中对文字质量的描述,可以概括为对语言艺术的考虑,这也是专业性的一个方面。它包括以下指标:语言吸引力、兴趣、连贯性和创新性。

  准确度,根据张艳丽的文章《新闻报道准确度第一》,新闻准确度应该包括三个方面:准确的事实、准确的观点和准确的表达。笔者认为,事实的准确性与上述真实性验证一致,表达的准确性与上述语言准确性验证一致。因此,对于准确性,重点是意见的准确性。

  3.沟通效果

  关于传播效果的衡量,于建华认为应该包括点击率、信息复制率、受众反应三个方面。但笔者认为,这种评价体系只适用于网络新闻或微博新闻。对于本研究采集

的少数机器新闻和人工新闻,并非每篇报道都能得到清晰的点击、转发和观众评论数据,因此不适合作为本研究的衡量指标。

  新闻评价标准见表1。

  <IMG alt="" src="/uploadfile/article/uploadfile/202001/20200126035117543.png" width=500 height=509>

  六、腾讯Dreamwriter机器新闻与人工新闻对比分析

  机器新闻的生成过程经历了五个步骤:获取数据、分析数据、识别洞察、结构&amp;格式、发布。因此,它的内容制作是结构化的,甚至可能有模板化的迹象。

  (一)新闻话题

  研究对象均为体育新闻。由于体育比赛的激烈、悬疑和高度情绪化的性质,他们拥有大量的观众。体育新闻媒体突出对竞技体育的报道,以满足这一受众的需求。体育新闻要求记者第一时间向观众呈现赛事情况,对时效性要求极高。这就是机器新闻的优势所在。

  1.机器新闻

  篮球比赛的名称大致由球员得分、球员所在球队和球队胜负组成。他们都把观众最关注的游戏过程和结果放在了标题上进行输出和传播,做到了时效性、真实性和吸引力。整体提升。从组织架构上看,其逻辑是先从某位球员的表现开始,再以最终比分介绍球队的胜负,具有一定的格局痕迹。

  机器新闻的语言也比较灵活,表达胜负情况的方式有很多种,比如“败者不敌胜者”、“胜者离败者较近”等。令人欣慰的是,机器新闻的标题已经可以恰当地使用标点符号,比如“109-102!詹姆斯35分帮助骑士队击败猛龙”,感叹号突出了比赛的精彩结果。

  2.人工新闻

  与机器新闻相比,人工新闻标题最显着的特点是信息量更大。例如,可以添加主客场比赛的描述,球员的比分不限于球员的姓名。用词也更加丰富,比如“扫”、“出”的视觉表达。

  (二)新闻内容

  1.机器新闻

  在可读性方面,机器新闻完成了对现有比赛结果数据的提炼,将其转化为易于阅读的文本形式。这种转变是全面的,向读者展示了每个团队在每个部分的表现,并且没有任何表达错误。语言简洁流畅,以短句为主。句子成分可以识别“主、谓、宾”的结构特征,用词也符合体育新闻报道的专业术语。

  在专业性方面,其内容真实、客观、可信。文章也会根据目前的情况进行简单的描述性分析,比如“打出流畅的配合”、“出色的篮板优势”等。写作的逻辑很直接,就是根据分数对比赛过程的现场叙述。

  在多媒体的运用上,机器新闻通过插入游戏视频满足了观众对更多信息的需求,新闻发布兼顾了网络平台和移动平台。

  2.人工新闻

  整体来看,机报在内容报道上与手工报没有太大区别,都是对游戏过程的叙述。

  在可读性方面,文章语言清晰流畅。介绍了整个比赛和参赛队伍的基本情况。表述没有错误,易于读者理解。

  就专业性而言,文章真实客观。新闻内容严格呈现时间、地点、人物、事件等关键新闻要素,为读者提供丰富的信息。用词更加多样化和灵活,如“三巨头”、“握手与和谐”等详细描述。另外,文中使用了比喻性的修辞手法,如“保罗如闪电般划过”,这是机器新闻中没有出现的描述。

  在多媒体的运用上,人工新闻更加灵活,通过插入图片或视频来丰富文本中的信息,并且可以为读者提供超文本链接,将丰富的阅读内容扩展到NBA秘闻、技术统计等。读者。这也反映出人类对背景信息的掌握更加多样化。

  七、美联社词匠机新闻与人工新闻对比分析

  (一)新闻话题

  同样,研究对象都是体育新闻。由于体育比赛的激烈、悬疑和情感性质,他们拥有庞大的观众群。体育新闻媒体突出对竞技体育的报道,以满足这一受众的需求。体育新闻要求记者第一时间向观众呈现赛事情况,对时效性要求极高。这就是机器新闻的优势所在。重点比较标题。

  1.机器新闻

  机器新闻的标题同样注重对评分结果的描述,但标题的模板不明显,表现形式更加多样化。值得注意的是,Machine News 可以缩写更长的球队名称,例如“North Carolina”缩写为“UNC”。

  2.人工新闻

  人工新闻的标题句比较灵活。句子切分方法不限于主语、谓语和宾语。它还使用标点符号、逗号和同位词,并大胆使用俚语表达,例如“last-gasp”和“Spikes down Cyclones”。更具吸引力。

  (二)新闻内容

  1.机器新闻

  在可读性方面,英机报也完成了对现有比赛结果数据的提炼,将其转化为易于阅读的文本形式。这种转变是全面的,向读者展示了每个团队在每个部分的表现,并且没有任何表达错误。语言简洁、流畅,以短句为主。句子成分可以识别“主、谓、宾”结构,所附动名词结构表也是其常用句型。每段句数为2-3句,阅读节奏感强,不易疲劳。

  在专业性方面,其内容真实、客观、可信。用词符合体育新闻报道的专业术语。句子之间有比较简单的逻辑联系。可以使用“However”、“While”等连词,也可以使用“similarly”等简单副词。写作逻辑简单明了。每一段以球员姓名开头,根据得分情况和球员表现再现比赛过程。

  在多媒体的运用上,机器新闻通过提供游戏的详细数据作为链接,丰富了文章的内容,同时还可以进行简单的图片展示。

  2.人工新闻

  在可读性方面,人工新闻最突出的特点是长短句相结合。不仅有成分丰富的长句,还穿插着短小精悍的短句,使阅读充满韵律感。同样,每个句子不会超过3个句子,容易阅读,但篇幅较长。此外,部分文章对关键名词或名称进行了粗体设计,突出重点,互动性强。

  在专业性上,可以保证内容的真实、客观。在用词上,除了体育比赛专用语言外,还加入了更丰富的描述性词语或俚语,如“定位球好球”、“爆破”等。人工新闻更大的特点是增加了对球员的采访和直接引述,在比赛的关键时期增加了球员对自己或对手的评价,更有趣,让文章的内容更加充实,且不易引起读者阅读疲劳。写作逻辑以游戏过程的先后顺序为基础,辅以游戏的细节或人物的直接引述。

  在多媒体的使用中,插入图片和视频已经成为一种固定的搭配。部分文章会在文末增加更多相关新闻的超链接,方便读者扩大阅读,增强用户粘性。

  八、总结与讨论

  (一)中英文机器新闻报道的区别

  首先,比较美国和中国媒体的新闻写作。美联社的机报更成熟、更长;新华社的机器新闻,句子简单,数字单调。由于美国的机器新闻技术兴起较早,投入巨资,发展迅速,美国媒体的机器新闻在更大程度上能够满足读者对信息的需求。中国的机器新闻发展较晚,所以目前呈现的新闻文本还有很大的改进空间。

  值得注意的是,由于中英文的差异,中文的机器化输出会比较困难。因为中文的句子结构比英文复杂,而且中文的表达涉及成语、诗句等文学表达,这使得中文机器学习难度更大,所以中文机器新闻和人工新闻的区别就更加显着。另外,在新闻评论方面,机器没有语言生成机制来提出创新建议,而人工新闻评论则犹如水中鱼。从这一点来看,机器新闻,尤其是中文领域,短时间内未必能超越人工新闻。

  (二)如何让机器新闻文本更能媲美人类

  1、新闻话题

  目前,机器新闻在新闻话题的选择上相对有限,而机器新闻更适合气象、体育、健康、金融等领域的报道。但从观众的评价来看,即使仅限于这些领域的报道,机器新闻的话题也可以是有意义的。同样,希望机器能在话题的新颖性上有所突破,努力写出更多创新的报告。至于新闻标题,如何做到短小精悍,激发读者的阅读兴趣,而不是简单的罗列信息,这需要更多的技术投入。

  2、新闻内容

  新闻内容的优化主要有两个方面,一是语言优化,二是多媒体新闻呈现。在语言优化方面,要丰富句子结构,加强句子之间的逻辑联系,多学习文学表达,使文本内容更有趣、更有创意,更能吸引读者。在多媒体呈现方面,机器新闻应涉及更丰富的新闻呈现形式,如大数据新闻的可视化、视频新闻的创建、新闻直播的应用等。

  3、沟通效果

  除了完善文字,新闻发布平台的应用也很重要。无论在国内还是国外,目前都没有专门从事机器新闻的出版机构,这意味着机器新闻没有独立的宣传窗口和渠道。为适应新媒体时代的新闻宣传环境,建议机器新闻开设自己的专属发布页面,如开设脸书、微博、微信等。除了扩大宣传,也有助于机器新闻传播效果的量化衡量。研究人员可以从点击量、信息复制率、受众评论等维度判断新闻质量。

  (三)机器新闻如何更好地服务受众

  1、优化读者阅读体验

  只有好的阅读体验才能满足观众的需求。优秀的新闻作品首先要引起人们的注意,其次在阅读过程中不会给读者带来压力。语言清晰生动,丰富多样,表达技巧运用娴熟。另外,为了迎合现代人的阅读习惯,适当减少文字量,加入更丰富的图片、视频等新闻表达方式可能会更好。这些要求对机器新闻提出了更高的期望。

  总的来说,未来是人机融合的未来。通过机器,读者将获得更多的数据采集和处理结果;通过主流价值观引导的手工保证,丰富语言表达,增加线下事实的补充,拓展新闻评论和深度报道。

  2、机器新闻和用户交互

  机器推送消息的个性化一直是大数据的一大利用。通过数据分析对新闻受众进行画像,然后为用户匹配最合适的新闻。

  此外,新闻发布形式也越来越多样化,不仅是文字新闻,还有图片新闻、视频新闻、直播新闻。那么,在未来,用户或许可以为自己预订新闻,选择观看特定时间特定地点发生的新闻,而这个过程将由一台机器来实现。

  个性化的用户交互体验非常重要。只有最人性化的服务才能带来卓越的用户体验。这也是做广告的必须,其带来的经济效益也不容小觑。

  (四)其他讨论

  1、机器新闻与新闻教育

  业内人士指出,设计人工智能的技术人员与使用它的记者之间的知识鸿沟和沟通鸿沟可能会导致新闻输出的弊端。除了较高的写作能力要求外,社会对记者的期望不仅是写出优秀的稿件,而且在图片、视频、数据新闻可视化等方面的制作更加专业化要求。

  此外,在机器的辅助下,所有程序化和事务性的任务都可以交给机器处理,记者将成为更高端的职业,需要全面提升人文情怀和技术素养。这些都对新一代记者的教育提出了更高的标准。他们不仅需要学习基本的新闻和传播课程,还需要学习编程。

  2、道德和监管考虑

  机器新闻在道德使用和数据披露方面面临各种道德和法律基础问题。

  首先,对于用户来说,如何采集

、存储、使用、分析和分享用户信息非常重要。在大数据时代,用户的任何网络足迹都将成为其个人信息的一部分,因此对用户个人信息的抓取程度是合理的,需要有明确的法律法规来规范。

  其次,写机新闻过程中网络资源的引用是否会涉及侵犯知识产权也是一个值得探讨的话题;使用数据进行新闻报道时使用的算法应该如何透明;读者是否应该得到一个透明的方法论﹔应该建立什么样的合理的问责制度来造成不良后果也值得讨论。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线