资讯动态

赵瑜 等 | 拟人化趋势下的虚拟主播实践与人机情感交互

文章发布时间:2024-01-23

自 1956 年达特茅斯会议上一批年轻的科学家首次提出“人工智能”的概念,进一步扩大了技术人工物社会功能的想象空间,科学家在数十年间竭力模拟人类的智力和行为决策形式。从专注于解决具体场景的信息收集、判断和决策问题,到“通用人工智能”全面解决人类智力模拟问题,人工智能的细分研究领域不尽相同,但在其社会运用中,开发人员似乎一直致力于“让人工智能看起来更像人类”。聚焦到传播领域,智能系统和虚拟分身正在发挥日益重要的作用。自 2018 年新华社推出全球第一个合成新闻主播,从 2D 到 3D 、从单机位到多机位,主流媒体在全国两会等重要新闻场合也推出了多款 AI 主播,主播的拟人化程度也日渐提高。传媒行业偏爱拟人化表征的智能系统,是行业的偶然性选择还是根植于人机协同和情感交互的必然趋势?文本通过对人机协同的文献梳理和案例分析,为解答上述问题提供思考线索。

一、“拟人化”的定义及其成因

在人类与人工智能互动的研究领域,“拟人化”是一个被频繁提及的概念,即“将真实或想象的非人类行为赋予类似人类的特征、动机、意图或情感的倾向”。作为一个自动的心理过程,拟人化是人类以自身为中心进行判断的习惯性特征。休谟提及的“同情心”与孟子所言的“恻隐之心”,都是通过情感的拟人化推己及物;而谷鲁斯的内模仿说、贡布里希提出的“观念的拟人化”,则是由物及我的共情机制。技术人工物能够与人进行有意义的社会互动,本质上也需要具有一定程度的拟人化或类人特性嵌入,无论是形态上还是行为上,抑或是两者兼而有之。

美国心理学家尼古拉斯·埃普利等学者进一步总结了影响拟人化的三因素模型,他们假设拟人化是基于三个核心的心理因素:一是诱发主体知识,即以人类为中心的知识的可及性和适用性;二是效能动机,即解释和理解行动者行为的动机;三是社会动机,即对社会接触和从属关系的渴望。根据该模型,人们对机器人、数字人等智能系统的外观和交互设计进行拟人化处理,可以帮助人们理解技术人工物的功能,并满足人类的社会动机。

基于上述内蕴在人类情感、社会交互中的深刻动因,在智能化技术日益产生中介效应的当下社会,越来越多的拟人化虚拟主体被开发且运用于日常生活工作中。在某种程度上,人们借助人工智能实现了“一个人内传播的闭环”,将其“通过人性这面镜子投射出自己的模样”。这种感知的拟人化以及背后社会规则的应用,似乎是一个“无意识”的过程,使得人们自然认同机器人和其他 AI 系统最适合与人类联系起来。

二、“拟人化”程度与人机情感交互

拟人化为理解和阐释人们如何与人工智能等非人类实体和虚拟系统互动提供了一个理论基础,并为阐明这种关系的心理机制提供了逻辑线索。机器的拟人化可以帮助减少人机交互的不确定性,从而增加交互的可能性。同时,拟人化特征可以促进用户感知社交存在和人类温暖,从而诱导其增加情感依恋和社交反馈。总体而言,人类对相似性的渴望影响了机器人和虚拟系统的设计,而拟人化的形式和行为有助于消除人与数字信息之间的障碍,丰富系统功能的解释,并创造人们对技术人工物的亲切感。但是这并不意味着机器人的拟人化程度越高,人们对其的喜好程度和亲密程度也越高。

1970年日本机器人专家森政弘提出“恐怖谷效应”,即随着机器人到达接近人类程度的时候,人类好感度突然下降再到恢复正常的区间。森政弘认为,我们会产生这种怪诞感是出于自我保护的一种本能。然而,恐怖谷效应并未完全被量化研究验证。首先,恐怖谷所假定的情感倾向被一部分研究证伪。有学者发现拟人机器人比机械机器人会更容易令人不安,而并非恐怖谷理论所描述的在一定拟人程度范围内,机器人类人程度越高就越受欢迎。对机器人的信任感也呈现相近的趋向:当人们第一次与拟人化程度不同的机器人交流互动时,他们会认为拟人程度更低的机器人的可信度更高。此外,根据任务的不同细分运用场景,一个更像人类的机器人实际上并不受欢迎,例如,拟人化的医疗机器人会让病患在治疗过程中感觉自己隐私被侵犯。其次,针对特定人群的研究也未支持恐怖谷假说。儿童更喜欢机器人和人类之间有适度的相似性,而不是高度类似人类的外观。这至少反驳了“恐怖谷效应”的普适性,也对拟人机器人的适用面提出了新的看法。

拟人化不仅涉及外观形态与功能行为,当机器人或智能系统的语言框架甚至口头描述(如给予一个人类的名字)更加具有人性特质时,人们与之互动时也更具有同情心。在一项研究中,参与者对高度拟人化的主角更同情,并希望更多地帮助这些主角。此外,也有学者证实机器在社会角色设置上的拟人化会对用户情感产生直接影响。这些研究表明,拟人化是一个综合性的结果,更多社会角色的植入是人类具有同情心地面对技术人工物的一个重要因素。

三、拟人化背景下的虚拟主播类型及其应用

英国新闻协会通讯社于2001年推出的阿娜诺娃( Ananova )被认为是人类历史上第一个虚拟新闻主播。此后,日本推出了寺井有纪( Yuki ),中国推出了虚拟主持人阿拉娜,美国推出了薇薇安( Vivian ),韩国推出了露西雅( Lusia )。

2018年11月,新华社与搜狗公司在第五届世界互联网大会发布全球首个合成新闻主播新小浩,随后发布了一位女性形象的智能主播新小萌。与阿娜诺娃等主播不同,新小浩、新小萌都有自己的真人原型,采取的是以真人形象和语料为基础、机器学习合成为辅的技术路径,这一路径使得智能虚拟主播的形象更加逼真自然。虚拟主播又称为合成主播、机器主播等,与虚拟偶像、虚拟网红、虚拟数字人等概念边界模糊,尚未形成统一、固定的表述。本文研究对象聚焦主流媒体应用的虚拟传播主体,从最直观的角度也就是虚拟传播主体的拟人化程度出发,将其分为拟物、拟人、拟真三个类型。

(一)拟物虚拟主播

拟物虚拟主播以动物或卡通形象为主,但具备拟人的情绪表达和肢体动作。这一类型的虚拟主播常见于主流媒体的品牌宣传、文化推广等领域,卡通动物的形象与可爱的声线设置易于触发良好的心理互动,也符合某些年龄层次用户的偏好。

2021 年 月,浙报融媒体科技推出的城市虚拟主播 Kunboo 拥有资讯播报、直播互动、歌唱表演等能力。作为城市 IP 形象,Kunboo 的角色设定是一位 18 岁的浙江少年,外形呆萌可爱,且以鲲鹏为原型,将城市精神符号融入到人格化的形象中。中国国际大数据产业博览会的吉祥物数小博也是一款应用于新闻信息传播的拟物型虚拟主播。依托智能表情算法等技术,数小博能以拟人化的表情播报数博会新闻。

拟物虚拟主播已经应用于多个场景,其即时性交流与持续性陪伴功能为用户提供了更加人性化和个性化的体验。但这类主播只能在有限的空间位置中阶段性地重复几个动作和表情,机械地扮演一个讲解员的角色。有效降低人力成本、提升传播效率是机构和平台持续投入研发和应用拟物虚拟主播的重要驱动力。

(二)拟人虚拟主播

拟人虚拟主播通常源自于动漫和游戏中的卡通人物形象,与拟物虚拟主播有明显的区别,但较为明显的二次元风格又与高度仿真的虚拟分身系统大异其趣。这类主播的设计建立在萌文化和二次元文化的受众基础上,真人主播和动漫 IP 的双重属性让他们深受年轻人的喜爱。

2020 年 11 月,上海广播电视台推出了国内首位二次元虚拟新闻主播申雅,人物设定为土生土长的上海姑娘,爱奶茶,偶尔犯迷糊,可萌可飒的人设定位力图迎合当代年轻群体的生活习惯和文化需求。2022 年山东广播电视台闪电新闻推出虚拟新闻主播小妮,实现 24 小时全天在线播报新闻,且能在突发报道中快速生成新闻视频。

拟人虚拟主播形象的动漫感较强,外形的可塑性较大,可根据不同的形象设定应用于不同的场景中。国内主流媒体在重大活动报道中常态化地使用该类型虚拟主播,甚至会根据报道场景进行个性化定制,如 2021 年央视频特意为航天发射制作了虚拟主持人央小天。虚拟主播在报业与新媒体机构中的应用也十分广泛,例如《光明日报》的小明、《工人日报》的晓晓等虚拟主播都参与过两会报道。然而,现阶段拟人虚拟主播依然存在形象同质化的问题,大部分缺乏细致入微的五官、表情刻画,辨识度大多来自主播服饰的改变。

与此同时,拟人虚拟主播更多地被应用在网络直播场景中,目前已成为B站直播增长强劲的业务板块。截止至2021 年 11 月,B站共有虚拟主播 3606 名,且在这 3606 名虚拟主播中,已有 39 名虚拟主播的粉丝数量达到了 50 万以上。

(三)拟真虚拟主播

拟真虚拟主播在主流媒体有两种应用路径,一种是以 2D 呈现为主、追求逼近真人视觉效果的虚拟主播,另一种是更具动漫文化特质的 3D 数字人。这两种虚拟主播的技术路径相似,但美学风格和拟真的侧重点不同。

第一类拟真虚拟主播可以真人主播为原型定制,也可以利用人工智能技术对几个不同的真人形象进行合成,受众几乎难以迅速识别拟真虚拟主播与真人主播的差别。拟真虚拟主播需要语音合成、人脸识别、人脸建模、图像合成、机器翻译等多项人工智能技术支撑,训练时间长,成本高。除了上文述及的新小浩、新小萌,央视基于自身主持人形象先后推出康晓辉、小小撒等,《人民日报》联合科大讯飞推出果果。逼真的拟人化效果是中央媒体虚拟主播的共同特征,且形象、声音基本来源于该媒体的真人主播或记者,但主播的肢体语言与活动空间相对单一。

拟真虚拟主播的另一种类型 3D 数字人,仿真的精度已经细化到发丝、瞳孔等细节的刻画上,语言表达和肢体动作的类人程度也有明显的提升,因此也被业界称为“超写实”数字人。但部分源自美术风格的设定,此类高精度的仿真虚拟主播依旧可以被迅速识别出与真人主播的区别。央视网 2021 年推出 3D 超写实数字人小 C ,高精度面部数据采集、轻量深度神经网络模型能够实时生成数字人的口型、表情、动作,口型准确率接近 99%。小 C 不仅在两会期间直播连线采访多位人大代表,还在东京奥运会、北京冬奥会等重大赛事活动报道中发挥了重要作用。主流媒体也在文娱主持等领域探索数字人应用,如《中国日报》虚拟数字人元曦、湖南卫视虚拟数字主持人小漾、浙江卫视宋韵文化传播者谷小雨等。3D 数字人主播具有远超 2D 呈现的动作刻画可能性和更为真实的空间建构能力。

四、受众与虚拟传播主体的情感交互

虚拟主播的传播实践进一步激活了虚拟传播主体与人类进行信息、意义、情感交流的广度和深度,但其中的传播机制和交互模式,迄今并没有与我们所熟知的文化形式断裂。总体而言,虚拟主播延续了不同媒体介质和文化形态下受众与媒介形象的情感交互类型,而人机交互界面的文化属性和拟人化设计的不同维度,则给虚拟主播所代表的人机情感交互带来全新的可能性。

(一)受众与媒介形象的情感交互类型

媒介技术中介下的互动,并不总是发生在人与人之间,也不能总是被理解为双向且具有意义的交互行为,但这并不妨碍人类对媒介形象产生卷入感和共情。如果将虚拟主播理解为“媒介形象”( media personae ),那无论是在实践意识层面还是社会话语层面,人类对此都并不陌生。

美国学者威廉姆·布朗梳理了相关研究,总结出受众对媒介形象卷入度的四种类型:迁移、准社会交往、认同和崇拜。迁移的英文原意是交通,它用一种基于空间的旅行概念隐喻读者沉浸于叙事中的心理和情感状态。这一情感卷入模式源自小说,但广泛地存在于各种形式的媒介文本之中。准社会交往源自广播,意指听众与广播主播产生了仿若熟人之间的情感卷入,此类想象性的人际关系经由时间沉淀可能转变为自我定义的单向人际关系。认同这一概念可以被宽泛地视作在一种自我定义的关系中对态度、信念和价值的内化,特别是与认同对象同一化的过程。随着媒介的演变,学者们尤为关注存在于以媒介为中介的非传统人际互动所产生的情感依恋和认同,而电子游戏等情境下玩家对虚拟角色和场景的沉浸式体验让认同的内涵得到进一步扩展。崇拜是受众对媒介形象卷入度最高的关系类型,有时也被认为是准社会交往关系的异常化。学者们通过量化研究认为名人崇拜广泛地存在于各种社会中,数字人则让人们喜爱和崇拜的对象更普遍地扩展至非生物主体。

传播学就受众与媒介形象之间的情感交互研究,为虚拟主播的实践提供了丰富的案例素材和理论框架。当下,有自然语言理解能力的虚拟系统成为传播者,进一步复杂了既往媒介形象与受众交互的类型和情感互动模式。纸质文本塑造的形象能够产生巨大的感召力,但受众对此的情感投射具有明显的单向性。广播、电视促生的主持人、明星,更加具有人性化传播的可能,也能在部分场景真正与受众进行面对面的人际互动。但总体而言,他们的传播模式没有真正改变大众媒体“一对不确定的大多数”的方式,与受众的互动效率并不高。虚拟主播一方面拓展了主播的概念,另一方面也提供了更加高效、便捷甚至定制化的互动模式。随着这一技术的成本不断降低,人类与虚拟主体互动的普遍化将成为未来内容传播的趋势,甚至拟人化的实体(如实体化机器人)也可能在不久的将来出现在人们的生活中。据此,以往基于媒介形象研究所总结的迁移、准社会互动、认同和崇拜都可能存在于人类与虚拟主播的互动中,且这种影响不再以大众媒体为唯一的载体,而以更加自动化、智能化、个性化的方式产生更加广泛而深入的影响。

(二)受众与虚拟主播情感交互的可能性

如果说目前虚拟主播在信息传播中所扮演的角色并没有超越上文所提及的“媒介形象”,那它们与既往媒介形象的区别究竟在哪里?回答这一问题的起点,首先在于对技术人工物的主体性地位辨析。在人机关系的建构上,很重要的一点是如何定义传播过程中的“人”“自我”“他人”。人类之间意义的创造是以将彼此解释为传播者为前提的,因此人机传播的关键在于理解人类如何将机器理解为交互主体并将其概念化。

机器人或智能系统可以对人们的行为产生一定的社会反应,且人们也可以应用与对人类相似的交流规则对这些软硬件作出反应,如表现出感激、互惠和尊重等各种不同程度的情感。所以,在某种程度上,机器是否有可能作为交流主体出现,不仅仅是因为它们的内在本质或它们拥有的能力,还源自我们是如何将它们定位在我们共同的语言中,且如何为它们创造空间,使其成为身份话语中能被表达和接受的身份。有研究证实,人们对虚拟代理的社会、情感、认知和行为反应与对其他人类的反应相似,在与虚拟代理互动时与情感和人际体验相关的大脑区域会被激活。与虚拟代理的交互可以满足一些与人际交互相同的社会需求,人类甚至会将虚拟代理当作同伴一样对待。还有研究表明,与真人相比较,人们更愿意向虚拟代理透露令人不安的情况。目前虚拟主播正在和受众构建起信任、社交甚至准亲密关系等不同的互动关系和情感强度,这不仅将改写传播生态,也将对社会互动产生巨大影响。

除了人机关系的界定,虚拟主播影响人类经验自我的方式和程度较之以往的差异,也内蕴于虚拟主播实践所栖居的数字文化中,或者说计算机文化之中。计算机屏幕将人类的文化惯习与人机交互界面、数据库结构和空间导航等技术构架连接,把人类文化模拟世界的传统方式和计算机呈现世界的独特手段结合起来。在这个意义上,数字计算机成为一种“元媒体”,从单纯的生产工具到逐渐带有普遍意义的媒体文化属性,并催生不同的文化形式。简言之,数字文化构建了一个不断具体化的虚拟性世界,带有重构生活空间和呈现空间、本己身体和数字分身关系的可能性。

现实空间和呈现空间的差异区隔出呈现与模拟这两种文化传统。马诺维奇曾以壁画和绘画为例阐释了这两者的区别:模拟传统(壁画)中观看者存在于一个单一的连续性空间,而在呈现传统(绘画)中,观众具有双重身份,同时存在于现实空间和呈现空间。按照这一分类,受制于当下的技术手段,虚拟主播更接近绘画的传统,属于呈现的一种形式。观看者的视界局限在各种尺寸的矩形平面之中,这个平面也切割出生活空间和呈现空间这两个规模尺寸不同却同时在场的区域。但虚拟现实技术的发展很可能会激发模拟传统,让人类的身体进一步参与到观看体验之中。与虚拟主播概念高度关联的元宇宙就刻画了一个现实空间从属于虚拟空间的远景。到那时,呈现空间将占据我们的视界,人类以更加彻底的方式沉浸于想象性的虚构空间,这彻底改变了我们与虚拟主体的交互模式———它们不再是被呈现的被动文本,本己身体和数字分身通过不断灵活变化的机器界面结合起来,身体性存在与计算机仿真之间的差异不再至关重要。

(三)拟人化对虚拟主播情感交互的影响

作为人机信任构建与修复的关键变量,虚拟主播在主流媒体的运用首先采取的是外观形态的拟人化路径。这一部分虚拟主播被较多地运用于新闻播报场景,拟人化的目的在于获得人类的信任感。如前文所述,拟人化是某种源自人类内隐认知的倾向,人类总是对类人主体投射更多的社交和情感需求。在大多数情况下,拟人化实体普遍与人类产生更加积极的互动,如可以增加人类对此的信任、感知友好性,产生更多的互动乐趣。中国主流媒体偏好更加拟真的虚拟主播形式,不仅源自行业对传统新闻主播形象的认知路径依赖,也源自受众对媒介形象信任感的内隐偏好。在现有的社会条件下,人类还是会更加严肃地对待同类,在判定信息的准确性、权威性方面,人类也更容易信任具有人类特质的形象。

在这一条拟人化路径上,虚拟主播在主流媒体的运用带有非常强的工具属性,这种交互界面本身不带有文化记忆、价值观和世界体验的独特性,而更着重于对不同呈现模式和工作效率提升的探索。而计算机技术所带有的处理和呈现数据的灵活性和交互控制的便捷性,与新闻传播的固有路径交互混杂,催生出一批高仿真的虚拟主播群体。但这并非是一种绝对稳定的传播形态和文化形式。

目前主流媒体也开始探索人格特质层面的拟人化,例如浙江卫视谷小雨作为宋韵文化的代言人,就被注入了完整而清晰的人物设定,其拟人化的重点在于人物角色和心理结构,而非外观形态。这条路径比较明显地受到网络直播虚拟偶像的影响。在二次元文化的影响下,人类也可能对拟人程度更低,或者说与真人形象差异比较明显的形象产生友谊、亲密关系等情感投射。目前在网络盛行的虚拟偶像及其团体,拥有数量广大的粉丝群体,通过全息投影、动作捕捉技术实现的演唱会反响热烈。粉丝清楚地知道情感投射的对象是代码与光影,但这并不阻碍他们与之互动并产生巨大的心理满足。

所以,当主流媒体对虚拟主播的应用突破新闻传播场景之后,拟人化对情感交互的影响就变得更加复杂。一般而言,人类并不仅针对同类产生社交、友谊和亲密关系的情感体验,触发交互意愿和情感反应的是对方可被感知的性格特质。这种拟人化路径更为青年群体感知和认同,作为网络文化的原住民,他们接受并熟稔文化对象的流动性和跨码性,从而让身份认同更多地从身体形象聚焦到心理结构。因此,拟人化对人机情感交互的影响并不是恒定而线性的,其中存在一个重要的中介变量就是受众对人际关系和人机关系的感知与理解。基于目前行业的应用场景与效果,外观形态的拟人化对信任关系的产生有更大的影响,而社交、友谊和亲密关系类型的人机交互则更依赖于性格特质和心理结构的拟人化,社会角色的植入、个人对情感交互的需求和感知在其中发挥了更大的影响力。

当然这一结论是在现有技术条件下虚拟主播仍然无法与人类建构起即时与自然的互动情况下的推论。但即便人类技术的拟真程度将不断突破瓶颈,有无必要模糊人机之间的界限,依然值得我们深入思考。有学者认为人机互动的情感是单向的互动,所谓的人机情感互动只是技术人工物对人类情感的欺骗。且人们担忧,当人类习惯和机器“生物”分享情感的时候,就已经习惯于把情感缩减到机器可以制造的范围内。因此,设计拟人化的虚拟传播主体并大量投放于社会,其伦理性值得反思。

五、总结:拟人化趋向下的人机交互伦理风险

值得注意的是,我们往往忽视虚拟传播主体及其高精度仿造技术的应用所带来的威胁,如换脸、唇形同步、面部复现、动作转移等技术,给网络平台的治理带来了新的挑战。虚拟主播以及各种拟人系统逐步获得传播中的主体地位,将进一步挑战媒体从业者记录现实和保存图像证据的职业管辖权,并可能导致事实要素被滥用。部分虚拟主播形象来源真人,包括深度模仿技术也越来越容易对真实人物进行多重演绎,这就使得虚拟主体易于被操纵从而强化制作者控制公众观念和意识形态的能力,甚至是煽动暴力和冲突。

据相关数据显示,忙于合成(深伪)视频的人数与检测核实的人数比例是 100 : 1,检测与监管的力度比不上伪造信息传播的速度,这就给社会舆论生态系统的平衡稳定造成巨大风险。如果不对高度仿真性的虚拟传播主体进行规范和管控,不受控制的准人际信息互动可能导致社会信任危机。

总体上数智技术在传播领域的应用存在两种路径,一种力图让用户高效访问大量信息,另一种希望让用户沉浸于想象性的虚构空间。人类与技术日益具身,虚拟主体逐渐成为具有能动性的传播主体,在这样的媒介图景中,人类是更加自由了,还是会被新的凝视制度所俘获,甚至成为机器的囚徒?在虚拟技术所刻画的未来场景中,伦理焦虑始终如影随形。更为现实的态度恐怕是不可避免地承认“后人类”时代,并采取更加务实而细致的观念和制度设计,最优化信息技术的潜能。