当前位置: 首页 > 学术动态 > 正文

数据故事化:从数据感知到数据认知

【来源:数据故事化:从数据感知到数据认知 | 发布日期:2022-10-04 】

内容提要:数据呈现是大数据时代的新课题。通常,数据呈现的主要途径有两个,即数据的可视化和数据的故事化,二者的区别在于,数据可视化主要解决的是数据感知问题,而数据故事化更加关注的是如何将数据感知转换为数据认知。数据故事化涉及三个基本要素:数据、视觉效果和叙述。从数据故事的创作者和受众之间的信息交流模式看,可将数据故事化分为创作者驱动和受众驱动两种不同模式。目前,数据故事化中常用的结构有三种:马提尼酒杯结构、互动演示幻灯结构和向下钻取事结构。数据故事化的主要活动包括理解数据、明确目的、了解受众、确定关键数据、选择故事模型以及故事叙述。数据故事化是数据科学的主要研究内容之一,也是数据科学区别于其他学科的重要特征。图6。表4。参考文献60。

关 键 词:数据科学;数据故事化;数据可视化;数据感知;数据认知

作者简介:朝乐门,中国人民大学信息资源管理学院副教授,数据工程与知识工程教育部重点实验室(中国人民大学)研究员,博士生导师;张晨,通信作者,中国人民大学信息资源管理学院、数据工程与知识工程教育部重点实验室硕士研究生。

0 引言

作为大数据时代的新兴活动,数据的故事化呈现已经成为数据科学及相关研究领域的热门话题之一。有研究调查发现,能够记住“故事”的人数可以达到63%,但是能够记住孤立的统计数据的人数只有5%[1]。在数据科学中,数据的可视化和故事化具有不可替代的作用。数据可视化具有易于理解、易于感知和易于洞察的特点,而数据故事化具有易于记忆、易于认知和易于体验的特点[2]。例如,在一项“拯救孩子们”(Save the Children)的公益活动中,研究者为同一个被捐款者准备两种不同版本的宣传手册,一种是基于故事化描述的版本,另一种是简单罗列事实数据的版本,结果发现拿到前一版本的捐赠者的平均捐款金额比后者高出两倍以上[3]。

从主体的数据接受模式看,感知是认知的前提,认知是感知的延续,数据可视化和数据故事化分别解决的是数据的感知和认知问题。因此,在大数据时代,数据的可视化和故事化通常交叉应用,先采用可视化方式引起人们的感知活动,然后通过故事化方式达到进一步认知的目的。所以,也有人认为数据故事化是数据可视化处理的下一步[4]。

数据故事化作为数据科学的“最后一英里”问题[5],其重要性往往容易受到数据科学家的忽视。因此,本文从数据故事的模型与结构、数据故事化的流程与活动、数据故事的类型与呈现、数据故事化对数据科学的意义等四个方面对数据故事化的理论研究现状及具体应用情况进行梳理,这对于实现数据价值的最大化有重要的理论意义与实践意义。

1 相关研究

1.1 数据故事化的定义

数据故事化(Storytelling)是指为了提升数据的可理解性、可记忆性及可体验性,将“数据”还原或关联至特定情景,并以叙述方式呈现的过程。数据故事化也是数据转换的表现形式之一,其本质是以“故事叙述”的方式呈现“从数据中发现的洞察”。数据故事化中的情景,可以是还原情景、移植情景和虚构情景[2]。

数据故事化的概念和提法有很多,如数据驱动型故事化、可视故事化、分析型故事化、交互式故事化和用数据讲故事等,从不同视角或层次讨论了数据故事化的某个(些)内容。其中,数据驱动型故事化(Data-Driven Storytelling)[6]强调的是故事叙述的一种形式,区别于模型驱动和目标驱动的叙述方式;可视故事化(Visual Storytelling)[7]主要强调的是故事叙述中可视化呈现的重要性;分析型故事化(Analytical Storytelling)[8]则强调的是数据分析在数据故事化中的重要地位,数据故事化并非是简单地将数据改编成故事,而是在对数据进行分析挖掘的基础上,对数据背后的潜在模式信息进行故事化;交互式故事化(Interactive Storytelling)[9]主要强调的是受众交互在数据可视化中的重要地位,数据可视化是一个交互式创造过程[10];用数据讲故事(Storytelling with data)[11]主要强调的是故事的客观性,突出故事要有依据或凭证,避免故事变得过于主观。

数据故事化旨在从故事的维度将烦琐复杂的数据进行图标化的整合,从提炼分析出的数据中组织出一个故事,从而帮助决策者做出基于数据分析的决定[5]。数据故事化的结果是针对特定的数据生成一个通俗易懂的数据故事,数据故事通过一系列链接的可视化来探索和解释数据随时间或某种因素变化的方式和原因[12]。数据故事的叙述者要根据数据类型以及传递给受众的数据来选择合适的可视化方式,并将这些可视化结果整合进时间或概念序列中,从而塑造成一个叙述故事,以帮助揭示一些洞察、趋势或潜在模式。

数据故事化的目的是使数据更易于认知,帮助受众从数据中提取洞察;鼓励和激励批判性思维,以便做出过程分析、业务决策或提出讨论。数据故事化的基本原则包括忠于原始数据原则、设定共同情景原则、体验式叙述原则、个性化定制原则、有效性利用原则和3C精神原则[2]。

1.2 数据故事化的研究内容

数据故事化已成为大数据时代的热门话题之一,其理论研究主要集中在以下几个方面。

(1)数据故事化的理论基础

在现有研究中,数据故事化的理论基础涉及认知科学、信息图形学、可视分析学和数据科学。①认知科学:基于认知科学的数据故事化研究对人类学习的本质提出三个主要假设,即双通道假设、有限容量假设和主动学习假设[13]。②信息图形学(Information Graphic):数据故事化依赖于对视觉信息进行有效设计,通过插入文字注释和图表呈现等形式传递抽象、复杂和密集的信息[14]。③可视分析学:数据故事是数据可视化进一步发展的形式,当故事中包含大量数据时,数据可视化可作为讲故事的交流媒介[4]。④数据科学:数据科学的理论,尤其是数据产品开发理论为数据故事化提供了理论基础[2]。

(2)数据故事化的方法研究

在现有研究中,数据故事化主要采用作者目标驱动、受众行为驱动、视觉增强和数据注释等方法。①作者目标驱动方法,即建立明确的目标,并根据目标再进行数据故事描述[15];②受众行为驱动方法,即采取扫描、翻转、交换和向下钻取等方式实现数据故事化[16];③视觉增强方法,通过可视化方法来增强数据故事的视觉效果和受众体验;④数据注释方法,利用文本注释帮助受众理解信息图形,以及数据与业务之间的关联[17]。

(3)数据故事化的应用场景

就现有研究而言,数据故事化的主要应用场景涉及数据新闻、商务演示和学术交流等领域。①数据新闻:数据故事(Data Stories)或用数据讲故事(Storytelling with Data)已成为新闻业的新趋势之一[18]。例如,2017年,Google和PolicyViz合作,对美国、英国、德国和法国的记者进行了56次面谈,并对900多名记者进行在线调查,结果表明42%的记者定期使用数据讲故事[19]。②商务演示:数据故事化在商业领域主要用于与故事受众进行交流和互动,主要体现在协助公司内部人员做出业务决策[20]、向客户解释复杂的数据点和趋势[21]、提升品牌知名度、进行有效营销[22]等。③学术交流:在学术界,用数据讲故事不仅适用于内部讨论和决策制定,而且还应用在流程分析[4]。数据故事化在学术领域的应用更多地体现在学者之间的面对面沟通和会议交流。

(4)数据故事化的软件工具

目前,支持数据故事化功能的软件工具越来越多,比较有代表性的是TIBCO Spotfire、Tableau、Power BI、Flexdashboard、D3.js、Qlik Sense、Banjo和Narratives for Tableau等(见表1),可分为两大类,即支持数据故事化的可视化工具和专门用于数据故事化的工具。

表1 支持数据故事化功能的软件工具

1.3 数据故事化的研究热点与趋势

通过国内外文献调研发现,数据故事化的当前研究热点和未来发展趋势如下。

(1)数据故事化的研究热点问题包括以下几个方面。①关于数据故事化的重要性的讨论,数据故事化可以使数据证据和分析结果更具说服力[23];数据故事化是每个数据人才都必须掌握的重要技能[24]。②数据故事的基本模型与结构,如Segel和Heer提出三种常见的数据故事化模型[25];Aristotle提出五步叙述结构[26];成熟度曲线模型[27];Zawadzki提出数据故事化的SPSN框架和SUCCESs模型[28]。③数据故事化的流程:Chibana将数据故事划分为五个步骤,并重点关注了数据故事化过程中图表的设计流程[29];Taborga强调角色驱动在数据故事化中的重要性,提出数据故事化包括定义行动号召、选择受众、保证数据透明、使用简单的术语、使用可视化来补充叙述和制作真实的故事六个步骤[30];Maptive公司从新闻叙事的视角提出制作引人注目的数据故事的六个步骤:提出一个好问题、区分受众类型、查找数据、检查数据源、过滤数据分析结果、确定数据可视化方式[31]。④数据故事的类型:Davenport从时间维度、关注点维度、深度维度和方法维度将数据故事划分为不同的类型[32];Tableau从场景视角划分出七种不同类型的数据故事[33];Proschool从目的视角把数据故事划分为说明性数据故事、解释性数据故事和预测性数据故事[34]。⑤数据可视化的设计:Knaflic提出要遵循理解上下文、选择合适图表、消除杂乱、引导受众注意、像设计师一样思考等原则[11];HubSpot建议消除过多标签,以便用可视化的方式比较数据值,不要在同一界面使用超过六种颜色,不要使用3D图表[35];Evergreen、Ann Emery从布局、配色和排版三个方面给出设计方案[36]。

(2)数据故事化研究的主要发展趋势体现在三个方面。①数据故事的智能化生成:数据故事化的发展将经历全人工的数据故事化、半自动化的数据故事化以及全自动化的数据故事化等演变过程[37];自动生成数据故事[38],实时生成数据故事,人人都可以是数据故事的叙述者,是数据故事化的主要发展趋势[39]。②数据故事化在数据科学的广泛应用,主要体现在使数据可视化更有效[40]、充分发挥数据价值[41]、提高数据科学家的业务能力[42]以及开发高质量数据产品[43]。③加强数据故事化本身的理论研究和实践:目前,数据故事化虽然得到了广泛关注,但是针对其本身的系统研究并不深入。数据故事化理论的进一步发展及相关实践的可持续应用亟待加强对其本身的系统研究。

2 数据故事的模型与结构

Dykes认为,数据的故事呈现涉及三个重要因素:数据、视觉效果和叙述[24],如图1所示。数据故事经常采用数据呈现中的数据可视化技术,但它涉及的不仅仅是呈现图形,还要逐步引导受众认识数据、了解数据并得出结论。将数据和视觉效果结合起来,可以形成数据的可视化展示,帮助他人加强对数据的理解,得到从数据集合中难以发现的认识;将叙述应用于数据,可以解释数据中正在发生的事情,以及背后隐含的信息;将视觉效果和叙述相结合有助于吸引他人的注意,以受众更容易接收的方式让他们参与其中,产生共鸣。而有价值的数据、效果最佳的视觉展示和合理的叙述融合到一起时,将产生有影响力的数据故事。此外,数据故事化过程需要创作者和受众的参与,创作者描述出令人印象深刻的数据故事,并把它展示给受众;受众接收数据故事,并采取相应的行动。

图1 数据故事化要素

2.1 数据故事的模型

数据故事化依赖于数据故事的创作者和受众之间的互动和信息传递,而好的数据故事必须在创作者驱动和受众驱动之间保持平衡,创作者既要为受众提供结构化的故事叙述又要与其保持一定的交互空间。Segel和Heer提出数据故事有创作者驱动和受众驱动两种形式(见表2),并给出三种常见的数据故事化模型:马提尼酒杯(Martini Glass)结构、互动演示幻灯结构(Interactive Slideshow)和向下钻取事(Drill-Down Story)结构[25]。

表2 创作者驱动和受众驱动的数据故事化

创作者驱动的数据故事是指在创作者进行故事化描述和呈现的过程中以线性路径为主,不允许受众与图表交互,数据和可视化是由创作者选择的,并作为成品呈现给读者,重在对受众进行数据传递,是单向地将故事化的数据展示给受众并让受众接纳的方法。当讲故事是为了进行有效沟通或让他人接纳确定性的信息时,通常采用这种方法,例如在电影、杂志文章、广告、商业演示中就以创作者驱动为主。

受众驱动的数据故事是强调受众的高度参与,并为受众提供处理数据的方法。创作者不是对受众进行简单的信息传达,也不依赖严格的结构化故事框架,创作者只负责提供数据及其可视化方式,而由受众参与其中,对可视化的图形进行架构,形成受众自己的故事流。例如,在Tableau等可视化分析工具中,读者驱动的方法支持数据诊断、模式发现和假设形成等任务。

(1)马提尼酒杯结构是最常见的数据故事化形式,长长的杯颈代表单一路径的创作者叙述,大开口的杯口代表读者参与的交互,这是一种先是创作者驱动进行叙述,再是受众驱动进行互动的数据故事化模型。在这个过程中,创作者先根据自己对数据的分析,整理出一个完整的数据故事,然后由叙述者向受众叙述这个预期的故事,传达创作者的观点并为受众提供观察视角和讨论焦点,再让受众针对已有的数据故事发起讨论,自由探索问题。

(2)互动演示幻灯结构是在叙述过程中创作者和受众共同参与的一种方式。在叙述完故事的每一个发展阶段后,受众可以提出问题并进行讨论,但对每一个发展阶段的叙述过程中仍然遵循马提尼酒杯结构。这种方式可以帮助受众更好地跟进创作者向他们传递的意图,也可以在必要的时候重复叙述数据故事的步骤,以对复杂数据集和数据故事的形成过程有更深入的理解。

(3)向下钻取事结构是以受众驱动为主,为受众呈现出数据可视化的结果页面,受众可以在页面上操做选择,以查看特定的细节和故事发展趋势。在这种故事模式的主导下,创作者允许受众深入其中选择想要查看的故事流,由受众自己决定什么时候了解什么样的故事。

2.2 数据故事的结构

与通常意义上的故事一样,数据故事也会有开头、中间和结尾。数据故事的结尾不是一个固定的事件,而是通过一系列选项或问题来触发受众的行动[44]。在数据故事的结构方面,比较有代表性的是Aristotle提出的五步叙述结构[26]和成熟度曲线模型[27]。

(1)五步叙述结构,即数据故事的主要结构包括以下5个基本步骤:①提供一个能引起受众兴趣的故事或陈述;②提出需要解决的问题或需要回答的疑问;③为提出的问题提供解决方案;④描述在解决方案中采取行动的具体好处;⑤发出行动号召。

(2)成熟度曲线模型,即数据故事的结构包括引言、上升期、高潮、下降期和结局五个部分(见图2):①引言:在第一部分要向受众介绍数据故事的背景(如数据源、时间轴、以前的趋势等);②上升期:介绍当前遇到的问题,以及数据的变化趋势;③高潮:让受众完全了解问题现状并理解数据的含义;④下降期:进行决策分析或提出讨论,激励受众采取行动;⑤结局:利用数据解决问题。比较有代表性的是Gartner通常采用成长曲线(Hype Cycle)来叙述新兴技术领域的发呈现状与趋势,如Gartner的数据科学本身的成长曲线(Hype Cycle for Data Science)[45]。

图2 成熟度曲线模型[46]

3 数据故事化的流程与活动

数据故事化不涉及前期的数据收集、整理、分析等工作,而是将重点放在数据分析结果的叙述性可视化呈现上。数据故事的描述是将数据以易于记忆、易于认知、易于体验的方式整合进故事流中,从流程来看,主要包括理解数据、明确目的、了解受众、识别关键数据、选择故事模型与呈现方式、故事叙述6个基本活动,如图3所示。

图3 数据故事化的基本流程

3.1 理解数据

理解数据是数据故事化的第一步。理解数据也是数据故事化与通常意义上的故事的区别之一。在数据故事化中,可以通过探索型数据分析(Exploratory Data Analysis,EDA)等统计学或机器学习的方法以及与数据所属领域专家沟通等方法达到理解数据目的。在传统数据工作中,很多数据工作者习惯于采用统计学方法和机器学习方法来理解数据,而忽略数据可视化在理解数据中的重要意义。以统计学家Anscombe的四组数据(Anscombe's Quartet)为例,他于1973年提出了四组统计特征基本相同的数据集[47],从统计学角度看难以找出其中的区别,但可视化后很容易找出。可见,探索性分析方法在数据故事化的第一步具有不可替代的重要地位。

3.2 明确目的

数据故事化要有明确的目的,而目的往往由数据故事的创作者或数据故事化项目的委托方决定。数据故事化的目的可以分为两个层面,一个是业务层面,另一个是科学层面。从业务层面看,数据故事化需要满足具体业务需求,而业务需求由数据故事化项目的委托方决定,具体可以分为描述性数据故事化、诊断性数据故事化、预测性数据故事化和规范性数据故事化(Prescriptive Data Storytelling)。从科学层面看,数据故事化的目的是弥补其他数据呈现方法,尤其是数据可视化方法的局限性,提升数据在受众中的可记忆性,需要突显数据故事的记忆难度和记忆留存时间。

当然,在确定数据故事化的目的时需要遵循SMART原则[48],注意目的的具体(Specific)、可测量(Measurable)、可实现(Attainable)、其他目标具有相关性(Relevant)以及具有明确的截止期限(Time-bound)。此外,数据故事化应聚焦于有限目标,有限目标是数据故事化中必须重视的问题。

3.3 了解受众

数据故事化实际上也是数据价值的传递及再增值过程,数据分析的结果最终都要传达给特定的受众,再由受众与自己的业务整合后采取进一步的行动。因此数据故事化的创作者需要根据受众的业务范围、知识背景、能力以及目的设定相应的故事背景,定制不同的数据故事,以方便受众理解数据。

戴尔公司执行策略师Stikeleather将受众分为五个主要群体,即新手、通才、管理层、专家和执行官[49]。新手第一次接触这个业务主题,但不希望业务过于简单化;通才对当前的业务主题有一定的了解,但需要搞清总体概述和主要问题;管理层试图对错综复杂的事物以及其中细节之间的相互关系有深入、可操作性的理解;专家希望能对研究主题有更多的探索和发现,而不是过多地谈论细节;执行官则只需要知道加权概率的意义和结论。对每一个受众进行细分,在了解受众的需求之后针对不同受众采取不同的叙述数据故事的方式和内容,避免过于泛化的受众,这样才能让受众准确理解数据的价值并与之产生共鸣。

3.4 识别关键数据

当前我们可接触到的数据是海量的,从这些海量数据中可以分析得到大量不同的结果,但过于冗余的数据往往会分散受众的注意力,无法从中提取出最有效的信息。为避免繁杂无序的信息给受众带来困扰,数据故事化要突出显示最重要的内容,这些关键数据需要满足以下原则:①数据客观、有效;②与受众的业务主题直接相关;③与创作者想要传达的意图直接相关;④不流于表面,数据背后蕴含着更深层意义的价值,可以解释某种现象的原因或揭示接下来的发展趋势。

3.5 选择故事模型

在理解数据、明确数据故事化的目的、了解目标受众、识别关键数据之后,需要对数据进行故事化建模。从前文的讨论可以看出,数据故事化分为创作者驱动和受众驱动两种不同模式以及马提尼酒杯结构、互动演示幻灯结构和向下钻取事结构等常用结构。然而,故事模型的选择中需要注意的是视觉通道的选择。受众喜欢视觉元素而非演示文稿中的数字,如果以可视化形式显示,则会使他们更准确地记住信息。无论是利益相关者还是客户,合理的可视化都会对受众产生重要的影响。

(1)选择合适的图表。可以把数据分析结果呈现出来的图表形式有很多,例如词云、表格、点图、线图、条形图、饼图等。如果采用不恰当的图表则会为受众的认知增加负担。每种图表都有其最佳的使用场景,在利用图表可视化数据时,应考虑到它们各自的优势与使用条件,一些常见图表的适用场景和适用数据如表3所示。条形图和线形图等简单图表比较常见,但有的创作者为了展示自己的可视化技术或者为了制造更加丰富绚丽的视觉效果而刻意避免使用这类简单的图表。实际上,正是因为这类图表是大多数人都熟悉的,受众在看到此类图形时不必费力去理解图形的结构以及图形形状代表的含义,继而可以把注意力集中在图表所传递的信息上。因此在数据故事化描述时简单图表的效果往往比华丽的复杂图表更好,这类容易阅读的简单图表应该成为创作者优先选择的对象。

表3 图表类型及适用条件

(2)按照视觉特点进行描述。人的视野非常有限,无法一眼获取到所有的信息,在视觉认知的过程中,人的大脑获取信息的方式与眼球的移动有关,人的大脑会随着眼睛的移动而获取各式各样的信息,因此必须将信息进行有效组织,按视觉顺序进行编排。人在无意识时视觉顺序遵循一定的模式:自上而下、从左至右的阅读顺序、关注突出信息以及视线容易受干扰。根据这种模式来更有效地可视化数据,可以极大地提高受众从中获取数据洞察的效率。人的视觉阅读习惯取决于经验,我们的各种出版物都是自上而下、从左至右编排的,因此养成的视觉习惯也与此顺序相同,形成由版面的左上方开始,平行移动到右上方后,往下至左下方再后移至右下方的“Z字形”移动路线,如图4所示。图表的有效信息应按照此顺序排列,逐步引导受众视线。

图4 多数人的视觉习惯

遵循这样的原则,图表的主题介绍、结论或者标题放在左上角会让受众在一开始就了解图表的主要内容,带着这样的心理预期解读接下来的图表会取得更好的效果。值得注意的是,反映趋势的图表竖直放置更加符合视线的水平移动,比水平放置效果更好。

受众在审视图表时,注意力会被一些格外突出的信息吸引,适当地突出想要向受众强调的数据信息,会提高数据故事的阅读效率,这些被突出的信息也称为前注意属性。前注意属性包括方向、形状、线条长度、线条宽度等[11](见图5),我们的大脑不需要任何有意识的思考就能获取这一信息。

图5 常用视觉通道

前注意属性在两方面非常有用:快速引导受众的注意力到你希望的地方;建立信息的视觉层次[11]。前注意属性即在版面中格外突出的信息表示,能够引导受众的视线,快速把受众的注意力吸引到创作者期望呈现的内容上;同时,突出显示的信息与周围形成了层次对比,突出的信息会向人的大脑传递这样一个信号:这里是重点,隐性地告诉受众这里是他们最应该关注的地方,使得受众能够更简单、更快速地处理创作者提供的信息。在数据故事中适当地突出创作者想要向受众强调的信息,可以让受众快速捕获到重要信息,在很大程度上提高数据故事的叙述效果。

如果图表设计过于杂乱,受众在阅读数据时很容易被分散注意力,受其他信息干扰。图表的设计应以简洁为核心,尽可能消除与中心思想无关的其他因素。具体策略包括:删除无效信息;利用对比不明显的颜色弱化干扰信息;使用较小的字体或形状弱化辅助信息等。

数据故事化描述的目的是吸引受众,激发受众的想象力。因此,不应在一张图表上呈现过多的信息,而应该在不同的版面依照故事流分开呈现不同的情节,激励有好奇心的受众逐步深入地探索数据并理解数据。

3.6 故事叙述

iRobot数据科学总监Bassa在Accelerate会议上指出:“你必须引导受众对分析有一种直观的理解。从根本上说,这是一个沟通问题。如果你完成了数据整理与分析以及修改的所有工作,接下来你必须用数据进行沟通。”[50]在对数据图表进行优化之后,更重要的是将数据故事与受众进行叙述与交互,创作者应有效地综合数据故事,提供背景叙述,按情节引导受众。

数据故事化将数据转换为图形,饼图和折线图等图表使我们可以更直观地看到数据,但是单独的数据可视化具有局限性:只提供了一目了然的数据图表,缺乏解释事件发生原因的背景[51]。数据可视化只是让受众看到了数据,而不能激发受众采取进一步行动,这是因为受众只看到了一组冷冰冰的数据,知道这组数据表示的含义,却不知道数据的背景,无法从中产生共鸣。因此,作者需要为受众解释进行此次数据分析工作的原因,明确要解决的业务或组织问题,概述先前的相关工作[52],使受众充分理解作者接下来要叙述的数据,带动受众的情感反应。

除了上述步骤之外,在实际的数据故事化项目中还可能涉及以下三个特殊活动。

(1)数据故事化的试验与预调研:为了达到更好的数据可视化目的,通常随机选取部分受众为测试样例,对即将采用故事化的故事模型和故事呈现方式进行测试和预调研,并根据试验与调研结果对数据故事化项目进行优化和调整。

(2)数据故事化的持续改进:与试验和预调研不同的是,数据故事化的持续改进是根据最终故事化结果在全体受众中产生的效果和反馈结果改进数据故事模型及其呈现方式,进而动态改进数据故事化的效果。

(3)数据故事的作者与叙述者之间的分离:数据故事的创作者又涉及两类人才,一种是数据模型的设计者(数据故事的作者);另一种是数据故事的呈现者(数据故事的叙述者),分别负责从数据到故事模型和从数据模型到故事呈现的工作。在实际项目中,数据故事的作者和叙述者可以是同一个主体,也可以是不同的主体。当然,数据故事的作者或叙述者也可以是一个人,也可以是一个团队。

4 数据故事的类型与呈现

数据故事化划为两个基本步骤:从数据到故事模型的转化(故事化建模)和从故事模型到故事的叙述(故事化呈现),如图6所示。

图6 数据的故事化描述及故事的呈现

(1)从数据到故事模型的转化是故事呈现的前提条件,同一个故事模型可以采用不同的呈现方式,如文章、图书、电影、海报、游戏、图片等,但表现效果可能不同。

(2)从故事模型到故事的叙述以及受众的倾听过程也可以对数据建模产生反馈作用。数据故事模型的呈现过程往往可以发现数据故事化描述中存在的问题或漏洞,可为数据故事化提供反馈信息,从而进一步优化数据的故事化建模活动。

4.1 数据故事的类型

数据的故事化描述结果是生成一个带有情节的数据故事,Davenport[32]、Tableau[33]和Proschool[34]分别从维度、场景和目的的角度对数据故事类型进行划分,如表4所示。

表4 数据故事的类型

(1)基于维度。从时间维度划分,可以分为过去式故事——描述上周、上个月、上一季度或去年发生了什么的数据故事,大多数可视化分析故事也是这种类型的;现在式故事——分析人们或物体目前在做什么,它实际上可能包括调查研究;未来式故事——使用预测分析,从过去获取数据来创建一个统计模型,然后用来预测未来。从关注焦点维度划分,可以分为“是什么(What)的故事”——就像报道故事一样,简单地叙述发生了什么;“为什么(Why)的故事”——深入探究导致结果的潜在因素;如何解决问题(How)的故事——包含了“是什么(What)的故事”和“为什么(Why)的故事”,既有现状说明,又有原因解释,还对解决问题的办法进行了深入探究。从深度维度划分,可以分为:“CSI(Customized Small Investigation,小型专门调查)”故事——相对较小的特别调查,以找出为什么会发生次优的情况;“尤里卡(Eureka)”故事——对复杂问题的解决方案进行长时间的分析驱动探索。从方法维度划分,分为相关关系故事——变量之间的关系同时上升或下降;因果关系故事——一个变量导致了另一个变量。

(2)基于场景。针对不同的场景可以划分为七种类型的数据故事:随着时间的推移而变化——使用年表来说明趋势;由大及小——设置上下文,以便受众能更好地了解特定类别中发生的事件;由小及大——描述受众关注的内容与大局的关系;突出对比——显示两个或更多主题之间的差异;探究交叉点——当一种类别超过另一种类别时突出重要的转变;因素划分——通过将主题划分为不同类型或类别来解释主题;离群值——显示事件的特别异常之处。

(3)基于目的。从目的角度可以分为说明性数据故事、解释性数据故事和预测性数据故事。说明性数据故事——这样的故事数据丰富,并且只陈述与数据相关的事实,更多的是数据评论,然而事实需要以一种连贯的方式呈现出来,让人明白一个观点,决策者可以很容易地从中得出推论;解释性数据故事——探究业务问题,仔细研究细节,帮助决策者识别手头的真正问题,使受众通过数据理解问题背后的成因;预测性数据故事——将当前趋势的点连接起来,找到相同趋势的基本模式和原因,并预测事件的未来进程。

4.2 数据故事的呈现

数据故事通常包含两部分内容:叙述和图表。叙述是对故事背景的补充解释,图表是对数据分析结果的可视化呈现。数据故事的呈现是将数据故事以特定的形式展示给受众的过程,数据故事的呈现形式可分为口头叙述和演示报告两种。

(1)口头叙述。叙述者直接将制作完成的数据故事讲给受众,受众以倾听的方式接受创作者口头叙述的数据故事。这种形式的优点是易于准备,在简单的会议室或者其他任何地方都能叙述,不需要复杂的场地和制作精良的可视化图表,只需要让叙述者充分理解数据的含义并看懂自己制作的故事即可;缺点是对叙述者的要求较高,叙述者要理解故事并简单生动地表达出来,此外若叙述效果不好,受众则无法看到数据信息,对数据故事很难形成清楚的认知,只能听叙述者的陈述,容易受到叙述者主观因素的干扰。

(2)报告演示。数据故事的展示过程中更多地采用报告演示的方式,传统的报告演示形式是叙述者向受众展示故事内容,同时对每一部分进行讲解和叙述,让受众既能“看到”也能“听到”。如今随着科学技术的发展以及受众对数据故事的需求增加,很多基于Web的数据故事只有创作者而没有叙述者,受众可以自行查看需要的信息。报告演示的形式可以分为静态演示和动态演示。其中,静态演示的数据故事形式通常分为文本形式和PPT形式两种。例如,The Global绘制的Starbucks和Dunkin项目[53]将可视化和叙述有趣地结合在一起,逐步引导受众认识到“Starbucks和Dunkin双方都在计划积极发展”。

动态演示的数据故事形式通常包括交互式图表和视频两种。交互式图表以一种更加灵活、智能、个性化、用户可操作的形式向受众叙述数据故事,受众可以根据自己的需求自由定义要查看的数据,交互式图表的创作者根据用户的需求制作并呈现相应的故事。这种形式的优点是可以增强受众的参与感,并且可以根据不同的受众进行个性化调整,使有不同需求的受众可以查看到自己所关心的信息,提高效率;缺点是对创作者要求较高,需要能够制作出合理美观的交互式图表。例如在Baby Name Voyager项目界面[50],受众可以自由选择查看婴儿姓名与性别、年份之间的关系,点击姓名曲线还可以看到名字的由来、随时间推移该名字的人气变化以及关于该名字的评论等。

视频形式包括短视频、电影、动画等,精心设计的、节奏良好的视频可以叙述一个有效的数据故事。优点是生动形象,受众可以看到可视化结果的动态变化,并且可以重复观看;缺点是需要预先编制故事流的过渡,并对讲故事的节奏要有合理的掌握。例如,2006年Rosling在TED上的演讲“The best stats you've ever seen”[54],使用了Gapminder制作图表动画,其中数据点的移动生动地揭示了不同国家的健康状况的改变。

5 数据故事化对数据科学的意义

数据故事化是数据科学的主要研究内容之一,也是数据科学区别于其他学科的重要特征。从流程看,数据科学项目包括数据化、数据加工、数据整齐化、探索性分析、数据分析与洞察、结果展现以及数据产品的提供等关键活动,而数据故事化是数据科学项目中结果呈现的主要手段之一。数据故事化对数据科学的意义主要体现在以下四个方面:

5.1 解决“最后一英里”问题

数据科学家精通编程、建模和数据清洗等数据处理业务,但还有一项关键技能经常被数据科学家们所忽视:清晰有效地传达研究结果的能力,即数据的故事化能力。数据的故事化是数据科学的“最后一英里”问题[5]。2016年LinkedIn的报告称,我们仍然生活在一个日益由数据驱动的世界,企业在积极招聘数据存储、数据检索和数据分析方面的专家[55]。但目前大部分招聘的重点都集中在数据准备和数据分析技能上,而不是数据科学的“最后一英里”技能[24]。

通过数据挖掘和数据分析等技术可以把数据价值挖掘出来,并把数据变成有价值的资源。但如果数据价值无法被受众有效吸收和利用,那么之前对数据所做的一切加工活动都失去了意义。根据Mayer和Anderson的研究,受众的视觉和听觉感官的刺激使他们对研究对象的理解提高了74%[41]。数据科学的重点是在向受众传达数据分析结果时进行沟通或说服[56],将数据中提取的价值传递出去,数据的故事化是实现这一目的的极好手段。利用数据故事化,受众能更深刻地认识数据、理解数据、记住数据并根据数据采取行动,充分发挥数据的价值。

5.2 从数据中获取洞察

数据科学的目标是提供可靠的基于数据的信息,并将信息转化为人们的宝贵见解,但如果没有适当的信息沟通,数据科学家就无法向受众提供价值[5]。使用图表和故事可以显示数字无法清晰描绘的要素和数据之间的关系,能够使受众深入理解数据传达的含义,获取数据洞察。

数据可视化有助于我们理解数据,但它只是让受众看到数据、认识数据,很难让受众体会数据、记住数据。数据故事化结合数据、可视化和叙述三个要素。数据可视化是叙述数据故事的最佳工具,因为它提供了可信度并且能对故事中的要点给予重视[40]。数据可视化的效果取决于它们所揭示的洞察以及受众记住这些洞察的时间[57],而扣人心弦的故事化叙述是让受众记住这些数据洞察的高效方式,因此将数据故事化与数据的可视化相结合,更有助于受众获取数据洞察。

5.3 将数据洞察转换为数据行动

数据科学家的动机是让受众根据从数据中提取的见解采取行动,这很大程度上取决于数据科学家向最终用户或决策者提供数据的能力。遵循“认识问题—解决问题”的中心思想,数据的故事化就是在最合适的时间以适当的格式向受众呈现正确的信息[34],并让受众对这些信息做出反应:过程分析、业务决策或提出讨论。

数据科学家最基本、最普遍的技能是编写代码的能力,但数据科学家每天都需要向利益相关者简单易懂地解释复杂模型的结果[28],因此对数据科学家而言,更重要的是能用所有利益相关者都能理解的语言进行交流,无论是口头上的、视觉上的、还是口头与视觉相结合的方式[42],数据科学家需要从故事叙述者那里吸取经验,用简单有趣的故事连接起数据和业务之间的断层,将数据分析和建模的结果以可理解的格式传递给正确的受众。

5.4 数据新闻及数据产品开发

数据故事化在依赖数据进行决策的领域能发挥更好作用,目前,数据故事化主要应用在新闻业和商业领域。数据新闻是当代新闻的一个方面,它使用数据以最佳方式叙述故事,且是开放的、可访问的和启发性的[58],其中除了传统的新闻方法之外,还使用数据分析、编程和叙述可视化等技术来创建数据故事[59]。作为数字新闻的一项特色活动,数据的故事化正迅速得到重视,并被大小媒体机构广泛采用[60]。目前数据新闻主要用于政治、金融和事实调查等领域。

6 结论

目前,数据的故事化已成为获取并分享数据洞察的最佳方式之一,是实现从数据感知到数据认知转化的主要手段。自从印刷术、电报、广播、电影和计算机发明以来,这些技术不断地为我们提供新的、越来越复杂的讲故事的手段,尤其是计算机的出现,使娱乐、艺术和技术以一种有趣的方式融合在一起,推动了数据故事化的研究进展。

现阶段有关数据故事化研究的主要特点是:①研究多集中在国外,国内对该领域的学术研究几乎没有;②在国外的研究成果中,主要以博文等非正式发表的文章为主,在正式出版物上公开发表的学术论文较少;③理论研究滞后于实践应用,且尚未有系统深入的研究成果;④实践应用过度雷同,缺少新的突破,多为理念层面上的修正和优化,缺乏具体的实现技术;⑤数据故事化工具多依托可视化工具,专门的数据故事化工具较少。

数据故事化是一个值得深入探索的新课题,未来研究可从以下几个方面进行:①完善数据故事化的理论体系,即包括数据故事化的理念、理论、方法、技术、工具、实践在内的一整套完整的知识体系;②研究数据故事化的评价方法,引入过程成熟度评估方法,提升数据故事化的信度和效度,并对具体的数据故事项目进行优化与改进;③加强多学科交叉研究,凝聚来自数据科学、认知科学、可视分析学、信息图形学、自然语言理解、人机交互等不同学科领域的研究成果,进一步拓宽数据故事化的研究视角和理论基础;④探索数据故事化的新算法和新模型,模型和算法是数据故事化处理的核心,但是目前对面向数据故事化的新算法或新模型的研究并不多,亟待研发出面向不同应用场景的核心算法或模型及其自动调整参数方法;⑤研发面向数据故事化的专门工具,目前,数据故事化的软件工具不多且功能不够成熟,主要作为数据可视化软件工具的一个辅助功能的形式存在,缺少专用于数据故事化的软件工具,尤其是开源工具。