堆积图表界的翘楚!河流图如何搞定“巨量”数据 |图表家族#34

2023-05-10 14:56:27


编辑/ 陈淑晶      版面/李艺佳


镝摘

继旭日图、漏斗图、饼图之后,我们又迎来一个 “象形”图表——河流图。虽然河流图是从堆积面积图演变而来,读图的原理也相同,但是在面对较大体量的数据时,河流图还是略胜一筹!


从折线图到面积图再到河流图


折线图与面积图


折线图是我们在数据可视化过程中常见的图表,当我们把折线与轴的围起的区域涂上颜色,变成了面积图,这时候两种图表的意义就不一样了。当把单色的面积变为多色的面积,就出现了不同类目的比较意义,且区别于条形图,具有连续比较的意义。继续往下进化,就出现了河流图,那么什么是河流图呢?

 

河流图(Streamgraph),有时候也叫做“主题河流图”(ThemeRiver),是堆积面积图的一种变形,通过“流动”的形状来展示不同类别的数据随时间的变化情况。但不同于堆积面积图,河流图并不是将数据描绘在一个固定的、笔直的轴上(堆积图的基准线就是x轴),而是将数据分散到一个变化的中心基准线上(该基准线不一定是笔直的)。


河流图的组成


由河流图的组成图可以看出,河流图用颜色区分不同的类别,或每个类别的附加定量,流向则与表示时间的X轴平行。每个类别的对应数值则是通过 “河流”的宽度展示出来。每个类别的数值变化就会形同一条粗细不一的小河,汇集、扭结在一起,河流图也因此而得名。

 

以下图为例,作品《音曲繁美》就采用了这种河流图,它每一条的宽窄代表了音乐在特定年代流行的程度,用不同的颜色去区分不同的音乐,图表最后形成水流状的样子。


音曲繁美


既然河流图是堆积面积图的变形,那么与堆积面积图相比,河流图具有哪些不同呢?

 

在我们之前的推送中,也和大家分享过堆积面积图的一些特点,比如不建议堆叠面积图中包含过多数据系列,最好不要多于7个,以免数据难以辨识。然而,较于堆积面积图,河流图在展示多类别及波动幅度大的数据时,可读性更强,外表也更美观。


这条历史的大河才刚成年


2008年2月,、最著名的河流图的例子《电影的衰退和流动:过去20年的电影票房收入》,描述了从1986年1月到2008年2月期间,所有电影的上映时间以及期间的周票房变化。在这个河流图中,流形状的宽度代表了某部电影的周票房,流形状的起始是由电影的上映时间决定的。颜色由电影的总票房决定,票房就是电影的“附加定量”,颜色越深代表了电影最终票房越高。


电影的衰退和流动:过去20年的电影票房收入


我们可以看到,从2007年4月中旬到7月,是高票房电影集中上映的时间,《蜘蛛侠3》、《加勒比海盗:世界的尽头》、《史瑞克3》等电影都获得非常高的票房收益,上映时间也几乎持续了3个月。但事实上,为了避免票房争夺,这段时间上映的电影数量不多,等到7月开始,大热电影档期结束,电影数量才多了起来。


河流图的交互使用


利用交互技术,我们可以把鼠标移动到某一个流形状上,突出显示它的具体信息。同时,,拖动滚动条可以发现,纵观20年,汇入电影历史长河的“小河”越来越多,电影的票房收入整体不停上涨。电影历史的长河越来越宽阔,特定时期的票房高涨也越来越明显。

 

此图的设计者之一Lee Byron,在河流图的设计上做了非常大的贡献。上面提及的可视化是建立在Lee以前的可视化成果之上。他在本科的时候,就设计了一个河流图,呈现用户在last.fm上听音乐的变化历史。


聆听历史


根据河流图的基本原理,每一个流形状代表了一个艺术家,流形状的宽度代表了用户在给定的时间内收听歌曲的次数。颜色的色调与艺术家的一首歌被听到的最早日期相关,深浅则与该艺术家被收听的总次数相关。用户可以通过自己的聆听河流图,发现自己所听的歌曲与当时的心情,或者是特殊事件的关联,人生轨迹仿佛被音乐描绘出来。

 

实际上,这种多层叠加数据的可视化方法,最早出现在2000年Susan Havre, Beth Hetzler和Lucy Nowell的文章《ThemeRiver:  In Search of Trends, Patterns, and Relationships》中。


菲德尔·卡斯特罗话语分析


这篇文章描述了一个名为“ThemeRiver”的互动系统的开发过程,其中使用一个文本分析引擎,对1959年11月到1961年6月期间,菲德尔·卡斯特罗的演讲、访谈以及其他文章的文本内容进行分析。河流图呈现出他在不同的时期使用的词语及次数。


这条“图表之河”将生生不息


面对诸如20年电影票房、听歌次数历史、文本分析等“巨量”数据,河流图表现得非常“从容”。

 

2008年,Jeff Clark对前100名Twitter用户的推文进行文本分析,发现最常用的单词除了“Scoble”(一位著名的美国博主)和“Obama”(前美国总统)之外,提及最多的是产品、技术或者技术事件的相关单词。这是因为顶级Twitter用户是走在前沿的“技术控”。


Twitter Topic Stream for Top Users


2011年,美国科技杂志《连线》的一篇文章运用河流图,描述了2010年9月8日至2010年9月15日期间,纽约市民拨打311市民服务专线所投诉的问题。噪音、路灯、街道设施是纽约市民最常反映的问题,特别是噪音的问题在睡眠时间里,投诉特别多。投诉的时间则集中在11:00-19:00的区间里。


What a Hundred Million Calls to 311 Reveal About 

New York


2016年,,就把世界各国在奥运会上的获奖情况展示出来。我们不仅可以看出各国的获奖情况,还借此看出世界历史的重要节点,包括两次世界大战、中国第一次参加奥运会、美国和前苏联抵制参加奥运会等。


A Visual History of Which Countries

Have Dominated the Summer Olympics


河流图助你可视化大数据


堆积类图展示面对大量的数据时,通常可读性会降低,细小的堆积块难以观察。


百分比堆积面积图


河流图同样也会存在一些争议。,有敏锐洞察力和读图能力的一部分人,能从图中看出电影的宏观层次季节性,看出哪些电影一直在“苟延残喘”。也有人赞美它运用颜色来区分高票房电影,以及凸显了电影上映数量变化。但也有一些人认为,河流图过于复杂和混乱,河流的形状会让人误会向上凸起的为正值,向下的为负值。

 

因此,在使用河流图的时候,我们要注意,除非使用交互技术,否则河流图无法精准地表达数据。但不可否认的是,在面对巨大数据量,且数值波动幅度大的情况下,河流图拥有优雅的视觉结构,能很好地吸引读者的注意力,同时凸显变化大的数据。



镝数河流图


镝数的这个河流图则展示了1896-1932年,前五名国家在奥运会上奖牌数量的变化情况。同样的数据用在堆积面积图上,显然给我们解读数据带来更大的难度。


堆积面积图


对的数据遇上对的图表,哪里还用怕发现不了有趣的事?点击“阅读原文”,把河流图用起来,我们期待在镝数上看到你精彩的使用案例哟~

 

更多镝数使用问题请参看以下文章,如果仍有无法解决的问题,请发送邮件至public@dydata.io或者直接在后台留言

 

咱们下期再见!

参考文章


Stream Graph

https://datavizcatalogue.com/methods/stream_graph.html


STREAM GRAPH

http://seeingdata.org/taketime/inside-the-chart-stream-graph/


ThemeRiver:  In Search of Trends, Patterns, and Relationships

https://vis.pnnl.gov/pdf/themeriver99.pdf


Stacked Graphs – Geometry & Aesthetics

http://leebyron.com/streamgraph/stackedgraphs_byron_wattenberg.pdf


MAKING SENSE OF STREAMGRAPHS

http://www.visualisingdata.com/2010/08/making-sense-of-streamgraphs/



往期回顾


条柱形图    工作报表    饼图

时序图表    折线图     散点图

气泡图    面积图    弦图    主题配色

配色技巧    矩形树图    雷达图

瀑布图    旭日图    漏斗图

桑基图    箱线图    玫瑰图

折线家族    热力图    柱图家族

饼图家族    词云图    力向导图



友情链接

Copyright © 2023 All Rights Reserved 版权所有 国内古风音乐联盟