伴随着视觉化的进程,出现了一种“词云图”。词云,又称文字云,由词汇组成类似云的色图形。是通过对一个或多个关键词进行重复的、字体大小颜色不一的、不规则的排列,使其看上去类似于某种形状的图片,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。关键词云图生成器作为生成云图的一种工具,简化了制作过程。
那么,词云图该怎么做呢?
我找到了一个BI软件——Smartbi思迈特软件
如下是热门搜索城市词云图。
像这样的词云图的操作步骤:
以上业务情景的数据来源如下:
我们的基础数据以明细表的形式存储,以上“权重”是通过输入的数据系统自动汇总统计的得出的。
1、双击“城市”、“权重”字段,由系统自动分配维度到“标签”标记项、分配度量到“大小”标记项,得到如下词云图:
2、添加“颜色”标记项(可选,建议执行此操作,图表示内容更清晰),拖拽“城市”字段到“颜色”标记项,系统以颜色区分话题。
从上图可以看出深圳、广州、上海搜索热度最高。
那么,词云图有什么作用呢?
关键词云是对海量文字内容中出现频率较高的“关键词”的视觉突出,即出现越多的“关键词”字体越大。比如说可以根据上千条新闻进行词频统计,得到很多个“关键词”,再按照关键词出现的次数进行排序,越显著的“关键词”,在所有新闻内容中出现的频率越高。
从最初的“新型冠状病毒、感染、发热”,到现在的“总体战、康复者、血浆、复工”,围绕疫情的舆论场热词在悄然间不断改变。热词代表着广大网民的心声,也彰显着抗疫战况的演变。根据思迈特软件Smartbi大数据分析平台的跟踪收集和统计分析,网络热词随着疫情防控形势呈现联动变化的明显趋势。起始阶段,新冠肺炎疫情来势汹汹,“肺炎”“新型冠状病毒”等词是关注热度最高的词,“野味”“蝙蝠”“发热”等和疫情紧密相关的词语上了“热搜”。
所以,词云图可以对网络文本中出现频率较高的“关键词”的视觉上的突出,不仅让读者快速提取文本的重要内容,而且通过不同文本的词云比对,达到数据分析的目的。