世界流行性相关分析:Google Correlate实验室项目,发现相关流行趋势
Google Correlate是Google的一个实验室项目,它可以找到真实世界里流行趋势的搜索序列。比如搜索“Hand cream”(护手霜),可以看到每年这个词汇的搜索热度(蓝色线条),因为是明显的季节性产品,所以每年的冬天都会火一把。
Google同时会列出很多与Hand cream相关的搜索关键字,比如“cracked hands”(手开裂),你可以对比cracked hands(红色线条)和Hand cream在各个时间段上搜索热度的比较。
每一个相关词前面都会有一个相关系数,表示它们之前的相关程度,cracked hands和Hand cream的相关程度为0.94,是很高的相关性。
我们还可以选择图表中(支持拖拉)2010年至2011年进行详细分析:
更清楚的了解两者的相关程度。
注意:Google Correlate相关性只是表示两个事物之间的相关性,并不代表因果性,学统计学的人应该不会搞错,没学过统计学的人注意了,相关性不代表因果性。如一个刚刚出生的孩子的身高与一棵树苗的高度,有很强烈的相关性,但完全不存在任何因果性。
比如搜索“Whitening”(美白),人们越来越关注美白。但这个趋势居然跟“homeowners insurance cost”(家庭财产保险成本)非常相似,相关度达到0.9,但我们不能说这两者是相关的,所以这个相关性不是绝对的,还是需要人工判断的。
google相关分析还有一个强大的功能,手工画一条趋势线,看看什么事物符合这样的趋势,我们尝试如下图。
手工画一条趋势线,看看什么东西在2005年很流行,然后就销声匿迹。
得到的结果是爱立信的T237手机,手机的更新换代真的是太快了,这个手机一两年内就销声匿迹了。
google相关分析还有一个地区分析的应用,目前只是基于美国地区,我们还是搜索Hand cream,可以看出irish sweater爱尔兰毛衣与head cream在地区分布上有很大的相似性,当然它们不是同类东西。
google correlate真的是一个好工具,欢迎大家有好的应用与大家分享。我猜,google相关分析应该是基于我们平时在google搜索的时候,在页面底部会出现搜索建议的这一功能而提炼出来给我们使用的。最近比较关注google的数据分析方面的应用,尽可能在这里和大家分享。