五年Twitter上情感分析的结果:2008年后总体幸福度呈下降趋势,圣诞节是每年的亮点
情感分析是这些年计算机学中的一个新研究方向,说白了它就是试图将人们的情绪和情感数据化,手段会包括自然语言处理、统计学、信号处理等。最适合情感分析的平台也是在最近几年兴起的微博类(Microblogging)社交平台,在美国就是 Twitter。
佛蒙特大学计算实验室的项目Hedonometer在过去的五年中每天都会对 Twitter 上面的千万条 Tweet 进行情感分析,并将其结果记录了下来。Hedonometer 主要是通过自然语言处理来分析情感,比如它会在人们的 Tweet 中寻找一些反映正面情绪或者负面情绪的关键词。
我们能从图中看出每一年的幸福度最高点都是 12 月 25 号,也就是圣诞节。其它幸福度高的日子包括元旦、感恩节、情人节等。从每周来看,人们平均幸福度最高的一天是星期六,而最低的一天是星期二。
但是自 2008 年之后,Twitter 上面总体的幸福度一直呈下降趋势。这或许是因为 2008 年的美国金融危机,以及之后导致的持续经济不景气。我们能看到幸福度最低的一天就是上月的 15 号,也就是波士顿马拉松爆炸发生的那一天。
但是 Hedonometer 的算法明显是不完美的,因为 2011 年 5 月 2 号是美国宣布奥萨马本拉登被击毙的那一天,但是 Hedonometer 错误地认为这一天的幸福度很低,因为“死亡”、“杀死”等负面词汇在 Twitter 上面的频繁出现。完全理解人类的自然语言是一个AI Complete的算法难题。
如果用同样的手段对新浪微博进行情感分析,每年的最高点应该是会在春节。但是还会有哪些其它的区别?
留言