6月26日,“今日头条”在上海举办了一场别开生面的大数据发布会。仅仅一年时间,今日头条就依靠庞大的移动端装机量,积累了百亿规模的大数据记录,这使得张一鸣(今日头条创始人、CEO)可以有足够的信息用来分析。参加这场掌声频传的大数据发布会无疑是受益匪浅的,但结合自身对大数据的使用和思考,同时也发现了一些问题,借此机会与大家共同探讨。
数据量不再是大数据门槛
不论从产品运营还是数据积累角度,今日头条都是成功的。它仅仅用了不到3年时间,就获得了超过2.5亿的产品激活量,以及超过2000万的日活跃用户。这为今日头条积累了天文数字般的数据量。例如仅仅在2014年间,汽车资讯类的点击就达到25.3亿次,还有1896万次收藏和333万条评论。
这仅仅是一家创立仅3年的产品一年中某个领域的数据量,而众多用户群体庞大的传统互联网企业,如百度这样的搜索引擎、搜狐等门户网站、微博等SNS平台,积累的数据也都是数以百亿计的。
尤其是移动互联网快速发展的当下,数据量已经早已不是大数据分析的限制因素了。
汽车大数据的靠谱与不靠谱
既然大数据概念这么火,需要专门搞发布会,那么汽车大数据到底有什么意义呢?
我们发现,大数据确实可以告诉我们一些有意思的事情。
今日头条给出的数据显示,SUV的关注度大约为30%,如今SUV市场占有率相当;数据告诉我们,经济欠发达地区的今日头条用户更关注汽车信息,说明随着经济发展那里的人们开始关注汽车产品;数据告诉我们,德系车依然是中国消费者最关注的车系等。有些是我们已经知道的,有些是我们通过大数据才知道的。
在日常工作中,笔者通常依靠百度指数作为大数据的来源。按照笔者的分析,百度指数作为一项“搜索大数据”,与汽车销量存在着一定正相关关系,即搜索指数高的车型销量高。
通过将特定时间段特定车型的销量和百度搜索指数进行耦合观察,可以明显看出销量与搜索指数之间存在着显著的正相关关系。实际上按照笔者的统计,这一规律符合大多数汽车产品,尤其是越成熟的产品(时间、市场、渠道),搜索指数与销量的关系相对越紧密。有兴趣的读者可以自行选择车型对照试验。
然而,受到各种因素的影响,两个数据并不能完全对应,在波动幅度、频率等方面也存在显著差异。少部分产品甚至差异巨大,如上图中的A4L。
换言之,目前的大数据,可以给我们提供一种定性分析的角度,但还做不到严格的定量分析。
这又是为何呢?
汽车大数据的问题
总体而言,目前的汽车大数据依然处于非常原始的阶段,即最基本的数据收集。看起来很美的背后,存在着很多硬伤。
大数据本身可靠度较低。目前的数据收集依然十分粗放,数据受到干扰的情况十分严重,尤其是一些通用关键词。如此次数据发布会就完全剔除了大众品牌的大数据分析,因为“大众”一词的数据受到的干扰较多。这说明目前的大数据收集依然不够精细和准确,而且我们同样难以排除其他关键词被干扰的可能,同时我们不知道影响因素到底是什么。
评价标准是明显的硬伤。如此次数据发布会更多倚靠“总阅读量”进行排名,进而得出关注者“最关注”的排行。总的阅读量固然是一个重要指标,但总阅读量等于每篇阅读量之和,换言之假如某方面文章篇数太多,读者不得不去点击阅读,这样的阅读量并不能反应真实的关注度。而如果在总阅读量上辅之以平均阅读量、总文章数等指标,则评价标准就能更加客观。
数据分析解读能力弱。我们在获得海量数据的同时,目前还并不能对数据进行有效的挖掘和解读,使得数据仅仅是一些似是而非的数字。症结在于,我们目前还没有很好的办法搞清楚数据之间的逻辑关系,只能依靠经验、甚至脑补(猜测)去解读数据,这显然是极度不可靠的。
以上的种种问题,每个都足以严重到重创汽车大数据的可信度和商业价值,让我们面对大数据只能无奈地说一句“然并卵”(然而并没有什么卵用,没什么价值)。
纵然大数据的概念现在依然炒得火热,但看起来高大上的大数据,目前依然只是互联网时代的一个噱头。不论作为企业还是消费者,在保持对大数据的热情的同时,还应抱有足够的戒心,因为一个不小心,可能就被忽悠了。