加微信,请扫二维码
 您现在的位置: 北京冰河图书工作室 >> 联系我们 >> 【出版资源】 >> 【综合资讯】 >> 正文

图说大数据的误区与真相

[ 来源:佚名    点击数:2482    时间:2013/5/28    编辑:冰河 ]
冰河文化图书策划业务介绍 冰河文化编辑组稿业务介绍 冰河文化加工修订业务介绍 冰河文化图书插画业务介绍 冰河文化个人出书业务介绍

 

 

图书工作室 讯:


    另外国政通推出的“同名同姓”应用,虽然看起来比较偏娱乐化实用性不强,但是这背后的那些身份数据是可以进行各种二次利用。每次看到类似应用,我总会把前同事“操瑞士”的奇葩名字输进去,现在只有这款应用准确的找到了全国只有 1 个操瑞士,并且是安徽人。呼叫瑞士大使馆迅速锁定他的位置吧!

    所以大数据的核心并不是拥有数据,而是拿数据去做了什么。也就是说你不能仅仅占有人家的身子,也要占据人家的心灵。

    2.对数据的容错性更强,来源更加多样化

    一个 500M 的用户数据 Excel 表算不算大数据?曾经在做某款产品的用户筛选时,这么一个 Excel 成功拖死我电脑三次,我当时愤怒的说:“KAO,这 SB 大数据!”现在想起来,我冤枉了大数据君,您受苦了。

    真正的大数据,应该是从不同维度,不同途径过来的各种格式数据碎片,并不限于文字/视频/声音/位置/图片等。只有将不同维度的数据放在一起判断,得出来的趋势才有可能更真实。雷同的数据积累的再多,超过某一个限度之后,我们再从新样本上获得的有用信息就越来越少,就如同经济学上的边际效应递减一样。而用简单点儿的话解释就是如果你已经交往过五个 IT 码农,那么第六个其实也不会新鲜到哪里去,倒不如重新调整方向,换个高富帅找点儿不同的刺激。

    多样化的来源同样可以避免陷在一个死胡同里出不来。例如以前经常说的“三年自然灾害”,如果仅仅去查询这三年的天气状况和死亡人数的关系。那么可能最后得出结论是“晴朗天气比阴天更容易致人死亡”。但实际上如果去结合《人民日报》亩产十万斤的相关翔实公正报道再加上那些年中国粮食对外进出口情况,那么就会得出更有建设性的结论。在一 90 后妹子的追问下,只说了四个数字。1958 年,中国出口粮食 288.34 万吨,进口 22.35 万吨。困难时期第一年,1959 年,中国出口 415.75 万吨,进口 0.20 万吨(数据可参此处),那年,听说大家都好饿。别不多说,免得喝茶。

    再举个例子,这两天淘宝首页给我推送的个性化广告除了情趣用品就是“花花公子”服饰大优惠,我不就是为了找素材和配图搜了一下“情趣用品”么?你们没完没了的给我推送这个,节操何在?如果你们能拿到我小学老师的评语,初中老师的评语和操行评定,高中老师的评语和操行评定,通过对多个来源不同的数据源分析,那么你们给我推送的一定会是《钢铁是怎么炼成的》《雷锋日记》等好书。(大学老师的评语就算了,那厮打 CS 被我蹂躏了太久容易怀恨在心。)

    3.拥有大数据的身,也要有大数据的心

    以往的数据分析,更多的是精确的样本/深度的数据挖掘,“精确”就是其代名词。不符合规格的样本过滤掉,然后再深度挖掘数据字段间的关系,得出几个精确无比数字去做 PPT ,或者从一系列数据里精准的找到某个正一脸猥琐偷拍姑娘的人。

    但是大数据更多的是通过对各种数据分析得出某种趋势,这种趋势不必过于精确,但是能让相关决策人有底气去做某项决定。大数据不重要,重要的是使用大数据的人。

    因为哪怕面向完全相同的数据源,不同的人得出的结论或者决定也可能是截然不同的。三国赤壁大战,当庞统献计“若以大船小船各皆配搭,或三十为一排,或五十为一排,首尾用铁环连锁,上铺阔板,休言人可渡,马亦可走矣”时,同时听到这话的两个人,曹操下席而谢,“非先生良谋,安能破东吴耶!”,而徐庶却私下里扯住庞统“你好大胆,只恐烧不尽绝。”由此可见,“以人为本”是多么精辟的一句废话啊!

    无论你 NB 还是 SB ,数据总在那里,不离不弃。

   4.强调趋势和未来 

    大数据,更多的应该是分析过去,提醒现在,展望未来。无法用到实践中去的大数据都是耍流氓,无论这个结果是造福了全人类,还是帮助网站提高1%转化率,这都是有用的。


    上图这充满着暴力气息的玩意是当年冷战期间美国和苏联研发的高速列车,他们将轰炸机上的涡轮直接装在了火车顶上。其中美国的 M-497 号在 1966 年俄亥俄州的铁轨上跑出了 295.54 公里/小时。虽然几十年后,才有了现代高速铁路,但是如果没有最初的这种野蛮实验,恐怕现在自主研发的高铁也没有那么充足的底气。


    谈趋势谈大数据,怎么能不提谷歌的流感趋势呢?谷歌分析自己上亿次的搜索查询,近乎实时的提供全球许多国家和地区的流感疫情评估,从截图可以看出,谷歌的趋势曲线跟美国官方公布的数据重合度非常高,但是后者在时间和效率上完全无法比拟谷歌趋势。

    如果你在准备出差的时候,发现你要去的地方正爆发鼠疫,我想大部分人肯定就哭着喊着辞职不去了。

上一页  [1] [2] [3] [4]  下一页

  • 上一篇文章: 出版业3.0:没有库存的世界

  • 下一篇文章: 电子杂志发展走向 电商化
  • 策划组稿业务介绍】【设计制作业务介绍
     最新5篇热点文章
  • 读了这些书,谁都能写好今年…[3646]
  • 2019年“扫黄打非”十大案件…[6828]
  • 2019阅文女频年度好书榜日前…[16537]
  • 2019图书市场报告发布:新书…[2855]
  • 北京阅读季:北京阅读空间漫…[6584]
  •  
     最新5篇推荐文章
  • 企业出书案例展示:《员工培…[10351]
  • 企业出书案例展示:《华夏银…[9225]
  • 本公司企业出书业务介绍[63900]
  • 科普类读物插画选登(单色灰度…[10925]
  • 健康科普类读物内文插画2[10864]
  •  
     相 关 文 章
  • 中青布鲁姆斯伯里公司成立 首…[1842]
  • 3小时订单破千万!2020浙江省…[1701]
  • 培养阅读力是塑造孩子学习力…[1976]
  • 中少总社“父母学习计划”燕…[1680]
  • 2020年10月中国青年阅读指数…[1719]

  •   网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)          
        没有任何评论
    设为首页 | 加入收藏 | 联系站长 | 友情链接 | 版权申明 | 管理登录 | 
    版权所有 Copyright@ 2005-2020 北京汉图图书公司        站长:冰河        页面执行时间:78.13毫秒