通知:为推动防范电信网络诈骗工作、加强警企协作为推动防范,如网民接到962110电话,请立即接听。
当前位置:首页 >专业观点 >美国教授熊辉:这是一个裸奔的时代

美国教授熊辉:这是一个裸奔的时代

2014/8/1 来源:互联网 关键词:31会议网 飞马旅 熊辉 数据挖掘 医生看病 痛点 演绎法 归纳法 移动数据挖掘 裸奔 中西贯通 易经

本文是由美国罗格斯-新泽西州立大学罗格斯商学院管理科学与信息系统系副系主任熊辉于7月21日在飞马旅"实操————大数据落地经验分享沙龙"上的演讲记录。

 

以下为讲演实录:

 

    作为一个技术出身的人,我应该是华人里面第一个从计算机系跳到商学院的。因此我今天介绍的东西多与和我的技术背景有关。我目前的很多项目都是和华为、SAP等业界大公司合作。
 

 

  我从20世纪90年代开始做数据挖掘,是数据挖掘的一个老兵。我做数据挖掘的一个体验是,做数据挖掘的人特别像医生。当年本科毕业后,我试图寻找一个新的行业。这个行业应该符合三个标准:1.必须是我个人非常喜欢,2.必须是处于上升期,3.有足够的复杂度。从这3个标准看,数据挖掘完全符合行业要求。20世纪90年代末,互联网正存在一个泡沫的阶段,世界上所有的事情都会进入网络,人和人之间的连接,物和物之间的连接,人和物之间的连接,最终都落脚到了互联网这里。进入网络意味着信息化、数据化,所以说数据挖掘一定是一个障碍型的行业。
 

 

  20世纪90年代数据挖掘刚刚热起来。数据挖掘这个行业是非常复杂的,因为我们面对的数据环境是处在一个不断的变化的过程。从医生的角度来看,当他面对老人、小孩和孕妇三个病患时,尽管同是感冒这个病症,但是应付的方法却不一样。所以选择从业数据挖掘领域工作的人很幸运。因此数据挖掘是一个障碍型的行业,这个行业的薪酬很高,同时这也是一个非常好的行业,但前提是你要喜欢这个行业。
 

 

 

 

  大数据很早就存在,海量数据在20世纪80年代就开始流行,数据挖掘最早是由沃尔玛提出来的概念,所以说这个概念不是什么新鲜的概念。现在我们重新给它赋予一个新的概念,既大数据,换言之这个大象早就存在。以前我们做数据挖掘时就好比盲人摸象,因为这些数据反馈回来所形成的形象很难反映事物的整体。我们就像一个瞎子,对于整个事物的了解都是片面。而在大数据时代我们面临的困难其实更多,因为现在的大象不但大,而且还会飞,所以我们必须把握动态的数据。与此同时我们通过数据来理解这个世界变得更加困难。
 


  在此要强调两个问题:第一个问题是,很多人在做大数据时有这样的误区,他们抱怨说公司数据库只有少量的数据,难以做大数据。这是错误的想法,大数据并不意味着你的数据库一味地要求大,大数据是一个相对的概念。你在规定的时间内处理的数据超过了你的计算能力,我们把这个现象叫做大数据。第二个问题,有些人说做大数据,数据越多越好,事实并非如此,正确来说应该是和你拟定的问题相关的数据越多越好。
 


  我个人的一个重要体验是,想做好数据挖掘一定离不开知识。做数据挖掘跨界的人才更吃香。中国的整个教育体系是一个闭环的教育结构,闭环的教育结构导致培养出来的人才要么只懂技术知识不懂理论知识,要么只懂理论知识不懂技术知识。因此经常造成这样一个局面,很多懂理论知识的人得到实践中去学习技术知识,懂技术知识的人得到实践中区学习理论知识。这是一个跨界人才需求旺盛的时代。大数据领域真正的需要的是跨界人才,既要懂理论知识也要懂技术知识。
 


  解决商业问题的关键是理解这个商业问题的痛点。商业的痛点要比技术问题重要,我处理很多的商业问题都是花70%-80%的时间去了解这个商业问题的痛点。当把一个商业问题能够转化为一个数学问题后,90%的学生都能解决这个数学问题。
 

 

  在移动领域企业掌握了大量的数据。基于这些数据,企业可以相应地去开展服务。以旅游问题为例,假设用户要去旅游,企业可以根据我过去的旅游线路帮我制定一个适合用户的全新线路。这个基于大数据挖掘出来的线路不仅满足实际情况,准确性还很高。
 

 

  做移动领域的大数据是非常困难,这和做传统数据挖掘有着很大的差异。移动领域的数据挖掘有很大的异质性的。很多传统的算法都是IID假定,但是到了移动和空间的情况下,它就完全不合适。所以在移动领域无论是在模式的设定还是算法的开发,都要做相应的修改。这恰好说明了一个数据存在其特殊性。
 

 

  做数据挖掘起始就像医生给病人看病,首先你得知道这个病人有什么不同,而数据挖掘也要面临着不同的数据。举一个例子,利用数据挖掘做房地产评估和传统的房地产评估有着巨大的不同,搜房和腾讯做房屋评估基本都是基于静态的信息,比如说交通总量,离工厂有多远,距离学校的距离等,这些都是静态的信息。而我们做的数据挖掘则有很大的不同,我们运用了大量的动态信息,比如两个不同的社区,静态指标完全一样,但是一个社区的房价要比另一个社区高很多。这是为什么呢?动态信息的数据挖掘分析显示,这是因为其中一个社区过去的人口总量在不停地增长,而另一个社区人口在不断下降,这才导致了房价的巨大差异。我们只有真正反应出来人的行为,才能真正反应房价。做数据挖掘工作要结合静态数据和动态数据,我们不是具体定价,我们只是做评估。我们和现在传统的房屋评估的不同之处就在于不仅考虑到静态的信息,还考虑到动态的信息。


 
  除了数据挖掘之外,我们还在APP领域取得一定成果。现在智能手机是发展得最快的行业,我们最近两年做了两个不错工作,一个是我们经营的移动应用推荐的安全性和问题。我们不会单纯因为这个应用很好用就推荐给你,很多使用安卓系统手机的人在手机unlock后都会出现中毒的情况,APP安全性问题是用户的一大烦恼。因此我们做推荐要考虑到安全问题,考虑一个APP是否会对用户的手机安全以及用户隐私构成问题。另一个问题则是考虑APP的真实下载量。现在APP开发越发简单,有时几个人就可以完成一个APP,很多APP开发出来后就会刷榜,一当被刷到排行版前几名开发人员就可以发财。因此我们开发的一种功能,可以分辨哪些下载是正常行为,哪些是用算法刷下载量的行为。


 
  人类传统有两种方式看世界。一种是从上往下看世界,即是西方人所擅长的传统演绎法看世界。另一种是从下往上看世界,即东方人长期擅长的归纳法,比如说易经。我们在看世界时,从众多的现象中找到共同的规律,这是典型的归纳法。西方为什么在近代占上风呢?我认为是西方科学在近代得到了系统化的完善,西方科学在系统化完善后爆发出其力量,从而占据上风。现在中国人又有机会啦,因为如今的我们用有大数据。大数据的出现和以前有很大的区别,我们从来没有这样一个机会可以深入到毛孔去观察一个人。
 


  现在是个什么时代?现在是一个裸奔的时代,现在是一小撮人看着绝大多数人在裸奔的时代,而这一小撮人也在相互裸奔。不管你是否相信,其实有很多人比你更了解你。现在你的大部分信息已被一些公司所掌握,他们可能比你更了解你,你的信息他们基本都知道。因此这是一个裸奔的时代。从以上的种种,我可以说,我们第一次有了这个机会,可以从下往上看世界,可以把世界看得如此透切,看得如此清晰。
 

 

  想把将事情做好,无论是个人,企业还是国家,一定要中西贯通的,既要懂科学的系统性的演绎的方法,也要懂能够系统归纳的大数据的方法。只有两种两种结合做一起,才是看世界的真正方法。

如果您对以上内容感兴趣,需要我们的支持,请猛戳按钮留下您的需求,我们会安排资深顾问与您联系洽谈!
我有需求
本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有
本网站标明原创的文章,版权归本站所有,欢迎任何形式的转载,但请务必注明出处
上一篇:达内科技韩少云:赴美上市的三道坎 下一篇:熊晓鸽:老虎倒下的地方是创业机会所在

如果您需要进一步了解信息,请致电我们!

400-690-3131

申请试用

在线客服

咨询热线

400-690-3131