【独家干货】数据挖掘与社交媒体解析
来源:微信
作者:财秘
阅读数:464

 

本文摘自清华大学数据科学研究院院长俞士纶教授于2014年12月22日,在清华大学信息楼(FIT楼)二层多功能厅做的题为"On Mining Big Data and Social Network Analysis"的学术报告。回复“大数据论坛”可获得完整版PPT。

清华大数据产业联合会授权转载

摘自:数据派(ID: datapi)

数据派是清华大数据产业联合会官方微信公众账号,定期发布清华大数据系列讲座信息,分享讲座实录

演讲摘要:

俞士纶教授指出,不同来源的数据融合是大数据研究的“圣杯”。许多公司都有多个渠道收集客户信息,如Google就有搜索引擎、邮件系统、地图服务、Google+、YouTube等。他还举了个医药领域的例子,来说明异构数据融合的挑战,以及如何用易购信息网络来进行异构数据挖掘。

在俞士纶教授演讲的第二部分,他着重讲述了如何在不同的社交网络之间传递知识,从而更好地预测朋友关系。社交网络规模巨大,比如Facebook就有10亿多用户,每天不断有大量数据在产生,数据的类型复杂多样,而且还有很多噪声,不像传统数据库,数据都是干净的、清晰的。虽然社交网络的数据蕴含着巨大的价值,价值的挖掘却充满挑战。

现在流行的社交网络,每个都有其特点和特定的目的。一个人可能在多个社交网络中出现,每个社交网络捕获了用户的一部分行为特征,对用户有部分了解。而新出现的社交网络由于没有数据积累,对用户了解很少,因此成熟网络中的用户信息会大大帮助新社交网络成长。并且,从其他社交网络公开能够获取的信息就已经非常丰富和有用了。那么多社交网络融合的关键问题是什么呢?多社交网络融合的关键难题在于“同人”识别,也就是如何判断不同社交网络中的用户是同一个人;进而,如何在不同的社交网络中传递知识。

演讲全文:

 

演讲人简介:

俞士纶教授是国际数据库和数据挖掘等领域的先驱之一,早年在台大获学士学位,在美国斯坦福大学获硕士和博士学位,在美国纽约大学获工商管理学位。现任美国伊利诺大学芝加哥分校Waxler特聘主任教授,之前是美国IBM研究院的高级部门主管,是IEEE和ACM的Fellow,曾是IEEE Transactions on Knowledge and Data Engineering的主编。现任多份国际学报的编委。

俞教授著作等身、成就颇丰。先后出版过多部书籍,发表过850篇以上学术文章,拥有300项以上的专利。总共被它引超过20000多次,列国际计算机与信息科学学术界文献它引次数前30位,获得过许多荣誉和奖项,包括IBM发明大师奖。

 
注:文章由数据派(gh_2fc170a02eb2)发布,查看原文
Copyright@2014-2015 Femorning.com. All Right Reserved.
上海妙点网络科技有限公司版权所有 沪ICP备15004616号-2