【数字化战略】李天瑞:大数据浅析

22.10.2014  13:53

 

众所周知,“大数据”是继物联网、云计算之后IT产业又一次颠覆性的技术变革,对于政治、经济、社会、文化、健康乃至个人生活方式等都将产生巨大的影响。维基百科将大数据定义为所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。百度百科的大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。因此,大数据与一般数据区别在于:现有数据是否能够用传统算法和存储技术在合理的时间内处理。如果可以处理,就不能称为大数据。

当前大数据在各个领域中开始崭露头角,取得了令人瞩目的成就。例如,在社会民生方面,去年中国春运大军已经增长到36亿人次,人们很关心这36亿人次在这么短的时间内是如何迁徙的,央视借助于百度迁移(用手机中基于位置服务的定位功能和大数据可视化技术)把春运大军的迁徙状况形象地呈现在电视屏幕上,给每一个观众带来最直观的感受,也为运输部门的决策提供了重要参考依据。阿里金融的阿里小贷业务也堪称为大数据应用中典型案例,它的目的是为阿里巴巴B2B业务、淘宝、天猫三个平台的商家提供订单贷款和信用贷款,阿里利用了该集团庞大的客户资源大数据和信息流,通过分析淘宝、天猫、支付宝、B2B上商家的各种类型数据,给商家进行信用评级,商家凭借这个信用评级,不用提交任何担保、抵押,就可以申请阿里金融旗下的信贷产品。与银行相比,这种创新的金融信贷审批模式极大提高了贷款效率和企业竞争力。

大数据的不断迅猛发展,也呈现出其独特的特性,概括有五个方面,也称为“5V”,即Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值)和Veracity(真实),具体来说第一是数据体量巨大,通常人们把PB(=1,024TB=1,048,576GB)级别以上的数据称为大数据;第二是数据类型繁多,如网络文本、图片、视频和地理位置信息等;第三是数据高速变化,现实中网络文本、图片、视频等数据不断快速涌现,而地理位置信息等是不断变化;第四是数据量大价值密度低,例如,在连续不间断监控视频中,其中有价值的数据可能只有一两秒,这些需要通过数据挖掘技术来发现;第五是数据的真实性,现实世界中的数据普遍存在模糊性、不一致性或含有噪声,比如当传感器受到外界干扰时,将导致所测的数据存在误差等。

正是大数据的这些特性给人们提供了前所未有的机遇,也就是说,如果我们能够有效地组织和使用大数据,将使人们有更多的机会来发挥科学技术对社会发展的巨大推动作用。从我们学校来说,学校正在推进数字化战略,协调校内各部门建设大数据中心以解决数据资源分散,行业部门各自为政,导致管理水平难以提升以及学校优势无法充分发挥等问题。大数据中心的建设可使得校内的大数据才能得以充分挖掘与利用,这将极大地提升校内各部门服务水平和教师的教学科研能力,同时促进学生健康成才,进而推动学校的全面发展。

但大数据时代的来临也带来了一系列挑战,包括网络安全和隐私等问题。例如在大数据环境下为了提升个性化服务能力,人们就会通过深度分析用户数据来了解用户的行为和喜好等,然而这也可能侵犯到人们的隐私。如何平衡个性化服务和隐私将是一个重要挑战问题,这不仅仅是技术问题,还与社会法律等密切相关。学校在推进智慧校园,提升服务水平同时,也必须充分重视师生的隐私问题。

云计算与智能技术四川省高校重点实验室在大数据研究方面正在积极开展工作,取得了一些重要进展,已在顶级国际期刊和国际会议发表,特别是提出了一个大数据解决方案——PICKT(德语,“”的意思),即“啄木鸟”方案。该方案是针对大数据的“5V”特性提出的,其中P(Parallel Computing,并行计算)是利用多机或多核并行技术来解决数据量巨大问题;I(Incremental Learning,增量学习)是利用先前已经得到的知识来提高数据处理效率,以应对不断变化的数据或快速发展的数据;C(Composite Rough Set Model,复合粗糙集模型)是用来处理多类型数据,达到数据有效融合目的;K(Knowledge Discovery,知识发现)是从大数据中挖掘出有价值的知识;T(Three-way Decision,三支决策)是针对大数据的真实性,即如果我们所面临的信息存在模糊、不一致等时,采用三支决策方法可做出合理决策。这个方案的提出之后,曾被应邀到国内外多所大学以及国际/国内会议做特邀报告,我们希望这些技术与方法在学校的大数据战略推进过程中也能发挥出积极的作用。

 

个人简介:

李天瑞,工学博士,教授,博士生导师,四川省云计算与智能技术高校重点实验室主任。研究方向为数据挖掘、云计算、大数据、粒计算与粗糙集等。先后在IEEE TKDE,IEEE TIFS,IEEE ASLP,IEEE TIE,IEEE TC,INS等国际期刊或国际会议上发表学术论文150余篇(被SCI检索60余篇,EI检索120余篇),申请/授权发明专利和软件著作权10余项;在科学出版社等出版编著3部,主编国际会议论文集12部和国际SCI期刊专辑7集。目前主持国家自然科学基金项目2项,曾应邀到多个国际会议做大会特邀报告和海内外多所大学等讲学。担任国际杂志IJCIS(SCI检索)地区主编以及KBS(SCI检索)等编委、多个国外博士生论文评审专家/答辩委员和国际会议程序/组织委员会主席。是IEEE CIS成都分会主席,IEEE、CCF和CAI高级会员,国际粗糙集学会筹划委员会委员,CCF YCOSEF成都分论坛13-14主席。曾获得国际/国内会议优秀论文奖,四川省第十五次哲学社会科学优秀成果二等奖,四川省优秀教学成果二等奖,校优秀党务工作者、优秀共产党员、陆氏优秀青年教师奖以及宏宇和陆氏奖学金等。