【数字化战略】吴晓:多媒体大数据的发展与思考

08.10.2014  12:44

 

随着计算机存储和压缩技术的发展、大容量存储设备和智能手机的广泛使用以及多媒体应用与社交网络的流行,互联网上的各种多媒体数据(文本、图像以及视频等)呈现指数级的爆炸式增长。据统计,在互联网上,每分钟维基百科有438,801个页面被浏览,1000万条消息在微信上发送,应用商店有20万 次App下载,亚马逊上有13万美元的订单总额在交易,4万张图片上传到Instgram上,1千万条广告在播放,Twitter上有35万条内容发布,300万条内容在Facebook被分享的同时有700万条内容在发布,400万次搜索在Google完成。每分钟在YouTube上上传的视频总长达100小时的同时15万小时的视频在被观看,2万小时的视频在Netfilx上被观看,两者流量合起来占了整个互联网的一半。每分钟全球有150万GB数据在传输,而接近90%的数据是多媒体数据。据阿里巴巴公布的数据,2013年天猫“双十一”购物节第一分钟交易额就超过了1亿元,当天总共达成交易1.7亿笔,交易总额高达350.19亿元,比2012年的191亿元增长86%,而即使在平日里阿里巴巴也有日均4亿元的交易额。据We are social 2014年的数字报告,QQ空间是中国最大的社交网络,拥有6.25亿月活跃用户,多于Facebook在全球的月活跃用户,而新浪微博拥有1.3亿月活跃用户,每天也有超过一亿条的内容发布。这些数据表明了多媒体大数据时代的到来,大规模数据给传统的多媒体研究,尤其是基于文本、图像和视频的应用和研究带来了新的挑战和机遇。如何有效地组织、利用相关数据来驱动和满足用户对于多媒体的个性化需求正成为计算机视觉和多媒体领域的一个研究热点,也是大数据时代亟需攻关和解决的一个难题。

1、多媒体搜索与大数据

对互联网上海量的多媒体数据,我们首先需要面对的问题就是如何对这些非结构化的数据进行有效地组织和管理。随着信息检索技术的发展以及商用搜索引擎的成功,对数据库建立索引并通过检索技术进行匹配查询己经成为人们管理数据和获取信息的通用方式。实际上,相对于己较为成熟的文本检索而言,图像和视频的大规模检索尚处于摸索阶段。虽然图像检索技术己经取得了发展,但是现有图像/视频检索系统的性能与实际期望仍有很大的差距。最先出现的是基于文本的图像检索,沿用了传统的文本检索技术,利用人工标注来回避对图像视觉元素的分析,通过文本内容的查找和匹配来建立相关图像之间的联系。然而,随着图像数据库规模不断增大,这种基于文本的图像检索方式的局限性也表现出来。因此,基于内容的图像检索的“以图搜图”系统出现,与基于文本的图像检索方式不同,前者直接以图像的视觉特征为线索从图像数据库中找出具有相似特性的其它图像。不幸的是,由于光照、尺度、背景等的影响,很多视觉上相似的物体并不是同一类,以视觉特征为线索的图像检索系统虽然跨越了意图鸿沟,又陷入了语义陷阱。为了突破语义陷阱,图像检索领域的另一个重要方向就是研究如何为图像自动地添加语义标注,然后基于这些标注信息和图像的视觉特征实现图像检索。

随着社交网络和图片分享网站的活跃,大数据为自动图像标注提供了新的思路,通过数据驱动的方式利用互联网中丰富的媒体信息来建立图像和语义之间的联系为解决图像的自动标注问题展示了惊人的潜力。相比于传统基于机器学习的标注方法,这种数据驱动的标注方式将互联网看作一个超大规模的弱标注图像库,每一个图像上传用户作为标注者,图像的名称、URL以及图像周围的文本描述被当作弱标注信息,从而能够有效地避免训练样本有限和标注词典有限的问题。基于“视觉上足够相似,语义上就很可能相关”的观察,典型的利用数据驱动的图像标注方法通常包含图像检索和标签挖掘两个重要的步骤。图像检索:给定一张待标注图片,利用基于内容的图像检索技术快速地从图像库中搜索出一组与查询图片内容相关的数据库图像;标签挖掘:给定查询图像的检索结果,快速有效地从检索结果的文本描述中挖掘出与查询图像语义相关的单词或短语用以图像标注。为了包含更多的语义概念,同时尽可能地保证检索结果与查询图像的语义相关性,我们需要提高图像数据库的规模,而大数据为此提供了数据基础。

2、大数据改变机器学习

大数据是现代社会在掌握海量数据收集、存储和处理技术基础上所产生的一种以群体智慧进行判断和预测的能力。通过上述图像检索的例子,我们可以得出这样一个观点——大数据改变机器学习。传统的机器,通过特征选择和提取,采用相对较少的已标注数据进行训练得到数学模型,而大数据时代的机器学习在大数据中融合多维度的数据发现模式。数据越多,就越能够保证数据的覆盖度和精度,这是因为对所有或大部分事件,我们有样本来覆盖;对高频事件,我们有足够多样本来提升精度。当数据多到能对几乎整个样本空间进行充分覆盖,对理论和模型的依赖就减弱了,所以数据越多,也就越不需要模型。因此,大数据方法是从量变到质变,从“数据”到“数据”、“特殊”到“特殊”的经验主义复活,数据驱动的方式更注重在数据中发现相关关系而非因果关系,而互联网和物联网的大量技术使得数据的收集和分享变得非常容易,为“数据”到“数据”的第四范式实现提供了可能。

Google在2012年有一项名为“Google Brain”的项目曾引起社会各界的广泛关注:他们使用了1000台电脑的16,000颗处理器核组建了一个机器学习神经网络,花了三天时间用来自YouTube中截取的1000万幅图像来训练该多层神经网络,从而使得该网络可以自主学习并形成了“”这个概念,最终成功地识别出猫的图像。值得一提的是,训练输入的是原始数据而非特征向量。但是在大数据时代模型真的没有一点用了吗?答案是否定的。因为数据总是不够的,一方面,样本空间太大,很难收集到几乎完全覆盖样本空间的数据,例如机器翻译中所有可能的句子;另一方面,样本空间总是在变化的,查询结果排序中,新的查询和新的网页在不停出现。因此,需要模型和数据结合,提供适当的泛化能力,得到更好的效果。

3、多媒体大数据

在人类全部数字化数据中,仅有非常小的一部分(约占总数据量的 1%)数值型数据得到了深入分析和挖掘(如回归、分类、聚类),大型互联网企业对网页索引、社交数据等半结构化数据进行了浅层分析(如排序),然而占总量近 60%的语音、图片、视频等非结构化的多媒体数据还难以进行有效的分析。实际上,多媒体数据的数据不仅规模远远超过文本数据,其商业价值也毫不逊色,以全球流量最大的视频网站YouTube为例,它在2007年一年所消耗的网络带宽就等同于整个互联网在2000年的全部流量。另一方面,多媒体数据的来源也是非常丰富的,仅智能手机就能够通过手机摄像头和麦克风产生丰富的图像、视频和语音数据。除此之外,各种监控摄像设备、医疗图像设备、物联网传感设备、卫星图像等都能够产生大量的图像和视频数据。

实际上我们的生活和行为在大数据的影响下已逐渐有所改变。其一,数据产生方式发生了非常大的变革,以前数据的生产是由专业团体,专业人士或者专业公司完成的,而现在数据生成更多的是个体行为,是个人。每个人可以使用他的采集的终端,不管是拍的照片,录的语音、视频,或者通过手机或者通过电脑产生大量多媒体数据。其二,数据传播途径也发生了变革,以前获取新闻信息的主要来源是报纸、广播、电视等媒体,而现在大部分信息传播通过互联网,门户网站、新浪微博等成为了信息和舆论传播的主要媒介。其三,社交环境网络化,社交网站的兴起使得社交圈不再局限于线下,使得用户分享更加活跃。其四,数据存储习惯发生改变,以前人们在数据存储、备份时通常将数据存储到自己的硬盘上,但随着云计算的发展和各公司应用的推广,人们逐渐习惯与将数据存储到更安全的“”上。在大数据使得我们的行为方式发生改变的同时,我们的行为又使得更多的数据产生。

多媒体大数据,特别是和图像视频有关的大数据,存储、传输、处理和应用是比较大挑战,其中有两个是最急需解决的问题,一是有效存储,二是数据分析和处理。怎么样有效保存数据是很大难题,因为数据源源不断产生,源源不断往系统里存,但是存储设备容量有限、预算有限,不停地增加存储设备是不现实。为了解决存不下的问题,许多机构选择存储一段时间的数据,或者把有用数据取出来存到在其他系统里。只存一段时间的数据,必然造成信息的丢失,不能充分利用大数据,而只保留有用信息的方法同样存在信息丢失的可能,因为谁也不能保证现在暂时无用的数据是否在未来也是无用的。如果我们有高效的存储技术或者把原来图像和视频进行有效编码压缩,就可以节省存储空间、成本,例如原来能存3个月的数据,数据压缩效率提高到能够存6个月,就能减少一半的系统开销。同时,压缩编码也能够减小数据传输时对带宽的要求。怎么样分析和处理多媒体大数据是另一个难题,很多研究致力于多媒体数据的分析和处理,但大规模的多媒体智能处理应用还比较少,分析和处理还停留在浅层,技术有待改进。

多媒体大数据分析和处理技术的发展需要在两个方面取得突破,一是对体量庞大的结构化和半结构化数据进行高效率的深度分析,挖掘隐性知识,如从自然语言构成的文本网页中理解和识别语义、情感、意图等;二是对非结构化数据进行分析,将海量复杂多源的语音、图像和视频数 据转化为机器可识别的、具有明确语义的信息,进而从中提取有用的知识。通过建立人工智能系统,使用大量样本数据进行训练,让机器代替人工获得从数据中提取知识的能力是大数据分析的方法。2006 年谷歌等公司的科学家根据人脑认知过程的分层特性,提出增加人工神经网络层数和神经元节点数量,加大机器学习的规模,构建深度神经网络,可提高训练效果,并在后续试验中得到证实。目前,基于深度神经网络的机器学习技术已经在语音识别和图像识别方面取得了很好的效果。但未来深度学习要在大数据分析上广泛应用,还有大量理论和工程问题需要解决,主要包括模型的迁移适应能力,以及超大规模神经网络的工程实现等。

实际上,除了互联网行业的语音搜索、图像搜索、计算机广告、个性化推荐等应用外,多媒体大数据在其他很多行业都会有用武之地:在电视行业,随着有线运营商视频点播和回看业务的成熟和用户量的增长,我们能否应用同样的互联网广告投放方法,让有线运营商增加广告收入,让广告主的广告做到精准投放,同时也能够增强观众的收视体验。

在新闻行业,多媒体大数据可用于辅助新闻媒体报道,将新闻报道转化为生动的故事和洞见,并且借助于新媒体使新闻报道呈现出“可视性、纵深性、交互性”的特点,满足受众对电视新闻报道“更精确、更深入、更直观”的要求。例如央视2014年的“据说两会”创造了一个可视化Logo“数据哥”,是基于大数据而生成的两会“热词”人形图像,而97%的网民认为“数据哥”的形象准确表达了民众对“两会”的真正诉求。

在零售行业,基于图像的大数据分析也将打开一片新的市场。例如在一个大型的购物中心,我们可以对人流的视频数据进行分析,对消费者的购物习惯、逛街顺序等信息进行充分挖掘,从而有针对性地设计相应的促销方案、货架摆放规律等等。

在安防行业,基于对视频数据的实时分析,我们可以监控潜在的安全隐患(例如检测出消防通道被占用,需要及时清理),可以对人群行为进行分析,检测异常社会事件,提升安全措施的响应时间,辅助刑事案件侦破。在交通行业,可利用高速公路现有的视频监控对实时视频数据分析,监控各路段高速公路是否存在恶劣天气、是否拥堵等,以便及时告知驾驶员注意前方路况或采取迂回路由,降低交通事故的发生。

在医疗行业,医学图像的自动化检测,能够辅助医生进行疾病诊断,使更多的病人尽快得到治疗。在养殖行业,可以对养殖动物的监考视频作分析,检测动物群体行为是否异常,以便积极采取措施预防动物瘟疫,降低瘟疫带来经济损失。

用“方兴未艾”这个词来形容大数据产业的发展阶段都还为时过早,目前的大数据产业只能说是“小荷才露尖尖角”。就整体而言,全球的大数据应用处于发展初期,中国大数据应用才刚刚起步。目前,大数据应用在各行各业的发展呈现“阶梯式”格局:互联网行业是大数据应用的领跑者,金融、零售、电信、公共管理、医疗卫生等领域积极尝试大数据。可以预见,基于多媒体数据的大数据分析将对互联网、零售、安防、交通、医疗等在内的众多领域发挥重要的作用,而存储、传输、处理和应用是多媒体大数据需要解决的问题。

 

个人简介:

吴晓,西南交通大学计算机科学与技术系系主任、党支部书记,博士,副教授,博导,四川省杰出青年基金获得者,四川省学术和技术带头人后备人选。于2008年在香港城市大学计算机科学系获得博士学位,全美计算机排名并列第一的卡耐基梅隆大学访问学者。研究兴趣包括:多媒体信息检索、图像/视频处理、搜索引擎、数据挖掘等。在一流国际期刊,如:IEEE Trans. on Multimedia, IEEE Signal Processing Magazine,和顶级国际会议,如:ACM Multimedia上发表多篇高水准的研究论文,其中SCI检索15篇,EI检索30余篇。主持国家自然科学基金面上项目两项,主持省部级项目六项,包括四川省杰出青年基金、教育部博士点基金、山西省交通运输厅、河南省交通运输厅等多项科研项目,以及多项横向项目。是Mobimedia 2015大会共主席,ACM ICIMCS'11国际会议的程序委员会主席,以及ACM/Springer Multimedia Systems Journal的客座主编。担任包括IEEE TMM,IEEE TCSVT,IEEE TIP,IEEE TKDE,Proceedings of IEEE,IEEE TIFS,Information Sciences等20多个国际知名期刊审稿人,担任ACM MM,ICME,PCM,MMM等众多著名国际会议程序委员会委员。