大数据是未来的“新石油”。《人类简史:从动物到上帝》的作者说:大数据将是人类自由意志的终结,数据主义将取代以往的宗教和人文主义,成为未来的信仰。

人人都在谈大数据,谈DT时代,但是,人们对于大数据,如同盲人摸象,每个人都有自己的看法,甚至有人认为不过是哗众取宠的buzzword,看起来很新颖,但只是把传统重新包装。大数据是什么?wikipedia上的有句话说得好:“大数据”概念本身强调的是处理大数据的能力和技术,大数据的应用价值不只是在于它“大”,而在于其细粒度信息的价值。任何新兴技术都必然经历从技术萌芽、过热、低谷、复苏、成熟、应用兴起,再到重生与再创新这一过程。大数据也是如此,经历了从平台——应用——平台的螺旋式发展过程,从早期运用分布式存储HDFS、分布式计算框架MapReduce等软件系统搭建大数据平台,到转移向应用,让数据变现,再随着各类应用和创新的涌现,进而对大数据平台又提出新的要求。大数据正处于第二次平台兴起的阶段,它将如何重生与再创新?今天让我们走进一家专业从事创新大数据核心技术引擎研发和服务的技术驱动型公司,一探大数据的未来趋势。中兴飞流是由中兴通讯股份有限公司投资控股的子公司,推出了国内首个基于数据流的Yita大数据计算引擎,实现了数据流思想在中国落地,也填补了国内在大数据核心技术上的自主知识产权的空白。

从运作机制来说,中兴通讯作为一家千亿营收规模的大公司,整体的机制、管理、制度、组织架构、流程、人员等,以核心业务的健康发展为导向。尤其是在通信行业,走的是大规模研发、生产、销售的大平台模式,但是随着中兴通讯向政企行业拓展,原有大平台模式需要改造,采用新机制适应市场的变革。

通信业自身也在快速变迁。三大运营商的传统业务逐渐走入瓶颈,数据业务大行其道,以云计算、大数据、产业互联网为代表的创新业务异军突起,成为光明的未来。近年来三大运营商均成立了大数据子公司,将大数据作为重要的业务创新点。中兴飞流凭借更加灵活的运作机制,将有机会面向电信大数据以及政企大数据市场。

从技术研发来说,大数据未来一段时间的发展趋势是“海量、实时、智能”,怎样将数据变成智能化的应用,这需要大量的技术投入。而中兴飞流的定位是一家技术驱动型公司,由集团公司提供整体规划、品牌、市场渠道等方面的支持,自身发力大数据处理平台和算法,在几个重点垂直应用领域应用。据介绍,基于Yita引擎的JDH大数据平台是不同于但融合于Hadoop的一个新型技术平台。

“集团部分大数据业务在Hadoop上深度耕耘,我们和集团是统一规划下的有机整体。而且从技术角度看,我们的Yita引擎兼容Hadoop体系,如果用户已经部署了Hadoop,也可以采用Yita引擎。”吕阿斌形容两者的关系,“如同通信网络的3G、4G共网,基础层并不是替换的关系。”

大数据产业发展日新月异,大数据的内涵也越来越宽广。吕阿斌表示,早期的数据量不大,数据格式较单一,数据被计算过程中相对规范,采用数据库能处理大多数事情。但随着移动互联网的兴起,数据形式越来越多,越来越多的非结构化数据导致数据量暴增。未来大数据的发展方向,是将算法和数据有效结合,此时一方面需要海量数据的实时处理,一方面是数据的智能化。

海量、实时处理很好理解,在金融投资、交通等领域有着强烈需求,例如当前中国正在大力发展智慧城市,智慧交通每日都能产生海量的结构化和非结构化数据,需要实时处理进行交通管控,这里的“实时”可能就是几秒钟。数据智能可以理解为数据的深层次挖掘,从简单的数据处理、分类、聚类,到根据场景的复杂计算,通过分类、聚类算法、深度学习、神经网络等算法,挖掘数据的潜在价值。

吕阿斌介绍,大数据有两种底层技术理念,一种是控制流,一种是数据流。当前的主流是控制流,但数据流技术早在上世纪70年代就面世了,中兴飞流技术顾问、数据流技术权威高光荣教授正是重要推进者之一。相比控制流,数据流的主要特征是细粒度的异步计算,不用等全局的同步,需要强大的协同、资源调度和控制机制,但数据处理更有效率。

中兴飞流CEO吕阿斌

郑龙也补充,现有的大数据平台比如Hadoop的、Spark等,存在计算效率过慢、对算法支持较弱等问题。Yita引擎针对大数据近年来向海量、实时、智能的演变而研发,支持流批混合处理、图计算、机器学习和交互计算,能大幅增强计算效率,其异步计算的特点,具备了机器学习的深度条件,并通过高维稀疏的算法库,更好地支撑视频分析、用户关联分析、推荐系统等业务。

中兴飞流CTO郑龙

1Yita计算引擎Yita计算引擎系统基于数据流基础理论思想,具备了海量实时、流批混合和数据智能三大能力特性。1)海量实时当今时代,数据并不昂贵,昂贵的是如何从海量数据中及时获取价值。传统的个性化推荐系统采用定期对数据分析的方式来更新模型,无法保持实时性,对用户当前的行为推荐结果可能不会非常精准。如何从数据中快速挖掘用户兴趣偏好并作出精准推荐?快或慢一秒钟,往往就意味着财富的得与失。公安系统实时视频分析追踪黑名单人员,银行实时监测防止信用卡盗刷欺诈等,都需要有能力处理实时的并发数据,以便实时地制定决策。单纯的离线分析已经无法满足各类高数据压力的实时应用需求,企业和组织将不会局限于处理分析历史数据,实时处理成为许多机构需要面对的首要挑战。实时事件、交易、交互数量每秒以百万计,由此产生的数据兼具海量与实时的特性,自然会给大数据处理系统造成巨大的压力,需要具备强大的并行计算能力,需要同时满足高吞吐、低时延的特点。Yita通过数据流细粒度调度和流水线并行处理方式,动态的按需分配计算资源,最大化计算资源的利用率,从而能够轻松应对TB级至PB海量高并发数据的实时处理,如电信运营商DPI数据实时分析场景。据中兴飞流测试结果显示,Yita计算引擎批处理的处理速度是传统组件的10倍以上,流处理的吞吐量是传统组件的12倍以上。2)流批混合传统大数据分析处理系统主要有两个方向:一种是以Hadoop和MapReduce为代表的批处理系统,另一种是流处理系统。简单的讲,批处理是先存储后处理,而流处理是直接处理。批处理的核心思想是将问题分而治之,不是把数据推给计算,而是把计算推给数据。流处理的基本理念是数据的价值会随着时间的流逝而不断减少。流处理的处理模式将数据视为流,源源不断的数据组成了数据流,当新的数据到来时就立刻处理并返回所需的结果。随着大数据的不断发展,单一的计算模式已难以满足需求,因此后来考虑了不同计算模式的混合使用。比如,Spark就是作为混合式计算模式的典型代表应运而生。但是,新的时代到来,实时业务处理的需求激增,大数据系统的流计算和批处理业务割裂处理成为限制业务发展的关键原因之一。当前的流批混合系统其实是一种割裂式的处理方式,这种割裂体现在往往先用批处理训练数据、再用流处理进行识别,实际上是一个静态分配优先级的系统。以目前市场上流行的SparkStreaming和Storm为例。SparkStreaming是当前热点,但其是将数据流分割成小的时间片断进行处理,实则也是批处理,计算时延仍然无法保障。而Storm虽然处理时延相对较低,可以达到毫秒级,但是却无法满足较多高吞吐量场景的需求。同时这种割裂式的流批混合处理会造成系统的架构复杂、编程接口不统一以及资源调度低效等缺点。中兴飞流以Yita计算引擎为核心的JDH大数据平台采用了基于Lambda架构的统一流批混合处理平台,实现了真正的流批混合,可以动态感知批处理或流处理的优先级,从而实现了资源高效调度,同时统一了编程接口,使得整体处理架构简单化。Lambda架构整合离线计算和实时计算,融合不可变性(Immunability),读写分离和复杂性隔离等一系列架构原则,是一个能满足实时大数据系统关键特性(如高容错、低延时和可扩展等)的架构。Lambda架构作为一个通用的大数据处理框架,可以很方便的集成Hadoop,Kafka,Storm,Spark,Hbase等各类大数据组件。基于Lambda架构的统一流批混合处理平台,可以动态感知批处理或流处理的优先级,使得资源高效调度成为可能,从而实现了真正的流批混合。同时统一了编程接口,使得整体处理架构简单化。3)数据智能年3月9日到15日,阿尔法围棋程序挑战世界围棋冠军李世石的围棋人机大战五番棋在韩国首尔举行,最终阿尔法围棋以4比1的总比分取得了胜利。AlphaGo的胜利是大数据+深度学习的胜利,AlphaGo背后使用的正是基于数据流思想的TensorFlow。Google今年开源了TensorFlow,这个基于DistBelief进行研发的第二代人工智能学习系统,可被用于语音识别或图像识别等多项机器深度学习领域,其命名来源于本身的运行原理。Tensor(张量)意味着N维数组,Flow(流)意味着基于数据流图的计算,TensorFlow为张量从图象的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。▲Google图说生成系统背后的TensorFlow数据流起源于上世纪七十年代,由IEEE冯诺依曼奖章获得者、美国科学院院士、MIT教授JackDennis提出,并由以ACM、IEEEFellow高光荣教授为代表的众多学者推进发展至今,是对冯诺依曼模型的一个突破,并在大规模并行领域有着独特优势的技术理论。在Google表明其深度学习框架TensorFlow基于数据流理论之后,学术界及工业界更是掀起了研究数据流的高潮。Yita计算引擎正是基于高光荣教授三十余年的理论工作,面向大数据场景开发的一套支持海量实时智能计算的大数据引擎。可以说,目前数据流思想在中国的落地正是Yita计算引擎。中兴飞流正是通过将机器学习能力、图计算能力和深度学习能力与自身大数据平台的有机结合来实现JDH大数据平台的智能化,以满足复杂度逐步提升、计算的复杂度不断变高、执行的模型也愈发多样化的各类应用场景。除此之外,中兴飞流大数据解决方案中集成了丰富的机器学习算法,包括协同过滤算法、多类逻辑回归和随机森林等分类算法、线性回归等回归算法、以及话题模型等聚类算法;还提供了具备卓越性能的快速用户画像、实时视频分析和海量日志分析等业务能力。基于这些业务能力,帮助客户开展精准营销、客户维挽、智能投顾、车牌识别等各类应用的研发和落地。2Yita的应用实例1)电信运营商实时信令分析电信运营商信令分析以客户为出发点,对网络端到端信令进行全面采集和分析,找到感知差的区域和客户,精确定位问题,快速分析并解决问题,形成闭环流程,提升网络客户感知。信令分析的功能主要分为5个方面:客户感知、网络优化、实时管理、客户投诉、市场营销。然而,随着实时性业务需求猛增、流量急剧的增加,运营商越来越重视对信令数据的实时处理分析,原始基于Hadoop大数据处理技术的信令分析平台,本质是批处理方式,因为它需要将实时信令数据采集需要积累到一定量或时间后再统一处理,已远远无法支撑运营商的实时信令分析需求。当前,市场上的大数据平台方案里也有流式处理系统SparkStreaming和Storm。SparkStreaming也是当前热点,但其原理是将数据流分成小的时间片断方式处理数据,实则也是批处理,计算时延仍然较大。而Storm虽然处理时延相对较低,可以达到毫秒级,但是却无法满足很多高吞吐量场景的需求。例如某电信运营商原本采用了基于Storm框架的大数据方案进行实施信令分析,但是很快发现在网络数据高峰时期,基于Storm的方案并不能够完全信令数据,数据丢失率在30%-70%之间,如下图所示,并且不给系统丢失反馈,无法满足甚至严重影响了业务处理需求。▲基于Storm的实时信令分析系统存在数据丢失采用Yita计算引擎替代Storm流式解决方案后,结果验证,Yita以更细粒度的形式并行计算,充分利用集群的整体计算能力,从而保障在数据高峰时期也能够数据不丢失,同时保障了整个大数据分析平台的实时性和准确性。2)智能视频分析在大数据时代,面对海量的视频数据,智能视频分析技术在数据挖掘方面被赋予厚望。视频分析指的是通过算法高效地处理海量非结构化的视频图像数据,实现对数据的快速检索、智能识别和理解。近年来,视频数据的价值愈发得到大家重视,目前视频大数据分析技术逐渐在政府、金融、商业等领域得到应用。然而,视频分析的最大技术难度之一在于其数据量更大,例如,一个城市每天产生的治安视频大概相当于亿张照片,一名警察全部看完大概需要余年,而即使通过当前基于Storm或Spark的主流大数据平台也需要处理较长一段时间。而且,视频分析涉及到很多复杂的算法模型,因此不论是高实时性要求还是算法复杂程度,都是对于当前的大数据平台的挑战。中兴飞流基于JDH大数据平台的实时视频分析系统则具有海量实时、数据智能的特性,适用于处理视频分析这类结果实时性和算法复杂都要求较高的业务分析领域,能够对海量视频数据进行实时计算分析,可用于人脸识别、车牌分析都各类热门应用领域。为助力某公实时监控和处理海量的车流信息,中兴飞流提供了基于实时视频分析能力系统的卡口数据处理系统。该数据处理系统架构图如下图所示:▲某公安卡口数据处理系统架构该案例中,基于实时视频分析的卡扣处理系统通过采用Kafka+Yita+HBase的架构,对海量车辆信息实时采集接收,并对套牌车、伴随车辆进行实时分析,分析结果存在HBase中。该大数据系统基于30台服务器集群规模,有效支撑了该公安每天处理万以上车辆轨迹信息,帮助公安实时地、智能地从海量的视频中快速定位价值线索,助力预防和打击犯罪,提升城市治安管理效率。历史发展到今天,正处于大数据时代的前夜,不管你接受与否、承认与否,大数据必将对全人类的生产生活方式来一次深刻的变革。中兴飞流凭借对下一代大数据发展趋势的前瞻性把握,率先推出了基于数据流的大数据整体解决方案,成为中国大数据行业的新星。更为难得的是,中兴飞流即将对Yita实施开源计划,并将在国内组织数据流大数据开源联盟,将数据流大数据贡献给开源联盟,这将极大地助力中国数据流技术的成型和完善,促进大数据产业的快速落地与完善,让中国在全球大数据领域拥有更多话语权。

温馨提示:



转载请注明地址:http://www.zhongxinge.com/zxjg/5039.html