当前位置: 首页 > 学术动态 > 正文

大数据的系统观

【来源:大数据的系统观 | 发布日期:2022-10-04 】

人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,百度全力支持,读芯术、paperweekly作为合作自媒体。承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。2020年5月30日,第15期“AI未来说·青年学术论坛”大数据线上专场论坛以“线上平台直播+微信社群图文直播”形式举行。复旦大学赵卫东带来报告《大数据的系统观》。

复旦大学赵卫东的报告视频

赵卫东,复旦大学计算机科学技术学院副教授,CDA三级认证数据科学家,腾讯云和百度云机器学习认证讲师。主要负责本科生和各类研究生机器学习、大数据核心技术和商务智能(商务数据分析)等课程的教学,2011年纽约大学访问学者。商务智能被评为上海市精品课程以及CMOOC联盟线上线下混合式教学改革项目,获得2013年高等教育上海市教学成果奖二等奖。目前主要研究方向包括电子推荐、智能决策和大数据分析等。主持国家自然科学基金2项以及中国博士后科研基金、上海市浦江人才、IBM Shared University Research以及企业合作课题等30多项目。已在Knowledge and Information Systems , Information Processing & Management,Information Systems Frontiers等国内外期刊发表论文100多篇。出版《智能化的流程管理》《数据挖掘实用案例分析》《机器学习》《机器学习案例实战》《Python机器学习实战案例》等10多部专著。获得上海市2015年上海市科技进步二等奖。

报告内容:大数据的价值发挥在实际中需要融合很多源头的动态数据,但由于隐私、政策、制度和技术的局限,使现存的大数据只能作为小数据使用,降低了大数据在决策中的作用。结合新冠肺炎的应急预测预警等应用场景,讨论如何利用系统观认识大数据的使用。

大数据的系统观

赵卫东老师开讲即提到了大数据分析存在的问题,虽然大数据在医疗、交通等领域已经取得了非凡的成就,但仍具有很多问题。老师本次分享主要对大数据常见的思维以及在实际运用中的问题作简单的探讨。

赵卫东老师首先强调的系统观的概念是分形,分形即事物的整体和局部具有一定的相似性。当从整体上获得一个大数据有困难的时候,就可以利用分形来洞察大数据的性质。学过大数据的同学应该都知道Hadoop架构和内存计算Map—Reduce架构,其中蕴藏了很强的系统观,即分而治之的思想——既然大数据作为一个整体用现有的技术手段很难获取,就可以把它分解成很多小数据,将大数据问题自然转换成小数据的问题,相当于系统观分形的思想。因此,怎么从整体把大数据分解成局部的小数据,怎么把问题化大为小,这是大家需要重视的第一点。

接着赵卫东老师从系统观的角度出发,讲解处理复杂度的方法。在大数据的项目里面,套牌检测、交通疏导、医疗诊断等都是非常复杂的问题。面对复杂问题的时候,尽量要把这个复杂问题化成简单的问题。

例如上图是大数据套牌的检测,如何在很短时间内甚至实时把几十亿甚至上百亿的记录的规律找出来呢?一般人可能会认为这需要非常复杂的算法,它的背后可能用到深度学习或者复杂的统计学模型,实际上,复杂表象的背后很可能有一个简单的规律。上图左边是一个案例,当判断一个车是不是套牌的时候,只需要用关系数据库非常简单的操作,即一个简单的SQL语句就可以完成这个工作。虽然后台执行时,面对大数据还是要使用刚才的分布架构,但是它的处理逻辑是非常简单的。右下角的案例是智能制造企业做质量管理的时候用到的,生产电缆横坐标表示第一个工序里杆材的强度,纵坐标是线径规格,杆材经过一定拉伸变成一根线,也就是电缆的电线由很粗的线变成细的线,可以用强度来预测下一个环节线径是否达到国家标准,从这个图里可以看出其背后有非常复杂的逻辑。现实中建模时会发现在一定自信区间内,用两个线性方程进行线性回归就可以做出来。再使用一定的自信度,比如95%的自信度,一个自信区间以中间这条线为对称轴,还需要两条对称的直线。上面蓝底这两条直线就是这样的直线,L是中间直线,用简单线性回归做了三次,就可以近似上面非常复杂的模型,这就是大数据分析思维的一种方法,如果大家将来做机器学习,免不了会用大数据,有的问题看起来很复杂,从系统观出发用真正规律近似得到简单模型就会容易很多。

第三个方面,赵卫东老师讲到了系统集成观。从系统观点来看大数据,大数据是非常复杂的,相机器学习做图像处理、语音分析等。实际上国内大数据不仅是数据量大,而且分布非常广,包括关键数据的多模态性、视频、声音、文字、图像等等。举一个与疫情相关的例子,国家很多地方都有自贸区,自贸区的管理方式和境外是不一样的,当自贸区面对走私、安检、环保的问题时,会用到很多部门综合数据,包括公安、检疫、海关、工商、环保等等,这些数据需要集成起来,这就是系统集成观。要解决这种问题,单一源头数据远远达不到。不管是交通的、农业或是政府的一些大数据的问题,都需要很多源头的数据。系统工程里的集成观指的是解决一个问题相当于要合成一个新的化合物,少一样都不行。例如税务局偷税漏税的检测仅仅有税务局数据还不够,还要有网商数据,企业经营各个领域的数据都是需要的。要判断一个人是不是健康的,不仅要有智能医疗,也可能需要一个人的饮食数据、运动数据等,还需要一个人过去的就诊数据包括体检数据,数据只有融合起来才能达到系统解决一个问题的基本条件。以最近新型冠状肺炎为例,前段时间国家控制的比较好,那么国家是怎么预测传播路径,怎么从过去一个时间点看未来呢?这里实际上就用到大数据的平台获取一个地区人群的分布、人群衣食住行的数据。比如一些重点人群的数据,需要通过铁路、公路、航空、饮食、医院、公交、地铁等系统来获得,当然还有其他领域的数据,通过集成这些数据从而获得真正的大数据。然而实际情况中,真实收集到数据往往是变“小”了,为什么会变“小”呢?因为从系统观点拿到的都是支离破碎的数据,比如说拿到的可能是某一个区域或者某一个渠道、某少数渠道的数据,这就需要做一个大的平台将这些数据融合起来。

这样一个平台至少是区域型的大平台,这个平台可以把各方面的数据融合起来,并做一个模型,包括人群流动、传播、感染的网络等,实际上并不需要一个复杂的模型就可以对未来做一个预测。但这里需要克服大数据可能变“小”的问题,像前面提到的问题,自贸区的数据怎么防止走私?天津的爆炸案怎么实现信息共享?这都还是比较难的问题,不管是政府也好还是企业也好,有各种各样的原因需要大家保护数据,将其封闭起来,使得大数据看起来很容易拿到,实际上拿不到,或者仅仅拿到很小的一块,所以从这个角度而言大数据变“小”了。大数据变“小”了可以想办法补充,想办法从集成观点收集全一些。

接着赵卫东老师从集成观的另外一层含义进行了介绍。现在人工智能发展得很快,在目标检测、机器写作翻译、机器人等领域都取得了很大的成就。大数据给人工智能提供了非常有力的支撑,大量图像、视频、文本数据可以帮助训练做一些机器翻译、人脸检测的模型。目前做得比较成功,在某些领域人工智能甚至超过了人的智能。但是从系统的观点,所谓的大数据是不是达到了人的水平呢?或者大数据支撑的人工智能是不是可以代替人呢?目前还远远不够,这不是算法的问题,也不是数据量不足的问题,也不是算力没有达到支撑大数据处理的问题,而是由于目前人们对大数据的认识并不是很充分。比如说人善于处理小样本,相比机器不需要那么多的样本,实际上人类通过几个案例甚至几十个案例就可以达到很高的水平。而机器不行,现在的人工智能主要是大数据驱动,没有足够的样本,无论你是做图像识别还是机器翻译还是做其他有关机器人听、说、读、看甚至是闻(机器还可以闻到味道),这些能力主要靠大数据,如果缺少了大数据,机器的处理功能还不如传统机器学习的算法。

现在大数据处理能力远远达不到支撑机器到比较强智能的水平,还不能说机器智能或人工智能可以代替人了,它在医疗、交通等方面仅仅起到一个辅助的作用。从另一层集成观点来讲,还包括人脑和电脑的集成。最近在《Science》杂志上有一些科研成果报道关于如何在人的头上戴上一些能阅读脑电波的传感器,使得这个人想什么、想说什么都能够被理解。这里主要是脑机的融合,这也是现代脑科学发展的一个方向,既然目前大数据和人工智能水平达不到代替人的水平,还有很多工作必须人来做,尤其是创新的工作。但我们不能否认大数据和人工智能的功劳,而是应该从系统的观点考虑如何把人脑和电脑做一个集成,也就是实现人机的共生。实现人的思维和机器思维相互协同是一个挑战,这也是现在国家包括世界前沿的课题。怎么将人的思维赋予给机器,让机器模仿人,同样拥有思维力、有情感是很难的,当前主要利用手段是人机融合,人做创造的工作,机器可以利用人做出来的数据去做一些事情。因此如何利用深度学习,如何去做人机融合,从而提升整个系统的能力,这才是大数据当前要充分利用的点。

最后,赵卫东老师进行了归纳。如何从系统角度来认识当前大数据的风貌,包括大数据驱动的人工智能呢?首先要认识到大数据远远没有达到人的智能水平,尽管少数领域超过人,但是它与人的创新和情感差得远,这要求研究首先要把有限数据充分利用起来,可以用简单有效模型发挥大数据的价值。同时因为数据获取困难,数据集成是有一定难度的,在大数据拿不到的情况下要利用分形力量发挥小数据的价值。另外未来想充分发挥大数据价值还要和人脑功能创造力充分结合起来,这样大数据、人工智能才会有更大的价值。面向复杂的问题的时候,可以用简单的模型描述背后的机理。