top of page
作家相片Ning Yu

信号、信息和知识【13】 大数据和数据挖掘技术

已更新:2021年5月15日

  (5.4)大数据和数据挖掘技术:

  随着移动通信、多媒体信息、5G通信、物联网、视频监视系统、自媒体等新信息技术的应用,网络信息海洋上的数据量以惊人的速度增长。这些以数据形式存在于互联网上的信息是人类面对物质、能量资源之后的又一种社会发展资源。人类对于物质和能量资源的应用已经有很长的历史了,但是对于如何利用信息资源来为人类社会发展服务的技术可以说刚刚处于起步阶段。知识信息对于提高社会生产力的重要性人类早就认识到了,但是以前的知识都来自大脑的智力活动。随着信息技术的发展,直接通过信息数据利用机器来产生能够促进社会发展的知识生产力,与人类利用机器来使用物质和能量发展社会生产力一样也成为可能。数据资源在社会发展中的价值越来越重要。

  这种被称为“大数据”的信息资源具有数据规模巨大,数据快速流动变换,数据类型多样,信息提取的价值密度低等特点。大数据已经大大超出了传统数据库系统的数据处理能力,必须发展新的数据处理技术来利用大数据资源。目前已经出现了如:大规模并行处理分布式数据库系统,云计算平台,人工智能机器学习,数据挖掘等技术。但是这些技术多数还处于研究阶段,比较能够实际应用的大概只有数据挖掘技术。

  利用大数据资源来训练机器,让机器通过学习得到能够完成某些功能的算法和程序(机器学习)的研究也取得了比较好的进展。著名的例子是经过训练的Alphago计算机系统可以获得很高的下棋的能力,甚至能够战胜世界级的围棋冠军。所以大数据资源将是通过机器学习改进人工系统性能的数据“营养”,将会成为物质、能量资源以后的第三大社会资源。如何开发利用大数据资源正在研究开发中,对大数据的利用也成为信息社会的一项标志性的技术。

  有专家指出:“大数据、移动互联网、社交网络、云计算、物联网等新一代信息技术构成的IT架构“第三平台”(第一平台是指集中式的大型主机,第二平台是指服务器 / 客户端应用模式的互联网平台,第三平台是指移动互联网、云计算、社交网络、大数据、物联网等构成的新一代 IT 架构。)是信息社会进入新阶段的标志,对整个经济的转型有引领和带动作用。媒体上经常出现的互联网+、创客、“第二次机器革命”、“工业4.0”等都与大数据和云计算有关。大数据和云计算是新常态下提高生产率的新杠杆,所谓创新驱动发展就是主要依靠信息技术促进生产率的提高。”——《对大数据的再认识》李国杰。所以大数据不仅仅是可以产生社会效益的信息资源,随之而带来的技术进步将会与第一次,第二次工业革命一样对人类社会发展带来革命性的变化。

  目前人工系统从信息数据中发现知识的比较成功的是数据挖掘技术。数据挖掘技术是利用计算机的高速处理能力在大型数据库的存储数据中自动地发现有用知识信息的过程。传统数据库技术是人工信息处理中发展比较成熟的技术,数据库中的数据一般已经经过筛选整理,按照一定的规则进行存储,由计算机数据库管理软件进行管理。所以科学家首先希望从这些初步整理的数据库数据中,利用机器处理方法找出一些规律性的高级信息,帮助人们提高信息使用效率。甚至进一步能够获得一些“知识性的高级信息”。

  对一个企业来说,数据挖掘可以按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步以模型化的知识描述为企业业务开展提供帮助。比如通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为。进而可以帮助企业进行产品生命周期策略分析,市场细分,合理的产品策略和定价策略,产品营销策略,优化促销活动等。以企业收集的直接生产数据为基础,经过数据挖掘处理可以得到一些高级信息,为企业的生产活动提供帮助。

  

  目前数据挖掘技术比较成功的应用主要是针对企业内部数据库中积累的历史数据。比如自动控制系统的历史运行数据;各种自动化生产线的运行历史数据;企业管理系统数据库中的历史数据;……等等。这些数据具有数据规格一致性好,可信度高,有比较好的数据的理解等特点,比较容易有针对性地开展数据挖掘工作。比较成功的例子有:高端制造业的产品质量控制;芯片制造的合格率控制;自动控制系统的故障率控制;装备零部件寿命分析;……等。

  早期的数据挖掘技术主要是通过统计、分类、模式识别等计算方法经过编程在机器上实行数据处理得到进一步的系统知识。由于某一种程序所处理的数据类型是有针对性的,所以机器的数据挖掘能力也受到算法程序的限制,对于不同类型的数据需要设计不同的算法程序。随着机器学习技术的发展,人们可以通过大量数据对机器进行训练而使机器自动产生相应的计算处理能力,从而机器的数据挖掘可以自动适应不同的处理要求。所以大数据资源加上机器学习能力,使得数据挖掘技术快速发展。

  

  而对于互联网中存在的大数据(多种形式的信号数据,包括文字,声音,图像等采集数据)进行挖掘需要发展更加完善的技术。现在数据挖掘技术与人工智能,大数据收集,机器学习等多种类型的信息处理技术的结合,已经在这个方面取得了一些的成果。比如智慧城市的交通管理系统;人脸识别的城市安全管理系统;网络运营的商品分析管理系统……等。

  那么数据挖掘获得的高级信息能不能算知识,它和人类头脑中对信息的处理,产生的知识是不是一样。从目前大数据的数据挖掘应用来看,通过数据挖掘得到的仅仅是针对某个具体系统,或者具体领域的深化的信息知识,一般不能够得到比较广义的知识。所以它与头脑经过思考得到的知识在普遍性,深度等方面还有很大差距。但是人工信息系统处理信息的数量和速度方面是大大超过人类大脑,但是它们处理信息,产生知识的技术路径可以说是完全不相同的。所以进一步通过对人类学习能力的研究,机器也可以通过学习来进一步提高机器信息处理能力。目前机器数据处理产生的知识还是一种辅助功能,而进一步的能够产生技术知识的工作还需要人类智力来完成。

  #《数据挖掘导论》?Pang-Ning Tan、Michael Steinbach、Vipin Kumar著,范明 范宏建译 人民邮电出版社

  #《大话数据挖掘》西安美林电子有限责任公司编著 清华大学出版社 2012年

  

  



5 次查看0 則留言

最新文章

查看全部

相信科学而不科学迷信

科学思想可以说是人类文明出现以来最伟大的思想成就之一,特别是对于工业化以后的文明社会发展有着极其巨大的推动作用。但是西方文艺复兴以后才出现的科学思想仅仅有几百年时间,而传播到东方被中国人接受可能仅仅一百多年时间。科学思想是在与宗教迷信思想的斗争中发展起来的,而一些并没有真正...

信号、信息和知识【20】 知识转换成生产力

8、知识如何才能转换成力量,变成生产力 现代社会人类通过发展科学知识来认识世界,然后在此基础上发展技术知识来提高生产力,发展人类社会。技术的实现主要以科学知识为基础,技术的应用也必须经过科学知识的学习,建立了科学的思维方法和实际应用能力才可能实现。古代简单技术的实现需要个人...

信号、信息和知识【19】 机器学习

(7.4)关于机器学习: 通过学习人类可以提高完成任务的能力,所以科学家也希望通过模拟学习来提高机器的完成任务的能力。人类的大脑具有基本相同的结构和工作机理,通过不同的学习训练过程而使得不同的人;甚至同一个人能够具有完成不同任务的技能。而类似的是人类的天才发明计算机也是以一...

Comments


bottom of page