论数据挖掘方法及应用
随着信息技术和数据库技术的普遍应用,人类获取数据的能力不断增强,数据库的数量和规模在迅速增加。数据挖掘又称数据库中的知识发现(Knowledge Discover in Database, KDD), 是识别数据库中以前不知道的、新颖的、潜在有用的和最终可被理解的模式的非平凡过程。数据挖掘是数据库知识发现过程的一个步骤,其目标就是要智能化和自动化地把数据转换为有用的信息和知识。
请围绕“数据挖据方法及应用”论题,依次从以下三个方面进行论述。
1.概要叙述你参与分析和开发的软件系统以及你所担任的主要任务和开展的主要工作。
2.详细阐述三种常用的数据挖掘方法。
3.详细说明你所参与分析和开发的软件系统是如何基于常用的数据挖掘方法进行数据挖掘的。
数据挖掘的方法包括:关联分析、序列分析、分类分析、聚类分析、预测和时间序列分析。
(1)关联分析。关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是事件发生的概率和条件概率应该符合一定的统计意义。在进行关联分析的同时,还需要计算两个参数,分别是最小置信度(可信度)和最小支持度,前者表示规则需满足的最低可靠度,用以过滤掉可能性过小的规则;后者则用来表示规则在统计意义上需满足的最小程度。
(2)序列分析。序列分析主要用于发现一定时间间隔内接连发生的事件,这些事件构成一个序列,发现的序列应该具有普遍意义,其依据除了统计上的概率之外,还要加上时间的约束。在进行序列分析时,也应计算置信度和支持度。
(3)分类分析。分类分析通过分析具有类别的样本特点,得到决定样本属于各种类别的规则或方法。利用这些规则和方法对未知类别的样本分类时应该具有一定的准确度。其主要方法有基于统计学的贝叶斯方法、神经网络方法、决策树方法等。分类分析时首先为每个记录赋予一个标记(一组具有不同特征的类别),即按标记分类记录,然后检查这些标定的记录,描述出这些记录的特征。这些描述可能是显式的,例如,一组规则定义;也可能是隐式的,例如,一个数学模型或公式。
(4)聚类分析。聚类分析是根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,并且对每个这样的组进行描述的过程。其主要依据是聚集到同一个组中的样本应该彼此相似,而属于不同组的样本应该足够不相似。聚类分析法是分类分析法的逆过程,它的输入集是一组未标定的记录,即输入的记录没有作任何处理,目的是根据一定的规则,合理地划分记录集合,并用显式或隐式的方法描述不同的类别。
(5)预测方法。预测方法与分类分析相似,但预测是根据样本的已知特征估算某个连续类型的变量的取值的过程,而分类则只是用于判别样本所属的离散类别而已。预测方法常用的技术是回归分析。
(6)时间序列分析。时间序列分析是随时间而变化的事件序列,目的是预测未来发展趋势,或者寻找相似发展模式,或者发现周期性的发展规律。
在实际应用中,以上分析方法有着不同的适用范围,经常被综合运用。
( )is the process of transforming information so it is unintelligible to anyone but the intended recipient.
As each application module is completed,it undergoes( )to ensure that it operates correctly and reliably.
( )algorithm specifies the way to arrange data in a particular order.
After analyzing the source code,( )generates machine instructions that will carry out the meaning of the program at a later time.
( )can help organizations to better understand the information contained within the data and will also help identify the data that is most important to the business and future business decisions.
浏览器开启无痕浏览模式后,( )依然会被保存下来。
下列协议中,不属于TCP/IP协议簇的是( )。
下列传输介质中,带宽最宽、抗干扰能力最强的是( )。
数控编程常需要用参数来描述需要加工的零件的图形。在平面坐标系内,确定一个点需要2个独立的参数,确定一个正方形需要( )个独立的参数。
某书的页码为1,2,3,...,共用数字900个(一个多位数页码包含多个数字),据此可以推断,该书最大的页码为( )。