先决条件: 数据挖掘
我们通常在讨论数据挖掘时,讨论数据发现。为了了解数据,有必要讨论数据对象、数据属性和数据属性的类型。挖掘数据包括了解数据、发现数据之间的关系。为此,我们需要讨论数据对象和属性。
数据对象是数据库的重要组成部分。数据对象表示实体。数据对象就像一个实体的一组属性。例如,销售数据对象可能代表客户、销售或购买。当数据对象列在数据库中时,它们被称为数据元组。
属性: 它可以被视为一个数据字段,代表数据对象的特征。对于客户,对象属性可以是客户Id、地址等 用于描述给定对象的一组属性称为属性向量或特征向量。
属性类型:
这是获取数据的第一步 数据预处理 .我们区分不同类型的属性,然后对数据进行预处理。下面是属性类型的描述。
- 定性(名词(N)、序数(O)、二进制(B))。
- 定量(数字、离散、连续)
定性属性:
1.名义属性——与姓名相关: 名词属性的值是事物的名称,某种符号。名词性属性的值代表某种类别或状态,这就是为什么名词性属性也被称为 类别属性 名义属性的值之间没有顺序(等级、位置)。 例子:
2.二进制属性: 二进制数据只有2个值/状态。例如是或否,受影响或未受影响,正确或错误。
- 对称的: 这两种价值观(性别)同等重要。
- 不对称: 这两个值并不同等重要(结果)。
3.顺序属性: 序数属性包含的值之间有一个有意义的序列或排序(顺序),但值之间的大小实际上是未知的,值的顺序显示了什么是重要的,但并不表明它有多重要。
数量属性:
1.数字: 因为它是一个可测量的实数,所以它是一个数值属性。数字属性有两种类型, 间隔 和 比率 .
- 一 区间标度 属性有值,它们的差异是可以解释的,但是数字属性没有正确的参考点,或者我们可以称为零点。数据可以按时间间隔进行加减,但不能进行乘法或除法。考虑一个摄氏度温度的例子。如果一天的温度是另一天的两倍,我们不能说一天的温度是另一天的两倍。
- A. 比例标度 属性是具有固定零点的数值属性。如果测量是按比例缩放的,我们可以说一个值是另一个值的倍数(或比率)。这些值是有序的,我们还可以计算值之间的差异,并且可以给出平均值、中位数、模式、分位数范围和五位数汇总。
2.离散: 离散数据有有限的值,它可以是数值的,也可以是分类的。这些属性具有有限或可数无限的值集。
例子:
3.连续 :连续数据有无限多个状态。连续数据是浮点型的。在2和3之间可以有很多值。
例子: