数据挖掘中的KDD过程

数据挖掘 –数据库中的知识发现 (KDD)。

null

为什么我们需要数据挖掘? 我们可以处理的商业交易、科学数据、传感器数据、图片、视频等信息量每天都在增加。因此,我们需要一个能够提取可用信息精华并自动生成报告的系统, 查看或汇总数据,以便更好地决策。

为什么数据挖掘被用于商业? 数据挖掘在商业中用于通过以下方式做出更好的管理决策:

  • 数据自动摘要
  • 提取存储信息的本质 .
  • 发现原始数据中的模式。

数据挖掘 也称为数据库中的知识发现,是指从数据库中存储的数据中提取隐含的、以前未知的和潜在有用的信息。

KDD过程中涉及的步骤:

图片[1]-数据挖掘中的KDD过程-yiteyi-C++库

知识发现过程

  1. 数据清理 :数据清理定义为从采集中移除噪声和无关数据。
    • 清洁以防 缺失值 .
    • 打扫 吵闹的 数据,其中噪声是随机或方差误差。
    • 清洁 数据差异检测 数据转换工具 .
  2. 数据集成 :数据集成定义为来自多个源的异构数据,这些数据组合在一个公共源(数据仓库)中。
    • 使用 数据迁移工具 .
    • 使用 数据同步工具 .
    • 使用 ETL (提取负载转换)过程。
  3. 数据选择 :数据选择是指从数据收集中确定和检索与分析相关的数据的过程。
    • 数据选择使用 神经网络 .
    • 数据选择使用 决策树 .
    • 数据选择使用 朴素贝叶斯 .
    • 数据选择使用 群集 , 回归
  4. 数据转换 :数据转换定义为将数据转换为挖掘过程所需的适当形式的过程。

    数据转换分为两步:

    • 数据映射 :将元素从源库分配到目标,以捕获转换。
    • 代码生成 :创建实际的转换程序。
  5. 数据挖掘 :数据挖掘被定义为用于提取潜在有用模式的聪明技术。
    • 将任务相关数据转换为 模式 .
    • 决定模型使用的目的 分类 刻画 .
  6. 模式评估 :模式评估定义为根据给定的度量来识别表示知识的严格递增模式。
    • 发现 兴趣度得分 每种图案的颜色。
    • 使用 总结 形象化 使用户能够理解数据。
  7. 知识表示 :知识表示是指利用可视化工具来表示数据挖掘结果的技术。
    • 生成 报告 .
    • 生成 桌子 .
    • 生成 判别规则 , 分类规则 , 表征规则 等等。

笔记 :

  • KDD是一种 迭代的 过程 在可以加强评估措施的地方,可以改进挖掘,可以整合和转换新数据,以获得不同和更合适的结果。
  • 预处理 数据库管理 包括 数据清理 数据集成 .

工具书类 : 数据挖掘:概念和技术

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享