0
点赞
收藏
分享

微信扫一扫

数据挖掘概念


数据挖掘定义:

•数据挖掘是从海量的数据中抽取感兴趣的(有价值的、隐含的、以前没有用但是潜在有用信息的)模式和知识的过程。

•数据挖掘是从存放在数据库、数据仓库中或其它信息库中的大量数据中挖掘有趣知识的过程。

 一次数据挖掘实验分为4个步骤:

  • (1)准备数据,包括准备训练数据和检验数据
  • (2)选择一种数据挖掘技术或算法,将数据提交给数据挖掘软件
  • (3)解释和评估结果
  • (4)模型应用

机器学习算法的划分:

研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

分类:

监督学习,无监督学习,半监督学习,主动学习:

•监督学习:

定义:通过对大量已知分类或输出结果值的实例进行训练,调整模型的结构,达到建立能够准确分类或预测未知模型的目的。这种基于归纳的概念学习过程被称为有指导(监督)的学习。

  • 数据实例(Instance):用于有指导学习的样本数据。
  • 训练实例(Training Instance):用于训练的实例。
  • 检验实例(Test Instance):分类模型建立完成后,经过检验实例进行检验,判断模型是否能够很好地应用在未知实例的分类或预测中。

•无监督学习:

在学习训练之前,无预先定义好分类的实例,数据实例按照某种相似性度量方法,计算实例之间的相似程度,将最为相似的实例聚类在一个组——簇(Cluster)中,再解释和理解每个簇的含义,从中发现聚类的意义。

•半监督学习:

是监督学习与无监督学习相结合的一种学习方法。

半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行数据挖掘工作。

标记的实例用来学习模型,未标记的数据用来改进类边界。

•主动学习:

主动学习通过一定的算法查询最有用的未标记样本,并交由专家进行标记,然后用查询到的样本训练分类模型来提高模型的精确度.
 

举报

相关推荐

0 条评论