Weka数据挖掘工具

Weka数据挖掘工具

  • 软件热度:
  • ★ ★ ★ ★ ★
    ★ ★ ★ ★ ★
  • 软件分类:
  • 应用软件 / 办公软件
  • 软件语言:
  • 简体中文 免费软件
  • 软件系统:
  • windows
  • 发布时间:
  • 2019-11-19
  • 下一篇 • 联通ESS系统插件
  • 上一篇 • 微税平台
  • WEKA(Waikato Environment for Knowledge Analysis)作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。
      如果想自己实现数据挖掘算法的话,可以参考weka的接口文档。在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。
    WEKA文件相关术语
    表格里的一个横行称作一个实例(Instance),相当于统计学中的一个样本,或者数据库中的一条记录。竖行称作一个属性(Attribute),相当于统计学中的一个变量,或者数据库中的一个字段。这样一个表格,或者叫数据集,在WEKA看来,呈现了属性之间的一种关系(Relation)。上图中一共有14个实例,5个属性,关系名称为“weather”。
    WEKA存储数据的格式是ARFF(Attribute-Relation File Format)文件,这是一种ASCII文本文件。上图所示的二维表格存储在如下的ARFF文件中。这也就是WEKA自带的“weather.arff”文件,在WEKA安装目录的“data”子目录下可以找到。
    文件内容说明
    识别ARFF文件的重要依据是分行,因此不能在这种文件里随意的断行。空行(或全是空格的行)将被忽略。以“%”开始的行是注释,WEKA将忽略这些行。如果你看到的“weather.arff”文件多了或少了些“%”开始的行,是没有影响的。
    除去注释后,整个ARFF文件可以分为两个部分。
    第一部分给出了头信息(Head information),包括了对关系的声明和对属性的声明。
    第二部分给出了数据信息(Data information),即数据集中给出的数据。从“@data”标记开始,后面的就是数据信息了。

    TOP