四大常用知名的uci数据集简介

学习笔记 马富天 2016-08-13 12:05:05 3020 0

【摘要】常用的知名uci数据集主要包括四种:Iris,Wine,Soybean,Zoo,已知这四类数据集聚类结果可靠,并取得一致见意,适合做聚类分析的基准数据集。本文简要介绍这四类数据集。

首先,简绍一下uci数据集,百度百科是这么简绍的:UCI数据库是加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习的数据库,这个数据库目前共有335个数据集,其数目还在不断增加,UCI数据集是一个常用的标准测试数据集。

uci官网地址:

http://www.ics.uci.edu

Machine Learning Repository(机器学习库)地址:

http://archive.ics.uci.edu/ml/index.html

一、Iris数据集

Iris数据集,中文叫鸢【yuān】尾数据集,Iris包含3个类,每个类中有50个元素,每一类各有50个元素,每个元素有5个属性,每一类代表一种类型的鸢尾花,150个样本在3个类簇中分布均匀;其中,一类与另外两类线性可分,另外两类有部分重叠。

注:5个属性分别是:

花萼长度、花萼宽度、花瓣长度、花瓣宽度、鸢尾种类

Iris数据集下载地址:

http://archive.ics.uci.edu/ml/datasets/Irishttp://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

如图:

请输入图片名称

二、Wine数据集

Wine数据集,中文叫做酒数据集,Wine数据集具有好的聚类结构,它包含178个样本,13个数值属性,分成3个类,每类中样本数量不同。

Wine数据集下载地址:

http://archive.ics.uci.edu/ml/datasets/Winehttp://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data

如图:

请输入图片名称

三、Soybean数据集

Soybean数据集中文叫做大豆疾病数据,Soybean数据集共有47个样本,具有35个属性,分为4类,是线性可分的,其所有属性都是可作为分类属性。

其下载地址:

http://archive.ics.uci.edu/ml/datasets/Soybean+(Small)http://archive.ics.uci.edu/ml/machine-learning-databases/soybean/soybean-small.data

如下图:

请输入图片名称

四、Zoo数据集

Zoo数据集中文叫做动物园数据集,该数据集共有101个记录,分为7类,是线性不可分的,在Zoo中,由16个属性来描述样本,其中15个为布尔属性值{0,1}和1个分类属性(腿的数量){0,2,4,6,8}。

下载地址:

http://archive.ics.uci.edu/ml/datasets/Zoohttp://archive.ics.uci.edu/ml/machine-learning-databases/zoo/zoo.data

如下图:

请输入图片名称

有了以上的数据集,在后续文章中会简绍如何在k-means等等聚类算法中如何使用这些数据集,并给出小例子。

版权归 马富天个人博客 所有

本文标题:《四大常用知名的uci数据集简介》

本文链接地址:http://www.mafutian.com/180.html

转载请务必注明出处,小生将不胜感激,谢谢! 喜欢本文或觉得本文对您有帮助,请分享给您的朋友 ^_^

14

4

上一篇《 java中比较两个字符串是否相等 》 下一篇《 svn简单介绍 》

暂无评论

评论审核未开启
表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情 表情
验证码

TOP10

  • 浏览最多
  • 评论最多