您现在的位置是：首页 > 技术教程正文

[Python] 机器学习 - 常用数据集(Dataset)之鸢尾花(Iris)数据集介绍，数据可视化和使用案例

admin 阅读： 2024-03-24

后台-插件-广告管理-内容页头部广告（手机）

鸢(yuān)尾花(Iris)数据集介绍

鸢【音：yuān】尾花（Iris）是单子叶百合目花卉，是一种比较常见的花，而且鸢尾花的品种较多，在某个公园里你可能不经意间就能碰见它。

鸢尾花数据集最初由Edgar Anderson 测量得到，而后在著名的统计学家和生物学家R.A Fisher于1936年发表的文章「The use of multiple measurements in taxonomic problems」中被使用，用它作为线性判别分析（Linear Discriminant Analysis）的一个例子，证明分类的统计方法。该数据集是在机器学习领域一个常用的数据集。

数据中的两类鸢尾花记录结果是在加拿大加斯帕半岛上，在同一天的同一个时间段，使用相同的测量仪器，在相同的牧场上由同一个人测量出来的。这是一份有着70年历史的数据，虽然老，但是却很经典，详细数据集可以在UCI 数据库（http://archive.ics.uci.edu/ml/datasets/Iris）中找到。

http://archive.ics.uci.edu/static/public/53/iris.zip

Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于（Setosa(山鸢尾)，Versicolour(杂色鸢尾)，Virginica(维吉尼亚鸢尾)）三个种类中的哪一类。

鸢尾花（iris）数据集，它共有4个属性列和一个品种类别列：sepal length（萼片长度）、sepal width（萼片宽度）、petal length（花瓣长度）、petal width （花瓣宽度），单位都是厘米。3个品种类别是Setosa、Versicolour、Virginica，样本数量150个，每类50个。

本文主要通过Jupyter Notebook对鸢尾花数据集（Iris）进行读取，显示数据，并对数据可视化，最后使用该数据集来应用于K近邻算法线性回归分析。

1）读取数据包括scikit-learn库引入和读取.csv文件保存的数据集。

2）显示数据包括显示具体数据、查看整体数据信息、描述性统计。

3）数据可视化包括散点图、直方图、KDE图、箱线图等。

4）应用该数据集于scikit-learn的K近邻算法进行线性回归分析。

读取数据

from sklearn import datasets
import pandas as pd
iris_datas = datasets.load_iris()
iris_df = pd.DataFrame(iris_datas.data, columns=['Sepal Length', 'Sepal Width', 'Petal Length', 'Petal Width'])
# 它是一个很小的数据集，仅有150行，5列。该数据集的四个特征(1~4)列属性的取值都是数值型的，
# 他们具有相同的量纲，不需要你做任何标准化的处理，
# 第五列为通过前面四列所确定的鸢尾花所属的类别名称。
iris_csv_url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']
iris_csv_df = pd.read_csv(iris_csv_url, names=names)