您现在的位置是:首页 > 技术教程 正文

Python利用线性回归、随机森林等对红酒数据进行分析与可视化实战(附源码和数据集 超详细)

admin 阅读: 2024-03-24
后台-插件-广告管理-内容页头部广告(手机)

需要源码和数据集请点赞关注收藏后评论区留言私信~~~

下面对天池项目中的红酒数据集进行分析与挖掘

实现步骤

1:导入模块

2:颜色和打印精度设置

3:获取数据并显示数据维度

字段中英文对照表如下

 

然后利用describe函数显示数值属性的统计描述值

 显示quality取值的相关信息

显示各个变量的直方图如下

 显示各个变量的盒图

酸性相关的特征分析 该数据集与酸度相关的特征有’fixed acidity’, ‘volatile acidity’, ‘citric acid’,‘chlorides’, ‘free sulfur dioxide’, ‘total sulfur dioxide’,‘PH’。其中前6中酸度特征都会对PH产生影响。PH在对数尺度,然后对6中酸度取对数做直方图

pH值主要是与fixed acidity有关,fixed acidity比volatile acidity和citric acid高1到2个数量级(Figure 4),比free sulfur dioxide, total sulfur dioxide, sulphates高3个数量级。 一个新特征total acid来自于前三个特征的和

 甜度(sweetness) residual sugar主要与酒的甜度有关,干红(<= 4g/L),半干(4-12g/L),半甜(12-45g/L),甜(>= 45g/L),该数据集中没有甜葡萄酒

绘制甜度的直方图如下

 绘制不同品质红酒的各个属性的盒图

 

从上图可以看出:

红酒品质与柠檬酸,硫酸盐,酒精度成正相关 红酒品质与易挥发性酸,密度,PH成负相关 残留糖分,氯离子,二氧化硫对红酒品质没有什么影响

下面分析密度和酒精浓度的关系

密度和酒精浓度是相关的,物理上,但两者并不是线性关系。另外密度还与酒精中的其中物质含量有关,但是相关性很小

 

 酸性物质含量和PH 因为PH和非挥发性酸之间存在着-0.68的相关性,因为非挥发性酸的总量特别高,所以total acid这个指标意义不大

多变量分析 与红酒品质相关性最高的三个特征分别是酒精浓度,挥发性酸含量,柠檬酸。下面研究三个特征对红酒的品质有何影响

 

 

PH和非挥发性酸,柠檬酸成负相关

 

总结 对于红酒品质影响最重要的三个特征:酒精度、挥发性酸含量和柠檬酸。对于品质高于7的优质红酒和品质低于4的劣质红酒,直观上线性可分,对于品质为5和6的红酒很难进行线性区分

 随机森林、线性回归等算法部分

对数据类型编码,将数据集划分为训练集和测试集等等

对比原始数据与做了标准化处理的数据,其结果相差不大,所以该数据集不需要做标准化处理

下面我们展示各种算法的预测精度结果

可以发现误差都比较大,其中随机森林误差较高

 

 

 代码

部分代码如下 需要全部代码请点赞关注收藏后评论区留言私信~~~

  1. #!/usr/bin/env python
  2. # coding: utf-8
  3. # ## 数据分析部分
  4. # In[1]:
  5. import numpy as np
  6. import pandas as pd
  7. import matplotlib.pyplot as plt
  8. import seaborn as sns
  9. # from sklearn.datasets import load_wine
  10. # In[2]:
  11. # 颜色
  12. color = sns.color_palette()
  13. # 数据print精度
  14. pd.set_option('precision',3)
  15. # In[3]:
  16. df = pd.read_csv('.\winequality-red.csv',sep = ';')
  17. display(df.head())
  18. print('数据的维度:',df.shape)
  19. # ![image.png](attachment:image.png)
  20. # In[4]:
  21. df.info()
  22. # In[5]:
  23. df.describe()
  24. # In[6]:
  25. print('quality的取值:',df['quality'].unique())
  26. print('quality的取值个数:',df['quality'].nunique())
  27. print(df.groupby('quality').mean())
  28. # 显示各个变量的直方图
  29. # In[ ]:
  30. # In[7]:
  31. color = sns.color_palette()
  32. column= df.columns.tolist()
  33. fig = plt.figure(figsize = (10,8))
  34. for i in range(12):
  35. plt.subplot(4,3,i+1)
  36. df[column[i]].hist(bins = 100,color = color[3])
  37. plt.xlabel(column[i],fontsize = 12)
  38. plt.ylabel('Frequency',fontsize = 12)
  39. plt.tight_layout()
  40. # 显示各个变量的盒图
  41. # In[8]:
  42. fig = plt.figure(figsize = (10,8))
  43. for i in range(12):
  44. plt.subplot(4,3,i+1)
  45. sns.boxplot(df[column[i]],orient = 'v',width = 0.5,color = color[4])
  46. plt.ylabel(column[i],fontsize = 12)
  47. plt.tight_layout()
  48. # 酸性相关的特征分析
  49. # 该数据集与酸度相关的特征有’fixed acidity’, ‘volatile acidity’, ‘citric acid’,‘chlorides’, ‘free sulfur dioxide’, ‘total sulfur dioxide’,‘PH’。其中前6中酸度特征都会对PH产生影响。PH在对数尺度,然后对6中酸度取对数做直方图。
  50. # In[9]:
  51. acidityfeat = ['fixed acidity',
  52. 'volatile acidity',
  53. 'citric acid',
  54. 'chlorides',
  55. 'free sulfur dioxide',
  56. 'total sulfur dioxide',]
  57. fig = plt.figure(figsize = (10,6))
  58. for i in range(6):
  59. plt.subplot(2,3,i+1)
  60. v = np.log10(np.clip(df[acidityfeat[i]].values,a_min = 0.001,a_max = None))
  61. plt.hist(v,bins = 50,color = color[0])
  62. plt.xlabel('log('+ acidityfeat[i] +')',fontsize = 12)
  63. plt.ylabel('Frequency')
  64. plt.tight_layout()
  65. # In[10]:
  66. plt.figure(figsize=(6,3))
  67. bins = 10**(np.linspace(-2,2)) # linspace 默认50等分
  68. plt.hist(df['fixed acidity'], bins=bins, edgecolor = 'k', label='Fixed Acidity') #bins: 直方图的柱数,可选项,默认为10
  69. plt.hist(df['volatile acidity'], bins=bins, edgecolor = 'k', label='Volatitle Acidity')#label:字符串或任何可以用'%s'转换打印的内容。
  70. plt.hist(df['citric acid'], bins=bins, edgecolor = 'k', label='Citric Acid')
  71. plt.xscale('log')
  72. plt.xlabel('Acid Concentration(g/dm^3)')
  73. plt.ylabel('Frequency')
  74. plt.title('Histogram of Acid Contacts')#title :图形标题
  75. plt.legend()#plt.legend()函数主要的作用就是给图加上图例
  76. plt.tight_layout()
  77. print('Figure 4')
  78. """
  79. pH值主要是与fixed acidity有关,
  80. fixed acidity比volatile acidity和citric acid高1到2个数量级(Figure 4),比free sulfur dioxide, total sulfur dioxide, sulphates高3个数量级。
  81. 一个新特征total acid来自于前三个特征的和。
  82. """
  83. # 甜度(sweetness)
  84. # residual sugar主要与酒的甜度有关,干红(<= 4g/L),半干(4-12g/L),半甜(12-45g/L),甜(>= 45g/L),该数据集中没有甜葡萄酒。
  85. # In[11]:
  86. df['sweetness'] = pd.cut(df['residual sugar'],bins = [0,4,12,45],labels = ['dry','semi-dry','semi-sweet'])
  87. df.head()
  88. # In[12]:
  89. plt.figure(figsize = (6,4))
  90. df['sweetness'].value_counts().plot(kind = 'bar',color = color[0])
  91. plt.xticks(rotation = 0)
  92. plt.xlabel('sweetness')
  93. plt.ylabel('frequency')
  94. plt.tight_layout()
  95. print('Figure 5')
  96. # In[13]:
  97. # 创建一个新特征total acid
  98. df['total acid'] = df['fixed acidity'] + df['volatile acidity'] + df['citric acid']
  99. columns = df.columns.tolist()
  100. columns.remove('sweetness')
  101. # columns
  102. # ['fixed acidity',
  103. # 'volatile acidity',
  104. # 'citric acid',
  105. # 'residual sugar',
  106. # 'chlorides',
  107. # 'free sulfur dioxide',
  108. # 'total sulfur dioxide',
  109. # 'density',
  110. # 'pH',
  111. # 'sulphates',
  112. # 'alcohol',
  113. # 'quality',
  114. # 'total acid']
  115. sns.set_style('ticks')
  116. sns.set_context('notebook',font_scale = 1.1)
  117. column = columns[0:11] + ['total acid']
  118. plt.figure(figsize = (10,8))
  119. for i in range(12):
  120. plt.subplot(4,3,i+1)
  121. sns.boxplot(x = 'quality',y = column[i], data = df,color = color[1],width = 0.6)
  122. plt.ylabel(column[i],fontsize = 12)
  123. plt.tight_layout()
  124. print('Figure 7:PhysicoChemico Propertise and Wine Quality by Boxplot')
  125. # 从上图可以看出:
  126. #
  127. # 红酒品质与柠檬酸,硫酸盐,酒精度成正相关
  128. # 红酒品质与易挥发性酸,密度,PH成负相关
  129. # 残留糖分,氯离子,二氧化硫对红酒品质没有什么影响
  130. # In[14]:
  131. sns.set_style('dark')
  132. plt.figure(figsize = (10,8))
  133. mcorr = df[column].corr()
  134. mask = np.zeros_like(mcorr,dtype = np.bool)
  135. mask[np.triu_indices_from(mask)] = True
  136. cmap = sns.diverging_palette(220, 10, as_cmap=True)
  137. g = sns.heatmap(mcorr, mask=mask, cmap=cmap, square=True, annot=True, fmt='0.2f')
  138. # print('Figure 8:Pairwise colleration plot')
  139. # In[ ]:
  140. # In[15]:
  141. # 密度和酒精浓度
  142. # 密度和酒精浓度是相关的,物理上,但两者并不是线性关系。另外密度还与酒精中的其中物质含量有关,但是相关性很小。
  143. sns.set_style('ticks')
  144. sns.set_context('notebook',font_scale = 1.4)
  145. plt.figure(figsize = (6,4))
  146. sns.regplot(x = 'density',y = 'alcohol',data = df,scatter_kws = {'s':10},color = color[1])
  147. plt.xlabel('density',fontsize = 12)
  148. plt.ylabel('alcohol',fontsize = 12)
  149. plt.xlim(0.989,1.005)
  150. plt.ylim(7,16)
  151. # print('Figure 9: Density vs Alcohol')
  152. # 酸性物质含量和PH
  153. # 因为PH和非挥发性酸之间存在着-0.68的相关性,因为非挥发性酸的总量特别高,所以total acid这个指标意义不大。
  154. # In[16]:
  155. column
  156. # In[17]:
  157. acidity_raleted = ['fixed acidity','volatile acidity','total sulfur dioxide','chlorides','total acid']
  158. plt.figure(figsize = (10,6))
  159. for i in range(5):
  160. plt.subplot(2,3,i+1)
  161. sns.regpltx = 'pH',y = acidity_raleted[i],data = df,scatter_kws = {'s':10},color = color[1])
  162. plt.xlabel('PH',fontsize = 12)
  163. plt.ylabel(acidity_raleted[i],fontsize = 12)
  164. plt.tight_layout()
  165. print('Figure 10:The correlation between different acid and PH')
  166. # 多变量分析
  167. # 与红酒品质相性最高的三个特征分别是酒精浓度,挥发性酸含量,柠檬酸。下面研究三个特征对红酒的品质有何影响。
  168. # In[18]:
  169. plt.style.use('ggplot')
  170. plt.figure(figsize = (6,4))
  171. sns.lmplot(x = 'alcohol',y = 'volatile acidity',hue = 'quality',data = df,fit_reg = False,scatter_kws = {'s':10},size = 5)
  172. # In[19]:
  173. sns.lmplot(x = 'alcohol', y = 'volatile acidity', col='quality', hue = 'quality',
  174. data = df,fit_reg = False, size = 3, aspect = 0.9, col_wrap=3,
  175. ={'s':20})
  176. print("Figure 11-2: Scatter Plots of Alcohol, Volatile Acid and Quality")
  177. # PH和非挥发性酸,柠檬酸
  178. # PH和非挥发性酸,柠檬酸成负相关
  179. # In[20]:
  180. sns.set_style('ticks')
  181. sns.set_context("notebook", font_scale= 1.4)
  182. plt.figure(figsize=(6,5))
  183. cm = plt.cm.get_cmap('RdBu')
  184. sc = plt.scatter(df['fixed acidity'], df['citric acid'], c=df['pH'], vmin=2.6, vmax=4, s=15, cmap=cm)
  185. bar = plt.colorbar(sc)
  186. bar.n = 0)
  187. plt.xlabel('fixed acidity')
  188. plt.ylabel('ciric acid')
  189. plt.xlim(4,18)
  190. plt.ylim(0,1)
  191. print('Figure 12: pH with Fixed Acidity and Citric Acid')
  192. # 总结
  193. # 对于红酒品质影响最重要的三个特征:酒精度、挥发性酸含量和柠檬酸。对于品质高于7的优质红酒和品质低于4的劣质红酒,直观上线性可分,对于品质为56的红酒很难进行线性区分。
  194. # ## 数据掘时间部分
  195. # In[21]:
  196. # 数据建模
  197. # 线性回归
  198. # 集成算法
  199. # 提升算
  200. # 模型评估
  201. # 确定模型参数
  202. # 1.数据集切分
  203. # 1.1 切分特征和标签
  204. # 1.2 切分训练集个测试集
  205. df.head()
  206. # In[22]:
  207. # 数据预处理工作
  208. # 检查数据的完整性
  209. df.isnull().sum()
  210. # In[23]:
  211. # 将object类型的数据转化为int类型
  212. sweetness = pd.get_dummies(df['sweetness'])
  213. df = pd.concat([df,sweetness],axis = 1)
  214. df.head()
  215. # In[24]:
  216. df = df.drop('sweetness',axis = 1)
  217. labels = df['quality']
  218. features = df.drop('quality',axis = 1)
  219. # 对原始数据集进行切分
  220. from sklearn.model_selection import train_test_split
  221. train_features,test_fatures,train_labels,test_labels = train_test_split(features,labels,test_size = 0.3,random_state = 0
  222. print('训练特征的规模:'.shape)
  223. print('训练标签的规模:',train_labels.shape)
  224. print('测试特征的规模:',test_features.shape)
  225. print('测试标签的规模:',test_labels.shape)
  226. # In[25]:
  227. from sklearn import svm
  228. classifier=svm.SVC(kernel='linear',gamma=0.1)
  229. classifier.fit(train_features,train_labels)
  230. print('训练集的准确率',classifier.score(train_features,train_labels))
  231. print('测试集的准确率',classifier.score(test_features,test_labels))
  232. # In[26]:
  233. from sklearn.linear_model import LinearRegression
  234. LR = LinearRegression)LR.fit(train_features,train_labels
  235. prediction = LR.predict(test_features)
  236. prediction[:5]
  237. # In[27]:
  238. #对模型进行评估
  239. from sklearn.metrics import mean_squared_error
  240. RMSE = np.sqrt(mean_squared_error(test_labels,prediction))
  241. print('线性回归模型的预测误差:',RMSE)
  242. # In[28]:
  243. # 对训练特征和测试特征做标准化处理,观察结果
  244. from sklearn.preprocessing import StandardScaler
  245. train_features_std = StandardScaler().fit_transform(train_features)
  246. test_features_std = StandardScaler().fit_transform(test_features)
  247. LR = LinearRegression()
  248. LR.fit(train_features_std,train_labels)
  249. prediction = LR.predict(test_features_std)
  250. #观察预测结果误差
  251. RMSE = np.sqrt(mean_squared_error(prediction,test_labels))
  252. print('线性回归模型预测误差:',RMSE)
  253. # 对比原始数据与做了标准化处理的数据,其结果相差不大,所以该数据集不需要做标准化处理。
  254. #
  255. # 集成算法:随机森林
  256. # In[29]:
  257. from sklearn.ensemble import RandomForestRegressor
  258. RF = RandomForestRegressor()
  259. RF.fit(train_features,train_labels)
  260. prediction = RF.pre
  261. # In[30]:
  262. RF.get_params
  263. # In[31]:
  264. from sklearn.model_selection import GridSearchCV
  265. param_grid = {'n_estimators':[100,200,300,400,500],
  266. 'max_depth':[3,4,5,6],
  267. 'min_samples_split':[2,3,4]}
  268. RF = RandomForestRegressor()
  269. grid = GridSearchCV(RF,param_grid = param_grid,scoring = 'neg_mean_squared_error',cv = 3,n_jobs = -1)
  270. grid.fit(train_features,train_labels)
  271. # In[32]:
  272. # GridSearchCV(cv=3, error_score='raise-deprecating',
  273. # estimator=RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
  274. # max_features='auto', max_leaf_nodes=None,
  275. # min_impurity_decrease=0.0, min_impurity_split=None,
  276. # min_samples_leaf=1, min_samples_split=2,
  277. # min_weight_fraction_leaf=0.0, n_estimators='warn', n_jobs=None,
  278. # oob_sc
  279. # In[33]:
  280. grid.best_params_
  281. # In[34]:
  282. RF = RandomForestRegressor(n_estimators = 300,min_samples_split = 2,max_depth = 6)
  283. RF.fit(train_features,train_labels)
  284. # In[35]:
  285. RandomForestRe
  286. # In[36]:
  287. prediction = RF.predict(test_features)
  288. RF_RMSE = np.sqrt(mean_squared_error(prediction,test_labels))
  289. print('随机森林模型的预测误差:',RF_RMSE)
  290. # 集成算法:GBDT
  291. # In[37]:
  292. from sklearn.ensemble import GradientBoostingRegressor
  293. GBDT = GradientBoostingRegressor()
  294. GBDT.fit(train_features,train_labels)
  295. gbdt_prediction =
  296. GBDT.get_params
  297. # In[ ]:

创作不易 觉得有帮助请点赞关注收藏~~~

标签:
声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

在线投稿:投稿 站长QQ:1888636

后台-插件-广告管理-内容页尾部广告(手机)
关注我们

扫一扫关注我们,了解最新精彩内容

搜索
排行榜