当前位置：首页 > 教程 > 编程语言 > python编程 > 深度学习详解之初试机器学习

深度学习详解之初试机器学习
日期：2021-09-08 14:03:34 来源：脚本之家

机器学习可应用在各个方面，本篇将在系统性进入机器学习方向前，初步认识机器学习，利用线性回归预测波士顿房价；

原理简介

利用线性回归最简单的形式预测房价，只需要把它当做是一次线性函数y=kx+b即可。我要做的就是利用已有数据，去学习得到这条直线，有了这条直线，则对于某个特征x（比如住宅平均房间数）的任意取值，都可以找到直线上对应的房价y，也就是模型的预测值。
从上面的问题看出，这应该是一个有监督学习中的回归问题，待学习的参数为实数k和实数b（因为就只有一个特征x），从样本集合sample中取出一对数据(xi,yi)，xi代入kx+b得到输出y^i，MSE可以衡量预测输出与样本标注的接近程度，所以把MSE作为这个问题的损失函数，对于共m mm个样本的集合，损失函数计算为：J(k,b)=1i=1∑m(yi−yi)2

一般需要遍历数据集迭代多次，才能得到一个较好的结果

波士顿房价数据集

房价预测的实现将基于sklearn（scikit-learn），sklearn中有多种数据集：

自带的小数据集（packaged dataset）：sklearn.datasets.load_<name>
可在线下载的数据集（Downloaded Dataset）：sklearn.datasets.fetch_<name>
自定义生成的数据集（Generated Dataset）：sklearn.datasets.make_<name>

首先从sklearn的数据集获取内置数据集中的即波士顿房价数据：

from sklearn.datasets import load_boston

导入其他功能包和模块，导入线性回归模型：

# 使用sklearn 中的 train_test_split 划分数据集
from sklearn.model_selection import train_test_split
# 使用 sklearn 中的线性回归模型进行预测
from sklearn.linear_model import LinearRegression
# 使用 matplotlib 中的 pyplot 进行可视化
import matplotlib.pyplot as plt

加载数据集：

# 加载波士顿房价数据集，返回特征X和标签y
X, y = load_boston(return_X_y=True)
X.shape # (506, 13)
y.shape # (506,)

取出一个特征作为x：

# 只取第6列特征（方便可视化）：住宅平均房间数
# 注意切片区间左闭右开
X = X[:,5:6]

划分为训练集和测试集，测试集取20%：

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2, random_state=2020)

使用到sklearn.model_selection.train_test_split，函数形式为：

train_test_split(train_data, train_target, test_size, random_state，shuffle)

test_size：浮点数，在0 ~ 1之间，表示测试样本占比
random_state：随机种子，种子不同，每次调用时采样的样本不同；种子相同，每次调用时采样一致
shuffle = True，打乱样本数据的顺序

严格来说，对于有监督学习的数据集应分为训练集，验证集，测试集；训练集和验证集有标注，测试集没有标注，泛化能力在验证集上进行检验

划分后的训练数据：

X_train.shape # (404, 1)
y_train.shape # (404,)

建立线性回归模型

在sklearn下，机器学习建模非常方便：

实例化模型，输入合适的超参数会使模型性能提升
输入数据训练
验证模型

建立线性回归模型如下：

# 创建线性回归对象
regr = LinearRegression()
# 使用训练集训练模型
regr.fit(X_train, y_train)
# 在测试集上进行预测
y_pred = regr.predict(X_test)

注意到模型直到接收到训练数据，才最终确定具体形式，比如发现输入数据是(404,1)，才确定线性回归形式为kx+b，而不是kx+cx+b

# 画测试数据散点图
plt.scatter(X_test, y_test,  color='blue')
# 画线性回归模型对测试数据的拟合曲线
plt.plot(X_test, y_pred, color='red')
# 显示绘图结果
plt.show()

fig1

打印模型参数有（注意区分参数和超参数）：

# 打印斜率和截距
print('斜率：{}, 截距：{}'.format(regr.coef_,regr.intercept_))

结果为：

斜率：[9.11163398], 截距：-34.47557789280662

到此这篇关于初试机器学习的文章就介绍到这了,更多相关初识机器学习内容请搜索以前的文章或继续浏览下面的相关文章，希望大家以后多多支持！

机器学习初试机器学习

上一篇：python 获取毫秒级时间问题的解决

下一篇：编写python程序的90条建议

+ 更多教程 +

精选教程

教程标签

pycharm pip install Flask Selenium 关闭浏览器浏览器关闭窗口截图键盘事件 python 元素等待安装使用 Selenium使用爬虫requests模块爬虫模块实现全文搜索中英文搜索表单嵌套 iframe表单嵌套爬虫方法多窗口切换 python3 嵌套式对象下载音乐网易云音乐批量下载鼠标事件爬取百度文库下载百度文库 Cookies自动登录警告框启动项参数启动项 Python爬虫逆向控制浏览器 oBIX 访问Niagara数据迭代元素加法重载 all函数

音效素材网提供各类素材，打造精品素材网站！

音效素材

深度学习详解之初试机器学习
日期：2021-09-08 14:03:34 来源：脚本之家

原理简介

波士顿房价数据集

建立线性回归模型

您感兴趣的教程

在docker中安装mysql详解

win10中文输入法仅在桌面显示怎么办?

一分钟掌握linux系统目录结构

PHP程序员玩转Linux系列 Linux和Windows安装

win10怎么安装杜比音效Doby V4.1 win10安装杜

纯CSS实现iOS风格打开关闭选择框功能

Win7如何给C盘扩容 Win7系统电脑C盘扩容的

百度推广竞品词的投放策略

Visual Studio Code(vscode) git的使用教程

七牛云储存创始人分享七牛的创立故事与

Win10预览版Mobile 10547即将发布 9月19日上午

HTML标签meta总结,HTML5 head meta 属性整理

移动端html5模拟长按事件的实现方法

HTML常用meta大全(推荐)

cdr怎么把图片转换成位图? cdr图片转换为

win10系统怎么录屏?win10系统自带录屏详细

精选教程

教程标签

热门教程

关于我们

版权声明

音效素材网提供各类素材，打造精品素材网站！

深度学习详解之初试机器学习 日期：2021-09-08 14:03:34 来源：脚本之家

原理简介

波士顿房价数据集

建立线性回归模型

您感兴趣的教程

精选教程

教程标签

热门教程

关于我们

版权声明

深度学习详解之初试机器学习
日期：2021-09-08 14:03:34 来源：脚本之家