支持向量机(SVM)广泛应用于模式分类和非线性回归领域。 SVM算法的原始形式由Vladimir N.Vapnik和Alexey Ya提出。自从那以后,SVM已经被巨大地改变以成功地用于许多现实世界问题。 1.什么是支持向量机(SVM)?...
机器学习实战之训练模型–泛化和学习曲线
本文介绍了多项式回归的过拟合和欠拟合、泛化能力和学习曲线,通过对比测试集和验证集的MSE的学习曲线,判断拟合是过拟合还是欠拟合,寻找到最合适的模型。 高阶多项式回归对训练数据的拟合,可能会比简单线性...
可视化图解Python科学计算包NumPy
NumPy包是python生态系统中数据分析、机器学习和科学计算的主力。 它极大地简化了向量和矩阵的操作。Python的一些主要软件包依赖于NumPy作为其基础架构的基础部分(例如scikit-learn、SciPy、pandas和tensorf...
机器学习实战之训练模型-多项式回归(一)
如果数据比简单的直线更为复杂,我们也可以用线性模型来拟合非线性数据。一个简单的方法就是将每一个特征的幂次方添加为一个新的特征,然后在这个拓展的特征集上进行线性拟合,这种方法成为多项式回归。 回归...
机器学习实战之训练模型-深入分析线性回归
线性回归模型就是对输入特征加权求和,再加上一个我们称为偏置项(截距)的常数,以此进行预测。它反映的是每一个特征对因变量的影响方向(\(θ\)值的正负)和影响力(\(θ\)的绝对值大小)。 1. 模型说明 ...
机器学习的种类介绍
现有的机器学习种类繁多,我们一般可以进行如下的分类标准: 是否在人类监督下学习(监督学习、非监督学习、半监督学习和强化学习) 是否可以动态的增量学习(在线学习和批量学习) 是简单的将新...
集成学习聚类算法DBSCAN密度聚类算法详解和可视化调参
DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和只适用于凸样本集的K-Means聚类相比,DBSCAN既可以适用于凸样本集,...
Python机器学习K均值聚类建模和调参
聚类分析(英语:Cluster analysis)亦称为群集分析,是对于统计数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息,顾客分类,文章分类等。聚类是把相...
中心极限定理的最最通俗解释
一、什么是中心极限定理 在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值, 这些平均值的...
Python大规模建模的特征值选择和性能评估方法详解
大量的特征变量,很多的模型,模型也有很多参数,如何选择合适的特征、合适的模型和合适的模型参数,这对建模是很重要的,但也是很困难的。并且选择最优的方案,方法也是很多的,这里将其中一种方法尽量描述...