机器学习实战之训练模型-多项式回归（一）

07月08日应用 1条评论 Pipeline,scikit-learn,sklearn,回归,多项式回归,机器学习,标准化,模型训练,特征转换

如果数据比简单的直线更为复杂，我们也可以用线性模型来拟合非线性数据。一个简单的方法就是将每一个特征的幂次方添加为一个新的特征，然后在这个拓展的特征集上进行线性拟合，这种方法成为多项式回归。回归...

机器学习实战之训练模型-深入分析线性回归

07月04日应用没有评论 MSE,scikit-learn,sklearn,statsmodels,均方误差,成本函数,机器学习,梯度下降,线性回归

线性回归模型就是对输入特征加权求和，再加上一个我们称为偏置项（截距）的常数，以此进行预测。它反映的是每一个特征对因变量的影响方向（\(θ\)值的正负）和影响力（\(θ\)的绝对值大小）。 1. 模型说明 ...

07月02日应用没有评论机器学习,机器学习分类

现有的机器学习种类繁多，我们一般可以进行如下的分类标准：是否在人类监督下学习（监督学习、非监督学习、半监督学习和强化学习）是否可以动态的增量学习（在线学习和批量学习）是简单的将新...

06月17日应用 1条评论 DBSCAN,python,scikit-learn,可视化,密度聚类,数据分析师教程,机器学习,聚类,调参,集成学习

DBSCAN（Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法）是一种很典型的密度聚类算法，和只适用于凸样本集的K-Means聚类相比，DBSCAN既可以适用于凸样本集，...

06月13日应用没有评论 K-means,K均值,python,scikit-learn,sklearn,性能评估,数据分析师教程,聚类,聚类建模,聚类调参,调参

聚类分析（英语：Cluster analysis）亦称为群集分析，是对于统计数据分析的一门技术，在许多领域受到广泛应用，包括机器学习，数据挖掘，模式识别，图像分析以及生物信息，顾客分类，文章分类等。聚类是把相...

06月12日应用没有评论 python,python模拟,中心极限定理,正态分布,统计理论,随机,骰子

一、什么是中心极限定理在适当的条件下，大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。每次从这些总体中随机抽取 n 个抽样，一共抽 m 次。然后把这 m 组抽样分别求出平均值，这些平均值的...

大量的特征变量，很多的模型，模型也有很多参数，如何选择合适的特征、合适的模型和合适的模型参数，这对建模是很重要的，但也是很困难的。并且选择最优的方案，方法也是很多的，这里将其中一种方法尽量描述...

06月04日应用没有评论 python,scikit-learn,sklearn,数据分析师教程,随机森林,随机森林入门,随机森林评估

决策树是各种机器学习任务的常用方法。决策树是比较能满足于数据挖掘的方法，因为它在特征值的缩放和其他各种转换下保持不变，对无关特征是可靠的，而且能生成可被检查的模型。然而，生长很深的树容易学习...

05月31日应用没有评论 python,scikit-learn,sklearn,决策树,分类,回归,性能评估,数据分析师教程

一、什么是决策树决策树算法，人如其名，结构就像一棵树，有分叉的枝丫和树叶。枝丫的分叉处是关于目标某一个特征的判断，枝丫本体则是关于该特征的判断结果，而叶子则是判断过后产生的决策结果。上图...

05月29日应用 2条评论 knn,k近邻算法,python,scikit-learn,sklearn,分类,回归,拟合,数据分析师教程,调参

k近邻算法（KNN）是监督学习算法，意味着训练数据集需要有label或者类别，KNN的目标是把没有标签的数据点（样本）自动打上标签或者预测所属类别。同时KNN也可用于回归。 KNN的主要实现过程：计算训练...