Pandas 是 Python 的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。Pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具,其长远目标是成为最强大...
Tag: python
【实战】回归分析与业务系统整合设计、实现和DEMO
回归分析在各行各业的数据分析中有很重要的作用,可以确定自变量和因变量之间的关系,分析出影响性能的关键因素。在机器学习领域,回归算法也是非常重要的。这里我们分享一种统计学意义上的回归分析。 回归分析...
可视化图解Python科学计算包NumPy
NumPy包是python生态系统中数据分析、机器学习和科学计算的主力。 它极大地简化了向量和矩阵的操作。Python的一些主要软件包依赖于NumPy作为其基础架构的基础部分(例如scikit-learn、SciPy、pandas和tensorf...
集成学习聚类算法DBSCAN密度聚类算法详解和可视化调参
DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和只适用于凸样本集的K-Means聚类相比,DBSCAN既可以适用于凸样本集,...
Python机器学习K均值聚类建模和调参
聚类分析(英语:Cluster analysis)亦称为群集分析,是对于统计数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息,顾客分类,文章分类等。聚类是把相...
中心极限定理的最最通俗解释
一、什么是中心极限定理 在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值, 这些平均值的...
Python大规模建模的特征值选择和性能评估方法详解
大量的特征变量,很多的模型,模型也有很多参数,如何选择合适的特征、合适的模型和合适的模型参数,这对建模是很重要的,但也是很困难的。并且选择最优的方案,方法也是很多的,这里将其中一种方法尽量描述...
Python随机森林算法入门和性能评估
决策树是各种机器学习任务的常用方法。 决策树是比较能满足于数据挖掘的方法,因为它在特征值的缩放和其他各种转换下保持不变,对无关特征是可靠的,而且能生成可被检查的模型。 然而,生长很深的树容易学习...
决策树分类和回归入门实战和模型性能对比
一、什么是决策树 决策树算法,人如其名,结构就像一棵树,有分叉的枝丫和树叶。枝丫的分叉处是关于目标某一个特征的判断,枝丫本体则是关于该特征的判断结果,而叶子则是判断过后产生的决策结果。 上图...
K近邻(KNN)回归和分类算法详解及调参
k近邻算法(KNN)是监督学习算法,意味着训练数据集需要有label或者类别,KNN的目标是把没有标签的数据点(样本)自动打上标签或者预测所属类别。同时KNN也可用于回归。 KNN的主要实现过程: 计算训练...