Python制作GUI可视化程序的尝试
之前帮朋友写过一个数据预处理的python程序,听说这个需求还是蛮多的,于是便想着能否写一个GUI图形用户界面(Graphical Use…
之前帮朋友写过一个数据预处理的python程序,听说这个需求还是蛮多的,于是便想着能否写一个GUI图形用户界面(Graphical Use…
最近学了一些数据分析、机器学习的基础知识,刚好朋友有一个需求,希望能对两份数据进行清洗,把里面的缺失值按照条件替换成平均值,数据清洗步骤…
百度百科对TF-IDF的定义:TF-IDF(term frequency–inverse document frequenc…
概念:利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到…
支持向量机(Support Vector Machine),是一类按监督学习(supervised learning)方式对数据进行二元…
随机森林算法可用于分类,也可用于回归任务。 随机森林采用集合算法(bagging),利用统计学采样原理,训练出成千上百个不同的算…
机器学习的基本问题是利用模型对数据进行拟合,学习的目的并非是对有限训练集进行正确预测,而是对未曾在训练集合出现的样本能够正确预测。模型对…
以下数据源来自于互联网公开的北京二手房成交数据,仅作个人学习使用。 在网上找到一张关于K-means算法的图片,很形象。 …
以下数据源来自于互联网公开的北京二手房成交数据,仅作个人学习使用。 在建模时,70%的时间用于清洗数据都是很正常的。 目的:…
以下数据源来自于互联网公开的北京二手房成交数据,仅作个人学习使用。 数据预处理 合并数据如下 data.head…
分类问题中最简单的是二分类,但其实多分类也可以分解成一个个二分类来解决。Logistic Regression 虽然被称为回归,但其实际…
将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此…
关于多元线性回归,指的是在回归分析中,如果有两个或两个以上的自变量,例如方程式 y=a*x1+b*x2+c*x3+d …
百度百科中对线性回归的定义:利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达…
pandas中对于时间的解析使用to_datetime函数,非常智能 pd.to_datetime('20210804') …
以下数据源来自于互联网公开的北京二手房成交数据,仅作个人学习使用。 目的: 分析北京二手房成交价格分布 寻找每个…
数据分析少不了对数据进行分组、统计。分组运算,一般是对数据的某一个分组键进行拆分(分成几组),在拆分的分组上应用某一个函数或者运算,最后…
定义:通俗的说,离散化是在不改变数据相对大小的条件下,对数据进行相应的缩小。在一些问题中,我们只关心n个数字之间的相对大小关系,而不关心…
python内建的方法对于操作字符串和文本很便利,而在pandas中,是可以将python中的字符串方法和正则表达式应用到整个数据数组中…
pandas中的数据合并常用的方法有两个merge和concat,其中merge方法基于两个df的共同列进行合并,concat用于处理s…
pandas原本就用于解决现实中遇到的数据问题,其中read_csv的可选参数已经超过了50个,因此,数据的输入和输出是必不可少的。 …
新建测试数据 data4 = pd.DataFrame(np.random.randn(5,4), index =[3,1,2…
numpy的合并。 a = np.arange(4).reshape(2,2) a >array([[0, 1], …
机器学习的开始-Numpy初了解(如何创建Ndarray数组+numpy数据类型+切片+广播)
入门pandas,要熟悉两个常用的工具数据结构:Series和DataFrame。 Series是一维的数组型对象,包含了一个值序…