频数分析总结 第1篇

Excel函数法去重

countif(区域,条件),在B2输入=COUNTIF(A:A,A2)表示在A行_有多少个A2元素,在c2中输入C2 =COUNTIF(A$2:A2,A2),代表从第一个元素开始该单元格共出现了几次

 肯定有小伙伴会问了,此时怎么得到不重复的数据那,这么做有什么意义那,此时我们只需要将C列进行筛选,筛选为1的值,即为不重复数据。

Excel高级筛选法查重

在Excel数据高级筛选中选择不重复的记录

 Excel条件格式法查重

 数据透视表法查重

用数据透视表统计各数据出现的频次,出现两次以上认为该数据属于重复数据

使用python--pandas包下的duplicated函数

重复数据删除

在数据处理过程中,缺失值的存在是不可避免的,缺失值过多反映在数据收集过程中出现问题,将直接影响到最终数据分析的准确性,缺失数据在总数据的10%以下方是可以接受的标准

对缺失值的处理一般采用批量填充

 对于上述表格想要快速填充空值应该怎么做那?CTRL+G定位条件中选择空值,选上后输入公式(本例中单点一下“xxx”即可),在CTRL+ENTER进行批量填充

 可以看到所有的空值全部被选择上了

批量填充完毕 

空格处理

可以采用TRIM函数 TRIM(TEXT)可以删除文本前后的空格,而保留文本中间的空格

在Python中删除字符串中所有空格有:使用replace()函数、使用split()函数+join()函数、使用Python正则表达式,正则表达式可以查看(Python-正则表达式总结+常用示例)

数据合并

如果结果字符串超过 32767 个字符(单元格限制),则 CONCAT 返回 #VALUE! 错误。

参数

说明

text1 (所需的)

要联接的文本项。 字符串或字符串数组,如单元格区域。

[text2, ...] (可选)

要联接的其他文本项。 文本项最多可以有 253 个文本参数。 每个参数可以是一个字符串或字符串数组,如单元格区域。

频数分析总结 第2篇

两者都是降维和信息浓缩的方法要求变量之间的共线性或相关关系比较强,否则不能通过 KMO 检验和 Bartlett 球形检验通常需要综合自己的专业知识,以及软件结果进行综合判断,即使是特征根值小于 1,也一样可以提取主成分

因子分析:

1.从分项指标几个公共因子去解释较多个要观测变量中存在的关系

2.需要构造因子模型,着重要求新变量具有实际的意义,能解释原始变量间的内在结构

3.是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系

主成分分析:

1.是对原始变量的重新组合

2.仅仅是变量变换,是原始变量的线性组合表示新的综合变量,强调新变量贡献了多大比例的xxx,不关心新变量是否有明确的实际意义。

3.倾向于多组指标的数据降维,从而达到简化系统结构,抓住问题实质的目的。

频数分析总结 第3篇

差异性分析是指在两个或多个样本之间比较某些变量的差异,以探究它们之间的关系和差异性。差异性分析分为参数检验和非参数检验。

参数检验是指利用样本统计量估计总体参数,并对总体参数进行假设检验的一种统计方法。在参数检验中,假设总体符合某种特定的概率分布(如正态分布),通过样本的统计量(如样本均值、样本标准差等)推断总体参数的值,从而得出对总体的结论。

参数检验包括T检验和xxx分析

单样本T检验:用于分析样本数据与一个特定数值之间的差异情况。

配对样本T检验:用于检验两列样本数一样的数据之间是否存在差异。

独立样本T检验:用于两组定量数据(函数)是否呈现差异性。

单因素xxx分析:用于多组定量数据(函数)是否呈现差异性。

双因素xxx分析:用于分析两个因素的不同水平是否对结果有显著影响,以及两因素之间的交互效应。

三因素xxx分析:用于分析三个因素的不同水平是否对结果有显著影响,以及三因素之间的交互效应。

非参数检验是一种不依赖于总体分布假设的统计方法,用于处理非正态分布的数据和分类变量。

常用的非参数检验方法包括:

Wilcoxon秩和检验:用于比较两个样本中位数之间的显著性差异,适用于小样本的非正态分布数据。

Kruskal-Wallis检验:用于比较三个或多个独立样本之间的中位数差异,适用于小样本的非正态分布数据。

Mann-Whitney U检验:用于比较两个独立样本之间的中位数差异,适用于小样本的非正态分布数据。

Friedman检验:用于比较三个或多个相关样本之间的中位数差异,适用于小样本的非正态分布数据。

McNemar检验:用于比较两个相关样本之间的分类变量的比例差异,适用于二项分布数据。

卡方检验:用于比较两个或多个分类变量之间的关联性和显著性差异,适用于计数数据或频率数据。