应用统计和统计学有什么区别？

统计学以学习研究理论基础为主，注重理论推导和证明；

应用统计以实际应用为主，根据具体问题选择相关的统计检验方法来分析解决问题。

描述性统计？

数据的频数分析：检验异常值

集中趋势分析：反映数据的一般水平。常见的指标有平均值、中位数和众数

离散程度分析：常用指标：方差/标准差

分布：峰度和偏度

描绘统计图形

检验分布的各种方法？

正态分布、其他分布

参数与方法&非参的方法

正态：

图形：P-P图，Q-Q图，直方图

P-P图：测试样本数据的累计频率作为横坐标，

按照正态分布计算的相应累计频率作为纵坐标，如果数据正态，数据的累积比例与正态分布累积比例基本保持一致，散点图近似对角直线。

去势P-P图：按正态分布计算的理论值和实际值之差的分布情况。

如果数据服从某项分布，则数据点应较均匀地分布在Y=0这条直线上下。

Q-Q图：测试样本数据的分位数与已知分布相比较，样本分位数为横坐标。

如果数据正态，那么其假定的正态分位数会与实际数据基本一致，散点图近似对角直线。

直方图：是否符合钟形曲线

统计检验：

峰度（Kurtosis）：样本的标准四阶中心距，K=1/(n-1) ∑(x_i-x_bar)^4/ sd^3-3

K=0与标准正态分布相同；K<0 平坦，平峰； K>0 陡峭，尖峰

偏度（Skewness）：样本的标准三阶中心距，S=1/(n-1) ∑(x_i-x_bar)^3/ sd^3

S=0 与标准正态分布相同；S<0 左偏，负偏态； S>0 右偏，正偏态

注意左偏不表示均值的左偏，而是左边尾部较长，中位数>平均数，右偏相反。

K-S检验（Kolmogorov-Smirnov检验）：基于经验分布函数， \(D=max|F_n(x)-F_0(x)|，F_n(x)\) 表示样本的累积概率函数，F_0(x)表示分布的分布函数，越小越接近正态分布。大样本。

Lilliefor正态性检验：K-S检验的修正，参数未知时，由均值和方差去计算检验统计量。

W检验（Shapiro-Wilktest检验）：顺序统计量W检验正态性，基于相关性的算法，越接近1和正态分布拟合得越好。样本量小于50。

卡方拟合优度检验：基于期望频数与样本频数是否有显著差异，检验统计量服从自由度为(s-r-1)的卡方分布，s为类别数，r为参数个数，越小越好。样本量大于50。

方法之间的比较：

图示法直观简单，只是正态性检验的补充；

K-S检验只能检验一个样本来自于一个已知总体，Lilliefor检验可以检验是否来自未知总体；

W检验和Lilliefor检验都进行了大小排序，易受到异常值的影响；

W检验只适用于小样本，其他方法的检验功效随样本容量增大而增大；

卡方拟合优度检验同K-S检验相比，前者可用于连续/离散总体，而后者只适用于连续和定量数据；

卡方拟合优度检验的结果依赖于分组，其他方法与区间划分无关；

峰度和偏度易受异常值的影响；

补充：

齐一性检验（两个样本分布是否相同）：游程检验、秩和检验、符号检验等等

齐性检验（方差是否相同）：Bartlett球形检验、Levene检验

假设检验？

基本思想：

先提出检验假设，再用适当的统计方法，利用小概率原理，确定假设是否成立。即为了检验一个假设H0是否正确，首先假定该假设H0正确，然后根据抽样样本计算统计量，依据统计量的大小做出接受或拒绝原假设H0的决策。

原理：如果样本观察值导致了“小概率事件”发生，就应拒绝假设H0，否则应接受假设H0

步骤：提出原假设与备择假设，设定显著性水平；选择统计方法（统计量）并根据样本计算大小；根据统计量的大小及分布确定结果。

p-value与显著性水平α？

p-value是原假设H0成立的情况下，样本情况发生的概率；

α是原假设H0正确时被拒绝的概率（第一类错误）；把概率划分为拒绝区间和接受区间；

区别：

显著性水平在统计检验之前决定，通常取0.05或0.01；

P-value由样本计算得出，值的大小含义为样本间的差异由抽样误差导致的概率；

通过比较p-value与显著性水平α可以确定是否拒绝原假设，试验中一般只给出p-value，显著性水平可以由读者自行决定。

小概率事件：一个事件的发生概率很小，那么它在一次试验中是几乎不可能发生的，但在多次重复试验中是必然发生。

小概率反证：小概率事件是很难发生的，但是，如果在一次抽样试验中发生了，说明这件事违反常理，进一步，说明假设不成立。

两类错误？

第一类错误：H0正确，但拒绝，弃真；第二类错误：H0错误，但接受，纳伪。

补充：

真阳性—预测为正，实际为正；假阳性—预测为正，实际为负；

假阴性—预测为负，实际为正；真阴性—预测为负，实际为负；

补充：

灵敏度=真阳性/（真阳+假阴）*100%，正确判断病人的概率；

特异度=真阴性/（真阴+假阳）*100%，正确判断非病人的概率。

常用的7种回归模型？

线性回归、逻辑回归（logistic）、多项式回归、逐步回归、岭回归（Ridge）、Lasso回归、弹性回归（ElasticNet）

不同回归的区别及运用？

三个度量来分别：自变量的数量、因变量的类型、回归线的形状

1. 线性回归（linear regression）

因变量连续，自变量连续或离散

通过最小二乘法（Least Square Method）解决。最小化每个数据点与预测直线的垂直误差的平方和来计算误差平方和。

可以用R-square来评估模型的性能，反映了回归方程能够解释的方差占总方差的百分比。

R-square：拟合优度，由于SST=SSE（残差平方和）+SSR（回归平方和）。

R-square=SSR/SST=1-SSE/SST

Adjust R-square=1-(SSE/n-p-1) / (SST/n-1)

由于增加变量个数一定会增加R-square，调整的R-square能对添加的非显著变量给出惩罚；

建模简单快速，对于异常值敏感；回归的本质是线性的。

2. Logistic回归

因变量为二进制时，应该使用logistic回归。这时Y的取值范围为[0,1]（回顾分布函数和密度函数）

广泛用于分类问题；不要求是线性关系；

如果是三种及以上的顺序变量使用顺序logistic回归；（用到优势比）

如果是三种及以上的无序变量使用名义logistic回归；

3. 多项式回归（Polynomial Regression）

高次项拟合；适合处理非线性可分离数据；容易发生过拟合

4. 逐步回归（Stepwise Regression）

多个独立变量（注意独立）；基于R-square、t-test、AIC/BIC指标来判断增加/删除变量；前向选择增加最大显著，反向消除移除最小显著。降维。

5. 岭回归（Ridge Regression）

处理多重共线性（设计矩阵X导致R=X’X接近奇异阵，小的特征值接近于0）

（在多重共线性中，即使OLS无偏差，但是方差很大）

补充检验多重共线性的方法：

特征根分析， R矩阵的条件数， k=lambda_1/lambda_p （100~1000为中等程度，>1000为严重）

思想：R增加一个正常数矩阵扰动减少奇异程度，beta_hat(k)=(X’X+kI)^(-1)X’y为岭参数；

Beta_hat(k)是有偏估计(k≠0)；可以看成是bate_hat向原点进行的压缩（k→∞，→0）；

岭迹法选择k值：各回归系数的岭估计基本稳定；符号合理；残差平方和增加不多；

argmin ||y-Xbeta||^2+lambda||beta||^2

二范数的惩罚项；

除正态性假设，同OLS一样的假设；只缩小了系数的值，没有达到0，因此没有选择变量的作用；

6. 套索回归（Lasso Regression）

argmin ||y-Xbeta||^2+lambda||beta||

一范数的惩罚项；

能够减少变异性和提高回归模型的准确性；

能使得一些回归系数恰好为0；

惩罚越大，估计越接近于0，因此具有选择变量的作用；

beta_hat_(lasso)j=sign(beta_hat_j)(|beta_hat_j|-gamma)+, sign为符号函数，gamma由约束条件决定；

没有解析解

比对最优子集、岭回归、lasso：最优子集选择OLS中系数绝对值打的M个系数，岭回归将OLS的系数按照一定比例收缩；lasso在通过一个常数因子变换每个系数并在0上截断，收缩系数的同时还做了子集选择；

7. 弹性回归（ElasticNet Regression）

argmin ||y-Xbeta||^2+lambda_1||beta||^2+lambda_2||beta||

同时使用L2和L1正则化；

允许在旋转下继承岭回归的一些稳定性；

在高度相关变量的情况下支持群体效应，而不是像lasso一样归0；所选变量没有限制；

Cp, AIC, BIC?

Cp=1/n(RSS+2k*sigma_hat^2)

AIC=-2logL+2k

BIC=-2logL+k*ln(n)

n: numbers of observations; k is the total numbers of parameters; L is the maximized value of likelihood function;

AIC/BIC越小的模型越好；对于Gauss线性模型，Cp与AIC等效；

Bayes模型？

全概率公式&Bayes公式复习：

P(B)=P(B|A1)P(A1) + P(B|A2)P(A2) + … + P(B|An)P(An)

P(A_i|B)=P(B|A_i)*P(AI)/P(B)，P(B)展开

条件：完备事件组；互不相容；

公式：条件概率公式推导

P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B) → P(A|B)=P(B|A)*P(A)/P(B)

后验概率 = (似然度 * 先验概率)/标准化常量

三元：

P(A|B,C)=P(B|A)*P(A)*P(C|A,B)/(P(B)*P(C|B))

各种相关系数？

相关系数、复相关系数、偏相关系数、典型相关系数

相关系数/简单相关系数/线性相关系数/Pearson Correlation Coefficient：

r(x,y)=cov(x,y)/sqrt(var_x*var_y)=∑(x-x_bar)(y-y_bar) / sqrt(∑((x_i-x_bar)^2)sqrt(∑((y_i-y_bar)^2)

表征两个变量x和y之间线性关系的紧密程度，若不相关，通常认为不存在线性关系，但是不能排除存在其他可能的关系，值域[-1,1]。

几何解释：（中心化后）两向量之间夹角的余弦函数

决定系数/可决系数/复决定系数

相关系数的平方；决定系数越大，表示自变量对因变量的解释程度越高（就是R方）

复相关系数/多重相关系数：

表征因变量与多个自变量之间的相关关系，相当于对多个变量进行线性组合后，在按照简单相关系数计算得到（就是R），取值范围[0,1]

R=∑(y-y_bar)(y_hat-y_bar) / sqrt(∑((y-y_bar)^2)sqrt(∑((y_hat-y_bar)^2)

偏相关系数/部分相关系数：

反应固定其他变量后某一变量与另一个变量的相关系数；

已有一部分变量后，加入一个新的变量，剩余偏差的相对减少量为偏决定系数，算术平方根即为偏相关系数。

典型相关系数（canonical correlation coefficient）：

主成分分析后，得到新的综合指标，在利用综合指标之间的相关系数研究；

同一对典型相关变量之间的相关系数即为典型相关系数，不同对的典型相关变量之间互不相关；

1≥CanR1≥CanR2≥…≥0

聚类方法？

分为层次聚类和非层次聚类；

K-means，非层次聚类，无监督学习方法：

初始化，随机选取k个点作为质心；
计算每个样本与各聚类中心的距离，分配给距离最近的聚类中心；
根据已有的分类更新计算新的质心；
如果重新计算的质心位置变化不大/小于阈值/收敛，则达到聚类效果，算法终止；否则，重复迭代2-4步。

K值需要事先给定；可以根据各K值下的SSE选择最小SSE的K值；

数学证明K-means一定会收敛；最好标准化（目的：单位一致）；

距离选择有多种方式，例如欧氏距离，余弦相似度，曼哈顿距离，闵可夫斯基距离等；

聚类之前应该去除离群值，但是离群值也可能带有分析价值，可以单独作为一类来分析；

局限：由于采用欧式距离，对于非均质数据效果欠佳；如果不同类别内部的方差不相同，可能也不适用（模型假设不同类别的内部方差大致相等）

K-means对初始点的选取很敏感，这种敏感可能收敛到局部最优，新的改进方法：

K-means++：初始的聚类中心之间的相互距离要尽可能地远。首先随机选取一个点作为第一个聚类中心，然后对数据集的每一个点计算与已选择的最近聚类中心的距离；选择一个新的数据点作为新的聚类中心，选择的依据是距离较大的点，被选为聚类中心的概率越大。重复上述步骤直到选出k个聚类中心；利用这k个指点作为初始化质点执行标准的k-means算法。

二分K-means：使用SSE作为指标。将所有点作为一个簇，然后将簇一分为二；然后选择其中一个簇继续划分，选择的依据取决于对其划分是否可以最大程度降低SSE；直到得到指定的簇数目。优点有加速算法执行速度（相似度计算少了），不受初始化影响（因为不存在随机点的选取，每一步都保证了误差最小）。但是并不能保证一定聚类到全局最小。

Elkan K-means：距离计算优化，减少不必要的距离计算。如果提前计算出质心之间的距离，则可以利用两边之和大于第三边减少计算：已知x和k_1、k_2，预先计算出D(k_1,k_2)，如果计算发现2D(x,k_1)≤D(k_1,k_2)，这个时候不必在计算D(x,k_2)，直接知道D(x,k_1)≤D(x,k_2)。优点有迭代速度提高，但如果样本的特征稀疏/有缺失值，有些距离无法计算从而不适用。

KNN：K-Means是无监督学习的聚类算法，没有样本输出；而KNN是监督学习的分类算法，有对应的类别输出。KNN基本不需要训练，对测试集里面的点，只需要找到在训练集中最近的k个点，用这最近的k个点的类别来决定测试点的类别。而K-Means则有明显的训练过程，找到k个类别的最佳质心，从而决定样本的簇类别。两者也有一些相似点，两个算法都包含一个过程，即找出和某一个点最近的点。两者都利用了最近邻(nearest neighbors)的思想。（有空可以去补优先队列）优点有易于实现，无需估计参数，特别适合多分类问题，比SVM表现的更好。缺点是样本不平衡是可能导致新输入样本时K个邻居中大容量类的样本占大多数。以及，计算量较大，对于每一个待分类的样本都要计算到全体已知样本的距离才能得到K个最近邻点。（可理解性差，无法给出决策树那样的规划）

层次聚类：

每个样本都视作一类；
计算所有类之间两两的类间距离（类间距离包括：最近、最远、重心等），然后距离最近的两个类进行合并，组成一个新的类；
重复上一操作，直到达到特定的迭代条件（例如90%的类都得到了合并；最小的类间距离大于预先设定的阈值等），算法结束。
（接下来是一些衍生，要么不看，要么记清楚）

Canopy算法：Canopy Clustering 与Hadoop配合，为k-means算法等服务，能有效降低计算点之间距离的复杂度。

给定样本列表List以及阈值T1，T2；
从列表L获取一个节点P，计算P到所有聚簇中心点的距离（如果不存在聚类中心，此时点P成为新的聚簇），并选择最小距离D
如果D小于T1，表示该节点属于该聚簇，添加到该聚簇列表中；
如果D小于D2，表示该节点不仅属于该聚簇，还和当前聚簇中心点非常接近，所以将该聚簇的中心点更新为该簇中所有样本的中心点，并将P从列表L中删除；
如果D大于T1，那么该节点形成一个新的聚簇；
直到列表L中的元素数据不再有变化或者元素数量为0，结束循环。

Canopy算大得到的最终结果聚簇之间可能存在重叠，但是不会存在某个对象不属于任何聚簇的情况；

Mini batch k-means算法：

Mini batch（分批处理）的好处是计算过程中不必使用所有的样本数据，而是从不同类别的样本中抽取一部分来代表各类进行计算。由于计算样本量少，所有会相应减少运行时间，但另一方面也会打带来准确度的下降，适用于存在巨大的数据集合的情况下。过程与K-means聚类类似。

抽取部分数据集适用k-means；继续抽取部分数据集，分配给距离最近的聚簇中心点；更新聚簇的中心点值。

聚类算法评估：均一性/完整性（一个簇只包含一个类别样本，也可以认为正确率，即每个簇中正确分类占该簇总样本的比例）、兰德系数（Rand index）（给定实际类别信息，取值范围[0,1]，有调整兰德系数，具有更高的区分度，取值范围为[-1,1]，值越大意味着聚类结果与真实情况越吻合）、轮廓系数（Silhouette Coefficient）（适用于实际类别信息未知，计算簇内不相似度和簇间不相似度，s值越接近1表明分类越合理，越接近-1表示应该分类到其他簇中，近似为0表示在边界上）

EM算法？

基于极大似然估计理论的迭代算法，用于对包含隐变量或缺失数据的概率模型进行参数估计。

随机初始化初值；

E-step：利用对隐变量的现有估计值，计算联合分布的条件概率期望；

M-step：最大化在E步上求得的最大似然值，更新参数估计，迭代，直到估计差小于阈值。

EM算法保证收敛，但不一定是全局的极大值，因此局部最优；对初始值敏感；

TBC.

Files

statistic.org

Latest commit

History