它是为获得统计测试一年级而安排的备忘单。
我参考了下面的统计测试实践练习册(作者基本上反复学习了这本书并通过了预科一年级(并获得了优秀成绩奖))。
这份备忘单主要从作者的角度描述了要记住的公式以及在参加考试时被认为是要点的要点。
* 这是作者所属的 NPO 法人的研究备忘录。由于这不是我擅长的领域,可能会有错误或误解,所以如果有任何需要纠正的地方,请告诉我。我们会继续刷。
概率、各种概率分布、区间估计、检验
有关各种概率分布的信息,请参阅以下文章。
有关部分估计和测试的基础知识,请参阅下面的文章以了解 2 级考试。
测试中的点
- 彻底复习二年级统计测试中的概率、区间估计和测试
- 了解从一年级前得出的概率分布(伽马分布、贝塔分布等)的公式、均值、方差和模式
- 组织每个概率分布是否具有再现性或无记忆性
概率、各种概率分布、区间估计和其他主要的测试公式
变量转换
Box-Cox 变换
使数据分布更接近正态分布。
\begin{align}
&\hspace{150mm} \\
&\left\{
\begin{array}{ll}
\frac{x^\lambda - 1}{\lambda} \hspace{20mm} (\lambda\neq{0}) \\
logx \hspace{20mm} (\lambda={0})
\end{array}
\right.
\end{align}
极限定理,渐近理论
增量法
\begin{align}
&\sqrt{n}(f(\bar{X}_n) - f(\mu)) は、\hspace{2mm} N(0, f'(\mu)^2\sigma^2) \hspace{2mm}に分布収束する \hspace{75mm}\\
\hspace{2mm}\\
&\mathrm{ex.} \\
&\sqrt{n}(\bar{X}_n^3 - \mu^3) は、 \hspace{2mm}N(0, 9\mu^4\sigma^2) \hspace{2mm} に分布収束する
\end{align}
统计估计
折刀估计器
\begin{align}
&\hat{θ}_{jack} = n\hat{θ} - (n - 1)n\hat{θ}(・) \hspace{50mm}\\
&\hspace{2mm} \\
&ここで、\\
&\hat{θ}(・) = \frac{1}{n}\sum_{i=1}^{n}\hat{θ}(i)
\end{align}
测试基础和测试方法的推导
功率,所需样本数
- 功率计算
\begin{align}
&H_0 : \hspace{10mm} c = p_0 + 1.96_{(=z_{\alpha/2})} \sqrt{\frac{p_0×(1 - p_0)}{n}} = 0.xxxx \\
&H_1 : \hspace{10mm} Z_{h1} = \frac{\hat{p}(=0.xxxx) - p_1}{\sqrt{\frac{p_1×(1 - p_1)}{n}}} \\
&\Rightarrow \hspace{10mm} P(\hat{p} \geqq c) = 1 - P(Z_{h1}) 点の確率を求める
\end{align}
- 计算所需的样本数
\begin{align}
&p_0 + 1.96_{(=z_{\alpha/2})} \sqrt{\frac{p_0×(1 - p_0)}{n}} = p_1 - 0.84_{(=-z_{1-\beta})} \sqrt{\frac{p_1×(1 - p_1)}{n}} \\
&上記式をnについて解く
\end{align}
规模效应
效应大小对应多少标准差的值。
\begin{align}
&n = \frac{(Z_{α/2} + Z_{β})^2}{\Delta^2} \hspace{75mm} \\
&\hspace{10mm}\\
&ここで、\\
&\Delta(エフェクトサイズ): \biggl(\frac{\mu_1 - \mu_2}{\sigma} \biggr) ^2
\end{align}
测试中的点
- 能够计算所需的样本量
- 记住效果大小公式
功率 (1-β)、Z 的检验统计量1-β是以下公式
\begin{align} n &= \frac{(Z_{α/2} + Z_{β})^2}{\Delta^2} \\ \sqrt{n} \cdot {\Delta} &= Z_{α/2} + Z_{β} \\ Z_{1-β} \hspace{2mm} &=\hspace{2mm} - Z_β \\ &= Z_{α/2} \hspace{3mm}-\hspace{3mm} \sqrt{n} ・ \Delta \end{align}一般分布的试验方法
似然比检验
\begin{align} &\lambda_n = \frac{f_n(x_n:\theta_1, \theta_2)}{f_n(x_n:\theta_10, \theta_2)} &\hspace{2mm}\\ &2n\biggl(\hat{\theta}log\frac{\hat{\theta}}{\theta_0} + (1 - \hat{\theta}) &log\frac{1 - \hat{\theta}}{1 - \theta_0}\biggr) \hspace{5mm}\geqq\hspace{5mm} \chi_α^2(1) \end{align}耶茨修正
在拟合优度检验中频率不够大时使用。
(\hspace{1mm}|\hspace{1mm}x_i - n\hat{p_i} \hspace{1mm}| \hspace{2mm}-\hspace{2mm}0.5\hspace{1mm})^2 \hspace{50mm}多元分析、各种应用等
非参数法
例如,一种在不假设总体分布是正态的情况下检验假设的方法。
测试内容 测试名称 两组间差异检验 Wilcoxon 秩和检验、置换检验 配对时测试差异 Wilcoxon 符号测试,符号测试 3组或更多组的差异检验 Kriskal-Wallis 检验 Wilcoxon秩和检验
对两组之间的差异进行测试。
\begin{align} &\hspace{20mm}\frac{P(W_A \leqq x)}{{}_nC_m} \\ &\hspace{2mm} \\ &ここで、\\ &W_Aは群Aの順位の和、nはサンプル数、mは群Aのサンプル数、xは検定する順位和 \end{align}
如果数据量很大,可以用正态分布来近似。\begin{align} &平均: \frac{m(m+n+1)}{2} \hspace{20mm}\\ &分散: \frac{mn(m+n+1)}{12} \end{align}Wilcoxon 符号秩检验
\begin{align} &\hspace{10mm}\frac{P(T_+ \geqq x)}{2^n} \\ &\hspace{2mm} \\ &ここで、\\ &T_+は、正値の合計値、nはサンプル数、xは検定する順位和 \hspace{30mm} \end{align}
如果数据量很大,可以用正态分布来近似。\begin{align} &平均: \frac{n(n+1)}{4} \hspace{20mm}\\ &分散: \frac{n(n+1)(2n+1)}{24} \end{align}Kruskal-Wallis 检验
测试两组或更多组的分布是否存在差异。
\begin{align} &H = \frac{12}{N(N+1)}(n_A(\bar{R_A} - \tilde{N})^2 + n_B(\bar{R_B} - \tilde{N})^2 + n_C(\bar{R_C} - \tilde{N})^2) \\ \hspace{2mm} \\ &ここで、 \\ &\tilde{N} = \frac{N+1}{2} = 順位の中央値、Nはサンプル数、n_Aは群Aのサンプル数、R_Aは群Aの順位和、\bar{R_A}は群Aの順位の平均 \\ &\hspace{1mm} \\ &検定は、自由度 n = (群の数-1) の \chi^2(n)で行う \end{align}Kendall 等级相关系数
r_k = \frac{P - N}{\frac{n(n - 1)}{2} \hspace{4mm}_{(={}_nC_2)} }测试提示
- 能够记住和计算每个测试的公式
- 在秩和检验和有符号秩和检验中即使N很大,也能顺利求解
马尔可夫链
马尔可夫静止的
\pi(Q -I ) = 0参数估计
对数后微分如下,得到微分值=0
- 步骤1
P_0(x_0)\hspace{2mm}\Pi\hspace{2mm}P_0(x_{j-1},x_j)
- Step2 对数化
ln(\theta) = \sum log P_0(x_{j-1},x_j)
- Step3 微分 = 0
\frac{\partial}{\partial\theta}l_n(\theta) \hspace{2mm}=\hspace{2mm} 0官方评论
- 对数微分
(logx)' = \frac{1}{x} \\ (log_aX)' = \frac{1}{xloga} \\
- 二次方程(ax2+ bx + c) 的解
x = \frac{-b\pm\sqrt{b^2-4ac}}{2a}测试中的点
- 获取状态空间和转移概率矩阵,以便计算参数θ
随机过程的基础
泊松过程
P(N_t = k) \hspace{4mm}=\hspace{4mm} e^{-λt} \frac{(λt)^k}{k!}复合泊松过程
X_t = \sum_{k=1}^{N_t}U_k\begin{align} &\mathrm{ex1.} \\ &E[N_t] \hspace{2mm}=\hspace{2mm} \lambda t, \hspace{2mm}E[U_k] \hspace{2mm}=\hspace{2mm} \mu \hspace{2mm}ならば\\ &E[X_t] \hspace{2mm}=\hspace{2mm} \lambda \mu t , \hspace{2mm}V[X_t] \hspace{2mm}=\hspace{2mm} \lambda t( \mu^2 + \sigma^2) &\hspace{2mm}\\ &\hspace{2mm}\\ &\mathrm{ex2.} \\ &E[N_t] = ベルヌーイ ならば\\ &E[X_1] \hspace{2mm}=\hspace{2mm} \lambda q , \hspace{2mm}V[X_1] \hspace{2mm}=\hspace{2mm} \lambda q \end{align}布朗运动的参数估计
\begin{align} &\frac{1}{n}\sum_{k=1}^{n} Z_k = \hat{\mu} \Delta \\ &\frac{1}{n}\sum_{k=1}^{n} Z_k^2 = \hat{\sigma}^2 \Delta + (\hat{\mu} \sigma)^2 \end{align}多元回归分析
最小二乘估计器
\hat{\beta} \hspace{2mm}=\hspace{2mm} (X^T X)^{-1} X^T Y弹性网
\lambda(\alpha\parallel\beta\parallel_1 + \frac{(1 - \alpha)}{2}a\parallel\beta\parallel_2^2)测试提示
- 在更改 α 和 β 值时抑制 Elastic-Net 图的趋势
回归诊断
它通过使用以下误差项假设是否成立来评估回归模型是否合适。
- 残差图(异常值、同方差性、独立性)
- 正常的 Q-Q 图(正则性)
- 绝对标准化残差的平方根图(预测值残差,齐次方差)
- 杠杆和烹饪距离
杠杆是第 i 个对角元素 h好的指向值大的观测值被判断为对模型影响大,成为异常值的候选。库克距离大于 0.5 是离群值的候选者。帽子线
\begin{align} &H \hspace{2mm}=\hspace{2mm} X(X^T X)^{-1} X^T = (h_{ij}) \\ &\hspace{2mm}\\ &ここで、\\ &重回帰の最小二乗推定量 \hat{\beta} = (X^T X)^{-1} X^T y \hspace{30mm}\\ &予測値 \hat{y} = H\hspace{1mm}y = X \hat{\beta} \\ \end{align}测试中的点
- 了解如何阅读每种回归诊断方法的图表(纵轴、横轴项目)
- 记住帽子矩阵的公式
定性回归
响应为“离散”时的回归模型。
逻辑回归
二元响应的统计模型。让期望值 π = E[Y] 并假设 0
\begin{align} &log\frac{\pi}{1 - \pi} = \beta_0 + \beta_1x_1 + \cdots + \beta_p x_p \\ &\beta_nは回帰係数、x_nは説明変数 \\ &\hspace{2mm} \\ &\pi \mapsto \frac{e^x}{1 + e^x} \\ &\hspace{2mm} \\ &\frac{\pi}{1 - \pi} = e^{\beta_0} \cdot (e^{\beta_1})^{x_1} \cdots (e^{\beta_p})^{x_p} \\ &説明変数x_nが2増えると、(e^{\beta_n})^2 増える \end{align}概率模型
使用标准正态累积分布函数的二元响应统计模型。
\begin{align} &\pi = \Phi(\beta_0 + \beta_1x_1 + \cdots + \beta_p x_p) &\hspace{1mm} \\ &限界効果(説明変数x_nの効果の大きさ) \\ &\hspace{1mm} \\ &\frac{\partial\pi}{\partial x_n} = \phi(\beta_0 + \beta_1x_1 + \cdots + \beta_{n-1} x_{n-1} + \beta_{n+1} x_{n+1} + \cdots + \beta_{p} x_p)\beta_n \end{align}泊松回归模型
响应为计数时的统计模型。设计数的随机变量 Y 的期望值为 π = E[Y], π > 0,并假设 Y 服从均值为 π 的泊松分布。
log\hspace{1mm}\pi = \beta_0 + \beta_1x_1 + \cdots + \beta_p x_p测试中的点
- 通过抑制每个模型的公式和参数的含义,可以计算估计值、赔率等
方差分析和实验设计
1路排列
\begin{align} &y_{ij} = \mu + \alpha_i + \epsilon_{ij}, \hspace{5mm}\epsilon_{ij} \sim N(0, \sigma^2) \\ &\hspace{2mm} \\ &ここで、 \\ &\mu = \sum_{i=1}^{a} \mu(A_i) /a , 水準間の平均 \\ &\alpha_i = \mu(A_i) - \mu \\ &\hspace{2mm} \\ &H_0 = \alpha_1 = \cdots \alpha_a = 0 \end{align}y_{A_i} \pm t_{\alpha/2}(\phi_E) \sqrt{\frac{V_E}{n_{ai}}}
- 自由度
S_T = n - 1 \hspace{2mm},\hspace{2mm} S_A = a - 1 \hspace{2mm},\hspace{2mm} S_E = n - a2路排列
- 自由度
S_T = n - 1 , S_A = a - 1 , S_B = b - 1, S_{A\times B} = (a - 1)(b - 1) ,S_E = n - ab随机区组法
引入阻断因子,使其他因子的影响更易察觉。
- 自由度
S_T = n - 1 \hspace{2mm},\hspace{2mm} S_A = a - 1 \hspace{2mm},\hspace{2mm} S_B = b - 1 \hspace{2mm},\hspace{2mm} S_E = n - a - b + 1正交表
- 每个级别的自由度为
1- 误差平方和 S图片是未分配列的平方和的总和
- 置信区间
\begin{align} &\bar{y_A} \pm t_{\alpha/2} (\phi_E) \hspace{1mm} \frac{2V_E}{N} \\ &N\hspace{2mm}=\hspace{2mm} 実験回数 \end{align}测试中的点
- 确保可以可靠地计算和测试方差分析和正交表
抽样方法
- 有限修改(非替换提取)
V[x] \hspace{2mm}=\hspace{2mm} \frac{N - n}{N - 1} \cdot \frac{1}{n} \sigma^2
- 使方差小于或等于 c 的样本数 n
n \hspace{2mm}\geqq\hspace{2mm} \frac{N \sigma^2}{\sigma^2 + c(N -1)}
- 内曼分配方法
n_h = \frac{N_h \cdot \sigma_h \cdot \sqrt\frac{N_h}{N_h - 1}}{\sum N_h \cdot \sigma_h \cdot \sqrt{\frac{N_h}{N_h - 1}}} \cdot n主成分分析 (PCA)
一种将多元信息聚合成少量合成变量的方法,称为主成分。另一方面,因子分析是一种发现多个数据背后的潜在元素(因子)的分析方法(当对同一数据进行主成分分析和因子分析时,主成分和公因子的值非常相似)。将具有相同的值).
- 贡献率
寄与率\hspace{2mm} c_j = \frac{\lambda_i}{(\lambda_1 + \cdots + \lambda_p)}
- 主成分加载
\begin{align} &r_{y_j,x_k} = \frac{ \sqrt{\lambda_j} \cdot u_{k,j}}{\sqrt{s_{k,k}}} \hspace{80mm}\\ &\lambda_j : 固有値 \\ &u_{k,j} : 固有ベクトル \\ &s_{k,k} : 分散共分散行列での(k,k)要素=k項目の分散 \end{align}
- 主成分分数
\begin{align} &\{y_{i,j} \hspace{2mm} = <\vec{x_i}, \vec{u_j}> | \hspace{2mm}i = 1, \dots ,n, j= 1, \dots ,p\} \hspace{50mm}\\ &\hspace{2mm}\\ &ここで、\\ &<\vec{x_i}, \vec{u_j}> は内積、 u_jは第\mathrm{j}主成分の固有ベクトル\\ \end{align}【补充】如何获得矩阵对角化(特征值和特征向量)
基本上矩阵是可对角化的,并且有特征值和特征向量。A = \begin{pmatrix} 3 & 1 \\ 2 & 2 \end{pmatrix} \\ det(A - \lambda I) = 0 となる固有値 \lambdaを求める。 \hspace{2mm} ここで I は単位行列。 \\ \\ A - \lambda I = \begin{pmatrix} 3 - \lambda & 1 \\ 2 & 2 - \lambda \end{pmatrix} = 0 \\ (3 - \lambda)(2 - \lambda) - 1 \times 2 = 0 \\ \lambda^2 -5\lambda + 4 = 0 \\ \therefore 固有値\hspace{2mm} \lambda = 1 , 4 \\ \hspace{2mm} \\ ・\lambda = 1 のときの固有ベクトル \vec{x} \\ \begin{pmatrix} 2 & 1 \\ 2 & 1 \end{pmatrix} \vec{x} = 0 \\ \therefore \vec{x} = \begin{pmatrix} 1 \\ -2 \end{pmatrix} \\ \hspace{2mm} \\ ・\lambda = 4 のときの固有ベクトル \vec{x} \\ \begin{pmatrix} -1 & 1 \\ 2 & -2 \end{pmatrix} \vec{x} = 0 \\ \therefore \vec{x} = \begin{pmatrix} 1 \\ 1 \end{pmatrix} \\ まとめると、 \\ A = \begin{pmatrix} 3 & 1 \\ 2 & 2 \end{pmatrix} = \begin{pmatrix} 1 & 1 \\ -2 & 1 \end{pmatrix} \begin{pmatrix} 1 & 0 \\ 0 & 4 \end{pmatrix} \begin{pmatrix} 1 & 1 \\ -2 & 1 \end{pmatrix} ^{-1}测试中的点
- 确保计算贡献率和主成分载荷
判别分析
一种利用一般输入数据的特征值信息确定类标签的方法。
Fisher 判别分析
f(x) = \hat{w}^\mathrm{T} x \hspace{2mm}-\frac{1}{2} (\bar{x}^{(1)} - \bar{x}^{(2)})^\mathrm{T} \hspace{2mm}S^{-1}\hspace{2mm} (\bar{x}^{(1)} - \bar{x}^{(2)})\begin{align} &\hspace{1mm}ここで、\\ &\cdot (\bar{x}^{(1)} - \bar{x}^{(2)})^\mathrm{T} \hspace{2mm}S^{-1}\hspace{2mm} (\bar{x}^{(1)} - \bar{x}^{(2)})は、マハラノビス平方XXXX \\ &\cdot S = \frac{1}{n_1 + n_2 - 2}( (n_1 - 1)S_1 + (n_2 - 1)S_2) \\ &\cdot S_jは群G_jに含まれるサンプルの標本分散共分散行列 \\ &\cdot f(x) が正ならばG_1に、負ならばG_2に分類する \end{align}二次判别分析
\begin{align} g(x) \hspace{2mm}&=\hspace{2mm} D_2^2 \hspace{2mm}-\hspace{2mm} D_1^2 \\ &= (x - \bar{x}^{(2)})^\mathrm{T} \hspace{2mm}S_2^{-1}\hspace{2mm} (x - \bar{x}^{(2)}) \hspace{2mm}-\hspace{2mm} (x - \bar{x}^{(1)})^\mathrm{T} \hspace{2mm}S_1^{-1}\hspace{2mm} (x - \bar{x}^{(1)}) \end{align}典型判别分析
- 存在两个或多个组时的歧视
- 求各组均值(质心)与每个样本x的平方马氏距离,将样本x归入距离最小的组
支持向量机
- 内核函数
\begin{align} &\cdot 線形カーネル : x_i^\mathrm{T} x_j \hspace{130mm}\\ &\cdot 多項式カーネル : (c_1x_i^\mathrm{T} x_j + c_0)^d \\ &\cdot ガウシアンカーネル : exp(-\sigma \parallel x_i - x_j \parallel_2^{\hspace{2mm}2}) \end{align}混淆矩阵
\begin{align} &\cdot正解率 : &\frac{TP + TN }{TP + TN + FP + FN}\\ &\cdot適合率 : &\frac{TP}{TP + FP} \\ &\cdot再現率(真陽性) : &\frac{TP}{TP + FN} \\ &\cdot真陰性率 : &\frac{TN}{TN + FP} \\ &\cdot偽陽性率 : &1 - 真陰性率 \end{align}测试中的点
- 让逻辑做简单的SVM分类
- 记住混淆矩阵公式(注意多个名称的术语)
集群分布
在新数据没有给出类标签信息的情况下,使用模型根据特征的相似性和距离将数据分为几组的方法)。
闵可夫斯基距离
\sum_{i = 1}^{p} (\hspace{1mm}|x_i - y_i|^m\hspace{1mm}) ^{1/m} \hspace{100mm}马氏距离
\sqrt{(x - y)^\mathrm{T} \sum_{\hspace{1mm}}^{\hspace{1mm}}\hspace{0.5mm}^{-1} (x - y)} \hspace{100mm} \\ ここで、\sum : 分散共分散行列 \hspace{100mm}分层方法
- 最近邻法
比较样本和“集群内最近的距离”并将最接近的距离分组。min d(x, y)
- 远邻法
比较样本和“簇内最远的距离”并将最接近的距离分组。max d(x, y)
- 质心法
\bar{x} = \frac{1}{|c_1|} \sum{x}, \bar{y} = \frac{1}{|c_2|} \sum{y}
- 组平均法
\frac{1}{|c_1||c_2|} \sum \sum{d(x, y)}
- 沃德法
\sum{d(z, \bar{z})^2} - \sum{d(x, \bar{x})^2} - \sum{d(y, \bar{y})^2}测试中的点
- 确保使用最近和最远的邻居进行聚类
- 能够解释k-means的算法
因子分析
一因素模型
\begin{align} &x_{ij} = a_j f_i + d_j u_{ij} \hspace{110mm} \\ &ここで、 \\ &a:因子負荷量, f:因子スコア, d_j:独自係数 \end{align}
\begin{align} &V[x_{ij}] = a_j^2 + d_j^2 = 1 \hspace{100mm}\\ &ここで、\\ &a_j^2:共通性、 d_j^2: 独自性 \end{align}测试中的点
- 能够计算因子载荷、共性和唯一性
- 可以绘制模型图(连接父变量)
其他多元分析技术
双居中
每行和每列的总和变为零。
B = -\frac{1}{2} (I_n - \frac{1}{n} J_n) \hspace{1mm}D\hspace{1mm} (I_n - \frac{1}{n} J_n) \\\begin{align} &ここで、\hspace{100mm}\\ &D(距離行列) = \left( \begin{array}{ccccc} 0 & d_{12}^2 & \cdots & d_{1n}^2\\ d_{21}^2 & 0 & & d_{2n}^2 \\ \vdots & & \ddots & \\ d_{n1}^2 & \cdots & \cdots & 0 \end{array} \right) \end{align}量化方法
处理定性和分类数据
- 量化类型 I:多元回归分析
- 量化类型 II:判别分析
- 量化类型 III:主成分分析
时间序列分析
自回归过程 (AR)
\begin{align} &AR(1) : Y_t = \phi_1 Y_{t-1} + U_t + c \\ &\hspace{1mm} \\ &E[Y_t] = \mu \\ &\mu = \frac{c}{1 - \phi_1} \\ &共分散 r_h = \phi_1^h \frac{\sigma^2}{1 - \phi_1^2} \end{align}移动平均假设 (MA)
MA(1) : Y_t = \mu + U_t + \theta_1 U_{t-1}
- MA(1) 的协方差
r_h = \left\{ \begin{array}{ll} (1 + \theta_1^2)\sigma^2 & (h = 0) \\ \theta_1 \sigma^2 & (h = 1) \\ 0 & (x \gt 0) \end{array} \right.
- MA(2) 的协方差
r_h = \left\{ \begin{array}{ll} (1 + \theta_1^2 + \theta_2^2)\sigma^2 & (h = 0) \\ (\theta_1 + \theta_1 \theta_2)\sigma^2 & (h = 1) \\ \theta_2 \sigma^2 & (h = 2) \\ 0 & (x \gt 0) \end{array} \right.型号和顺序的确定
自协方差 部分自协方差 选择型号 二次后零 缓慢衰减 硕士(1) 三阶后为零 缓慢衰减 硕士(2) 缓慢衰减 二次后零 增强现实(1) 缓慢衰减 三阶后为零 增强现实(2) 缓慢衰减 缓慢衰减 武装部队(1, 1) 光谱
f(x) = \frac{1}{2\pi} \sum_{h=-\infty}^{\infty} r_h e^{-i\lambda h}周期图
f(x) = \frac{1}{2\pi} \sum_{h=T + 1}^{T - 1} r_h e^{-i\lambda h}Durbin-Watson 测试(DW 测试)
DW取0到4之间的值。一般情况下,接近2时,不存在自相关,接近0时,判断存在正自相关,接近4时,判断为自相关。判断为负相关。
\begin{align} &DW \hspace{2mm}=\hspace{2mm} 2(\hspace{2mm}1 - \hat{\gamma_1} \hspace{2mm}) \hspace{100mm}\\ &\hspace{2mm}\\ &ここで、\\ &{\gamma_1}は1次の自己相関係数の推定量 \\ \end{align}测试中的点
- 确保使用最近邻居和最远邻居进行聚类
- 记住k-means算法
- 使测试 DW (γ1(注意使用
列联表
列联表是通过对多个“定性变量”的多元数据中的变量值的每个组合的“频率”进行聚合得到的表格,并使用列联表进行分析。
偏差
G^2 = 2 log \Lambda = 2 \times \sum 測定値 log \frac{測定値}{期待度数}费雪精确检验
max (0, x_{1 .} + x_{. 1} - x_{..} ) \leqq x_{11} \leqq min (x_{1 .}, x_{. 1}) \\ P(X_{11} = x_{11}) = \frac{x_{1.}! x_{2.}! x_{.1}! x_{.2}!}{x_{..}!} \cdot \frac{1}{x_{11}! x_{12}! x_{21}! x_{22}!} \hspace{3mm},\hspace{3mm} x_{11},x_{12},x_{21},x_{22} \hspace{1mm}\geqq\hspace{1mm} 0测试中的点
- 允许为 AR 和 MA 选择功能和模型
- 允许 DW 测试 (γ1(注意使用
不完整数据的统计处理
- CC(完整案例)分析
仅使用观察到所有变量的个体进行分析- AC(可用案例)分析
使用所有可用于相关变量的数据(通过插补方法 n 替换缺失部分)
缺陷机制 补充法 平均 标准差 相关系数 三月 平均插补 低估无法改善 进一步低估 不合适 同上 回归插补 低估得到改善 低估仍然存在 被高估 MCAR 平均插补 对平均值没有影响 被低估 同上 回归插补 对平均值没有影响 消化不足,但不如平均估算
- MCAR(完全随机缺失)
CC(完整案例)分析在没有太多缺失数据的情况下给出合理的结果。- MAR(随机缺失)
CC 分析和均值插补会使结果产生偏差。- MNAR(非随机缺失)
不能保证上述任何一种措施都会产生良好的效果,有必要针对每种数据缺失的原因采取单独的措施。测试中的点
- 根据上表记忆缺陷机制和补法的优缺点
型号选择
AIC(赤池信息准则)
\begin{align} &AIC = -2logL + 2k \\ &\hspace{10mm} \\ &重回帰の場合 \\ &AIC = n \biggl(logS_e + log\biggl(\frac{2\pi}{n} \biggr) + 1 \biggr) +2(\hspace{1mm}p + 2\hspace{1mm}) \\ &\hspace{10mm} \\ &F統計量 : \frac{S_e^{(k)} - S_e^{(k + 1)}}{\frac{S_e^{(k + 1)}}{(n - k -2)} } \hspace{3mm} > \hspace{1mm} 2 \end{align}BIC(贝叶斯信息准则)
\begin{align} &BIC = -2logL + k\hspace{1mm}log \hspace{1mm}n \\ &\hspace{10mm} \\ &重回帰の場合\\ &BIC(k) = n \biggl( logS_e^{(k)} + log\biggl(\frac{2\pi}{n}\biggr) + 1 \biggr) + (k+2)log \hspace{1mm}n \end{align}测试中的点
- 记住公式来计算和选择 AIC 和 BIC
贝叶斯方法
贝塔二项式模型
\begin{align} &事後分布 : Be(a + x, \hspace{1mm}b + (n - x)) \hspace{10mm}\\ &MAP = \frac{a - 1}{(a + b) - 2} \end{align}伽玛泊松模型
\begin{align} &事後分布 : Ga = ( a + \sum{x_i} , \hspace{1mm} \frac{1}{(\lambda + n)} ) \hspace{10mm} \\ &ここで、 x_i = [x_1, \dots, x_n] \\ &MAP = \frac{a - 1}{ \lambda} \end{align}测试中的点
- 可以通过贝叶斯方法计算后验分布和MAP估计量
模拟
折刀估计器
\hat{Se}_{jack} = \sqrt{\frac{n - 1}{n} \sum_{j=1}^{n} (\hat{\theta}_{(j)} - \bar{\hat{\theta}}_{(\cdot)} ) ^2 }\hat{Se}_{B} = \sqrt{\frac{1}{B - 1} \sum_{b=1}^{B} (\hat{\theta}^{*}_{(b)} - \bar{\hat{\theta}}^{*} ) ^2 }综上所述
我们希望本书能帮助您了解统计学的基础知识,并帮助您掌握统计测试的初级水平。
此外,NPO AI 发展促进会还制作并发布了各种深度学习模型的手册。
如果你也对深度学习感兴趣,请参考。
原创声明:本文系作者授权爱码网发表,未经许可,不得转载;
原文地址:https://www.likecs.com/show-308622226.html