主成分分析
对于 $n \times p$ 的数据集 X 的第 i 个观测,第一主成分:
zi1=j=1∑pϕj1xij 如何解 $\phi$?
ϕ11...ϕp1max{n1i=1∑nzi12},j=1∑pϕj12=1 变量需要提前标准化
标准化,归一化,正则化
归一化(Normalization): 将一列数据变化到某个固定区间(范围)中, 通常, 这个区间是[0,1]
标准化(Standardization): 将数据变换为均值为0,标准差为1的分布。
每个主成分解释了多少?即方差解释比(PVE):
数据集总方差=n1j=1∑pi=1∑nxij2 第m个主成分的方差解释比率=n1i=1∑nzim2 PVE=数据集总方差第m个主成分的方差解释比率 聚类分析(K means)
分了K个类 $C_1...C_k$,目标:
C1...Ckmin{k=1∑KW(Ck)} 如何定义类内差异 $W(C_k)$ ?例如平方欧式距离:
W(Ck)=∣Ck∣1i,i′∈Ck∑j=1∑p(xij−xi′j)2 K-means将数据集中的每个数据点分配到最近的质心(最小化它们之间的欧几里德距离),这意味着如果数据点比任何其他质心更接近该群集的质心,则认为该数据点位于特定集群中。
然后K-means通过获取分配给该质心集群的所有数据点的平均值来重新计算质心,从而减少与前一步骤相关的集群内总方差。K均值中的“均值”是指对数据求均值并找到新的质心。
该算法在步骤2和3之间迭代,直到满足一些标准(例如最小化数据点与其对应质心的距离之和,达到最大迭代次数,质心值不变或数据点没有变化集群)
在该示例中,经过5次迭代之后,计算的质心保持相同,并且数据点不再交换集群(算法收敛)。这里,每个质心都显示为一个深色的数据点。