什么时候使用PCA和LDA?
发布网友
发布时间:2022-04-22 06:42
我来回答
共3个回答
热心网友
时间:2022-06-16 17:26
当你的特征数量p过多,甚至多过数据量N的时候,降维是必须的。为什么是必须的?有个东西叫curse of dimensionality,维度越高,你的数据在每个特征维度上的分布就越稀疏,这对机器学习算法基本都是灾难性的。你说特征数量过多,砍一点就行了嘛?但是对不起,就有这样的问题存在,砍不了。你要研究某个罕见病跟什么基因有关?基因很多哦,人类已知的基因有几千个,可是病例通常也就几百个,有时连几百个都没有……当你的特征有比较明显的自相关的时候,也可以考虑降维。自相关会让很多模型的效果变差,主要是线性模型。这些模型效果不好,但是算的快,很多时候很有用。先降维再算会好的多。还有的应用跟降维没多大关系,纯粹只是去杂音而已。这是一个典型的应用:分析篮球攻防组合的表现。就是给定一个篮球进攻球员,和他的对位防守球员,求出在一次进攻中这名进攻球员的(1)出手概率(2)如果出手,得分期望,根据篮球知识,我们容易知道,如果一个人防“射手A”防的好,但是防“突破手B”防的差,那他防“射手C”也防的好的可能性大过防“突破手D”防的好的可能性。于是这里有必要把进攻球员(防守球员也类似)做个相似度出来,根据这个相似度再来构建模型(比如可以用Bayes Net)。相似度怎么构建?PCA就可以了,把选手的出手位置的分布做成特征,然后PCA之,取前若干维的相似度即可。(为啥不直接用出手位置的分布来做呢?效果不好呗,去掉杂音会好的多,而且PCA出来的还是正交的,可以直接求距离)。
热心网友
时间:2022-06-16 17:27
如果不降维,将导致 数据分布在一个极小的区域内。也叫维度灾难。比如说,球的体积是 v 正比于 R^3。在R/2的同心球,体积正比于(R/2)^3。同心小球是全球的体积八分之一。如果是*球,球的大部分体积 分布在球表面内侧的“很薄”的一层,比如千/万维的话....所以要降维。不降维,高维特征没啥用,比如人脸识别...PCA是无类别信息,不知道样本属于哪个类,用PCA,通常对全体数据操作。LDA有类别信息,投影到类内间距最小and类间间距最大...也有一些算法,先用PCA搞一遍,再用LDA搞一遍,也有相反。反正有论文是这么搞的,至于是不是普适,要看具体问题。
热心网友
时间:2022-06-16 17:27
在机器学习中,如果都能够挑选出少而精的特征了,那PCA等降维算法确实没有必要。但一些情况下原始数据维度非常高,然而我们又没有办法想出有效的特征,这个时候就需要用PCA等工具来降低数据的维度,使得数据可以用于统计学习的算法。我之前所在的一个研究小组就把PCA用在了文字数据上。文字数据处理 (vectorize) 后一个样本的每一维对应这一个词。然而可以想象在一个文本数据集中,总的不同的词的个数是非常多的,因此样本维度常常上万。这样高维度的数据如果直接用来训练统计学习的算法得到的模型通常不具有统计学上的显著性。因此,我们将sparse PCA应用在原始数据上,找到不同的词之间的线性相关性,将高相关的词合并为一个特征,这就是所谓的话题模型 (topic modeling)。
线性判别分析(LDA)与主成分分析(PCA):原理、实现与应用
线性判别分析(LDA)与主成分分析(PCA)是两种常用的降维技术,它们在机器学习和数据分析中有着广泛的应用。本文将详细介绍LDA和PCA的原理、实现,并通过Python代码和LaTeX公式进行详细解释,帮助读者更好地理解这两种降维方法的原理和实践步骤。线性判别分析(LDA)是一种监督学习的降维技术,它的目标是将...
特征降维方法有哪些
1. 主成分分析(PCA)PCA是一种常用的线性降维方法。它通过正交变换将原始特征转换为一组线性无关的特征,称为主成分。PCA选择保留最大的几个主成分,从而降低了数据的维度。这种方法适用于高维数据的降维处理,能够去除冗余特征并保留重要信息。2.线性判别分析(LDA)LDA也是一种线性降维方法,主要用于分...
常用降维方法之PCA 和 LDA
假设我们的数据集有10个二维数据(2.5,2.4), (0.5,0.7), (2.2,2.9), (1.9,2.2), (3.1,3.0), (2.3, 2.7), (2, 1.6), (1, 1.1), (1.5, 1.6), (1.1, 0.9),需要用PCA降到1维特征。首先我们对样本中心化,这里样本的均值为(1.81, 1.91),所有的样本...
pca和lda和svd 的区别
SVD可以获取另一个方向上的主成分,而PCA只能获得单个方向上的主成分,PCA也能达到降秩的目的,但是PCA需要进行零均值化,且丢失了矩阵的稀疏性。通过SVD可以得到PCA相同的结果,但是SVD通常比直接使用PCA更稳定。因为PCA需要计算X⊤X的值,对于某些矩阵,求协方差时很可能会丢失一些精度。LDA的原理...
降维攻击是什么意思?
其中PCA降维可以将数据集的高维特征映射到低维空间,并保留大部分特征信息,从而达到降维的效果。LDA降维则是针对分类问题进行的降维操作,旨在提高分类算法的准确性和效率。降维攻击在实际中比较常见,例如黑客可以将一个包含大量病毒样本的特征矩阵进行降维,得到一个更加紧凑的病毒指纹,从而更容易针对软件...
为什么说主成分分析(PCA)是无监督的方法,而独立成分分析(LDA)是监督方...
因为PCA不需要知道样本的类别,PCA的目的是使得降维后的样本方差最大;LDA需要知道样本的类别标记,使得投影后的样本类内距离近,类之间距离远。
你还知道哪些降维方法?
3. LLE:非线性的艺术 如果说PCA和LDA是线性的杰作,那么LLE,即Local Linear Embedding,就是非线性降维的瑰宝。它能保持数据的局部结构,让降维后的流形依然保持原始数据的形状,如同一个精巧的几何谜题。4. LE:拉普拉斯的智慧 Laplacian Eigenmaps,简称LE,是基于图论的降维工具。它构建数据间的紧密...
机器学习-LDA(线性判别降维算法)
LDA,即线性判别分析,与PCA(主成分分析)的策略截然不同。它是一种有监督的降维技术,其核心理念是最大化类别间的差异,同时保持同一类内的数据点紧凑。LDA基于两个核心假设:数据根据样本均值分类:原始数据的类别区分主要依赖于样本的平均值分布。 共享协方差矩阵:所有类别的数据共享同一个协方差...
用sklearn进行降维的七种方法
在实际的应用中,有时候我们会遇到数据的维度太少,我们需要新生成新的维度,可以用我们之前的分享( 如何自动化进行特征工程 );有时候维度太多,这时候我们就需要降维了。降维的方法有许多,我们这里介绍了sklearn中介绍的7种,供大家学习和收藏。 主成分分析(PCA)用于将多维的数据集分解为一组具有最大方差的连续正交分...
主成分分析(PCA)
如果设P按照Λ中特征值的从大到小,将特征向量从上到下排列,则用P的前K行组成的矩阵乘以原始数据矩阵X,就得到了我们需要的降维后的数据矩阵Y。 PCA的特征向量的求解除了使用上述最大化方差的矩阵分解方法,还可以使用最小化损失法,具体可参见: 机器学习中的数学(4)-线性判别分析(LDA), 主成分分析(PCA) 。