富集分析中常用的统计方法(富集分析中常用的统计方法有哪些)
- 作者: 刘羲颜
- 来源: 投稿
- 2024-04-11
1、富集分析中常用的统计方法
富集分析中常用的统计方法
富集分析是一种生物信息学技术,用于鉴定一组基因或蛋白质中超代表的通路、功能和过程。它广泛应用于生物学研究,以揭示生物系统中的分子机制。本文将探讨富集分析中常用的统计方法。
统计检验
1. 超几何分布检验
超几何分布检验是富集分析中最常用的统计方法。它用于测试基因或蛋白质组是否在特定通路或基因集中过度富集。该检验基于以下假设:数据集中的基因或蛋白质从中随机抽样,并且它们出现在特定集中的概率与预期一致。
2. Fisher 精确检验
Fisher 精确检验是一种替代超几何分布检验的更严格的方法。当样本量较小或数据分布偏斜时,可以使用 Fisher 精确检验。它提供了更准确的 p 值,但计算成本更高。
3. 卡方检验
卡方检验是一种非参数统计检验,用于比较观测值和预期值之间的差异。在富集分析中,它可以用来测试通路或基因集是否在特定组中过度或不足代表。
4. GSEA(基因集富集分析)
GSEA是一种基于排名的方法,用于鉴定一组基因在特定通路或基因集中富集的程度。它将基因根据它们的表达水平排序,然后通过计算富集得分来评估它们的富集程度。
多重检验校正
5. Bonferroni 校正
Bonferroni 校正是一种简单但保守的多重检验校正方法。它通过将每个测试的 p 值除以测试次数来控制假阳性率。
6. Benjamini-Hochberg (BH) 校正
BH 校正是一种更灵敏的多重检验校正方法。它允许更多的真阳性发现,同时控制假阳性率。
7. Holm 校正
Holm 校正是一种渐进式校正方法,它对最显著测试进行最严格的校正,对较不显著测试进行较宽松的校正。
富集分析中常用的统计方法包括超几何分布检验、Fisher 精确检验、卡方检验和 GSEA。多种多重检验校正方法可用于控制假阳性率。通过选择适当的统计方法和多重检验校正策略,研究人员可以可靠地鉴定生物系统中超代表的通路和功能。
2、富集分析中常用的统计方法有哪些
富集分析中常用的统计方法
富集分析是一种识别基因组、转录组或蛋白质组研究中显着超表征通路或基因集的方法。在富集分析中,应用统计方法来评估差异表达的基因或蛋白质与特定通路或基因集之间的关联程度。本文了富集分析中常用的几种统计方法。
Hypergeometric 分布
1. Fisher 精确检验
Fisher 精确检验是一种经典的统计方法,用于计算特定通路或基因集中的基因在差异表达基因中超表征的显著性。它基于 hypergeometric 分布,该分布描述了在没有替换的情况下从小样本中随机抽取成功事件的概率。
2. Fisher F 检验
Fisher F 检验是一种统计方法,用于比较两个组之间的差异方差。在富集分析中,它用于比较差异表达基因和背景基因中特定通路或基因集的差异表达基因的比例。
3. 二项分布
二项分布描述了在一定次数的独立试验中成功的概率。在富集分析中,二项分布可用于计算特定通路或基因集中超表征差异表达基因的概率。
序列依赖方法
序列依赖方法考虑了通路或基因集中的基因之间的依赖性。这些方法基于这样的假设:通路或基因集中的相邻基因更有可能同时参与同一生物过程。
1. GSEA
基因集富集分析 (GSEA) 是一种序列依赖的方法,它将通路或基因集中的基因按照富集得分排序。富集得分基于通路或基因集中基因的表达水平和差异表达基因之间的相关性。
2. CAMERA
协同变异分析相位 (CAMERA) 是一种序列依赖的方法,它评估通路或基因集中基因之间的协同变异。它计算了基因表达模式之间的相似性度量,以识别协同表达的基因组。
其他统计方法
除了上述方法外,富集分析中还使用了其他统计方法,例如:
1. Kolmogorov-Smirnov 检验
Kolmogorov-Smirnov 检验是一种非参数统计方法,用于比较两个样本分布。在富集分析中,它用于比较差异表达基因和背景基因中特定通路或基因集的表达分布。
2. t 检验
t 检验是一种参数统计方法,用于比较两组手段之间的差异。在富集分析中,它用于比较差异表达基因和背景基因中特定通路或基因集的平均表达水平。
选择统计方法
选择最佳的统计方法取决于富集分析的特定目标和所使用的数据集。上述方法各有优缺点,研究人员应仔细考虑其假设和适用性。
3、富集分析中常用的统计方法包括
富集分析中常用的统计方法
一、肥尾检验
超几何分布检验:用于比较观测值与期望值之间的差异,常用于富集分析中基因列表与基因集的重叠情况的检验。
二项分布检验:用于检验观测值是否显著高于或低于期望值,可用于富集分析中基因集的特征与背景数据集的比较。
二、多重检验校正
本杰米尼-霍赫贝格法(BH):控制假阳性率,用于大规模富集分析中多重比较后的P值校正。
福霍姆法(FDR):控制错误发现率,常用于基因集富集分析中多重比较后的P值校正。
Bonferroni校正:最严格的校正方法,可避免假阳性,但可能导致假阴性过多。
三、相似性度量
重叠相似性:测量基因列表与基因集之间的重叠程度,常用于富集分析中基因集相似性的计算。
雅卡德相似性:测量基因列表与基因集之间的相似性,与重叠相似性类似,但对基因列表和基因集大小不敏感。
四、分类器
朴素贝叶斯分类器:基于贝叶斯定理,常用于富集分析中基因集的分类和预测。
支持向量机:在高维特征空间中找到最佳分隔超平面,可用于富集分析中基因集的分类和表征。
五、网络分析
基因-基因相互作用网络:分析基因之间的相互作用,可用于富集分析中基因集功能和通路解析。
蛋白-蛋白相互作用网络:分析蛋白质之间的相互作用,可用于富集分析中蛋白质复合物和信号通路的鉴定。