GSEA富集分析怎么看?1分钟详解!
发布时间:2025-04-10
浏览次数:2558
作者:东极药物
一、定义&用途【定义】GSEA(基因集富集分析),用于判断一个预定义的基因集的基因在和表型相关度排序的基因表中的分布趋势,从而判断其对表型的贡献程度。包括已知功能的基因集和表达矩阵两部分,主要根据基因与···
一、定义&用途
【定义】
GSEA(基因集富集分析),用于判断一个预定义的基因集的基因在和表型相关度排序的基因表中的分布趋势,从而判断其对表型的贡献程度。包括已知功能的基因集和表达矩阵两部分,主要根据基因与表型的关联度进行排序,并判断基因集内每条注释下的基因是否富集于表型相关度排序后基因表的上部或下部,从而判断该基因集内基因的协同变化对表型变化的影响。
【用途】
(1)关注全局视角:GSEA不是关注单一基因的差异,而是关注一组基因集合的整体行为,从而能揭示生物学过程的整体模式,而不仅仅是局部变化。
(2)验证生物学意义:通过预定义的基因集,GSEA提供了生物学意义的验证比如特定通路的活动,帮助理解基因表达变化背后的生物学背景。
(3)处理复杂数据:GSEA可以处理复杂的数据分布,如连续的基因表达数据,而不仅仅是二元的上调或下调状态。
二、GSEA富集分析图解读
【图片内容】
1. 领头亚集(Leading edgesubset):是指对ES值贡献最大的基因集合。当ES为正值时,领头亚集基因位于ES峰值之前;反之,则位于ES峰值之后。
2. Enrichment Score(ES):一项指标,用于量化基因集成员S在排序列表L两端的富集程度,以反映其在特定条件下的显著性和相关性。
3. 基因位置信息:黑色线条展示的是当前分析的基因集S中每个基因出现在基因排序列表L中的位置,每一根线条代表基因集中的一个分子。
4. NES:标准化后的富集分数。
5. FDR:假发现率(PS:一般认为|NES|>1,p-val<0.05,FDR q-val<0.25的通路是显著富集的)。
6. ES折线图:反应基因集S成员在排序列表L的富集程度。绿色曲线即富集曲线,表示ES打分的动态过程,该基因集的最终ES值为峰值(最高或最低点),正ES值表示富集在L的顶部,即富集通路为上调通路;负ES值表示富集在L的底部,即富集通路为下调通路。
7. 热图+灰色面积图:这一部分其实主要展示的是基因排序表L的信息。横坐标代表所有基因的位置,纵坐标代表该基因与表型的关联程度。从大到小排列,所以正相关性越强,基因排序位置越靠前;负相关性越强,基因排序位置越靠后。热图同样展示了基因与表型的关联程度,红色部分对应的基因在DNPC组中高表达,蓝色部分对应的基因在ARPC组中高表达。
【案例解读】
使用来自DNPC与ARPC的差异表达基因(DEGs)的预先排名的基因列表,其对数为|log2折叠变化|>1和校正的P值<0.05,GSEA显示出HGF/MET和Wnt/β-catenin信号通路上调的显著富集。
三、相关疑问&解答
【GO、KEGG和GSEA分析的区别在哪?】
l GO和KEGG是一种常规基于基因功能的数据挖掘方法,常用于差异基因集的基因功能研究和关键基因筛选,以帮助了解这些差异基因可能影响的生物功能,可快速聚焦到与研究疾病密切相关的重要分子上,为后续实验验证提供方向和依据。缺点是需要提前设定一个阈值,且仅关注少数几个显著上调或下调的基因,容易遗漏部分差异表达不显著却有重要生物学意义的基因。
l GSEA分析可以在不做差异分析的情况下,找到和性状相关的通路功能基因集合,也就是可以将所有的基因视作“目的基因”,从而避免了以上问题,但其分析过程也变得更加复杂,目前仅在医学方向应用比较广泛。
【为何已经做GO/KEGG富集分析了,还要再做GSEA?】
l GO/KEGG富集分析是先筛选差异基因,再判断差异基因在哪些注释的通路存在富集;并且还需要提前设定一个值,不仅存在主观性还只能用于差异较大的基因。
l GSEA不受差异基因限制,无需设定值选,可分析任意感兴趣的基因集,不限于显著差异表达基因。GSEA分析能包含GO/KEGG富集分析中遗漏但具重要生物学意义的非显著差异表达基因。
文章出自:验外实包 想了解更多请关注:http://www.dj-cro.com/