使用 p.valcalc 函数进行差异分析,使用robust vesion的t-test获取p值,公式可以查看函数源码,用到了 weightedVar加权方差 。
如下图,火山图体现出一组数据(Test/Con)之间的差异幅度和统计学意义分布。X轴代表log2(FC);Y轴代表-log10(q value),灰色代表无差异基因,红色代表上调基因,绿色代表下调基因。X轴的取值可以是FC,也可以是log2处理后的值。
完成limma分析后,火山图是验证结果的有效工具。通过ggvolcano或ggplot,你可以清晰地展示logFC与调整后的P值关系,直观展示基因的表达差异。
处理离群值的方法:保留,修正,剔除,替补。拓展知识:离群值的定义 离群值是指在数据中有一个或几个数值与其他数值相比差异较大。离群值是一种不同于其他观测值的观测值。它是少见的,或独特的。
描述性统计分析:这是最基本的数据分析方法,包括计算平均值、中位数、众数、标准差等统计量,以了解数据的基本情况。假设检验:这是一种统计假设检验方法,用于确定观察到的数据差异是否显著。常用的假设检验方法有t检验、卡方检验、F检验等。
显著性,也就是p-value,差异性检验两组样本的p值,以负对数-log10(P-value)转换做为纵坐标;2)以log2(Fold Change)为横坐标,即可得火山图,利用一定的筛选条件(如Fold Change大于2倍,显著性P值小于0.05),即可筛选出显著差异表达的基因,进行后续研究。
基于超高效液相色谱-质谱联用技术的非靶向代谢组学分析流程一般包括: 样品的收集和预处理、代谢物提取、LC-MS全扫描检测、数据预处理、统计分析及差异物结构鉴定。 其中第一步,样品的收集和重复设置尤为重要,直接关系到实验结果以及数据分析。
代谢物提取,一般要求每组至少10个样; 在所有提取好的样本中取等量混合作为QC; QC样本与实验样本穿插上机,开始十个QC,结尾三个QC,中间每十个样本穿插一个QC样本 。得到质谱谱图数据经软件处理后得到峰表。
代谢组学的研究方法:代谢组学研究一般包括代谢组数据的采集、数据预处理、多变量数据分析、标记物识别和途径分析等步骤。生物样品(如尿液、血液、组织、细胞和培养液等)采集后进行生物反应灭活、预处理。
根据样本或分组内缺失值的比例,进行数据过滤是代谢组学分析中常用的方法。缺失值填充 对于未被过滤的缺失值,如果直接忽视,这样的数据矩阵可能会影响后续算法的计算,将会触发异常。
例如,在匹配样本设计中,单个血液样本可以分成两份,其中一份在代谢平台上分析,另一份在转录平台上分析。然而,匹配样本设计可以基于同一生物样本小份体液,但也可以不一定要基于,例如在同一时间点从同一个人采集的血液样本和另一组织活检样本,即匹配。 预处理。
数据导入:将处理后的代谢物数据导入统计软件或专用的生物信息学工具。PCA运算:应用PCA算法,该算法通过提取数据的主要变异来源来降低数据维度,同时保留大部分数据信息。结果解释:分析PCA得到的主成分,每个主成分代表数据集中的一个变异方向。这有助于识别样品间的差异和代谢物间的相关性。
代谢物提取,一般要求每组至少10个样;在所有提取好的样本中取等量混合作为QC;QC样本与实验样本穿插上机,开始十个QC,结尾三个QC,中间每十个样本穿插一个QC样本。这里我们采用基于秩的检验方法,其中基因集富集分析(GSEA)是在转录组数据背景下进行代谢路径分析的一个常见例子,它也可以应用于代谢组数据。
代谢物提取,一般要求每组至少10个样; 在所有提取好的样本中取等量混合作为QC; QC样本与实验样本穿插上机,开始十个QC,结尾三个QC,中间每十个样本穿插一个QC样本 。得到质谱谱图数据经软件处理后得到峰表。
在中心法则的指导下,基因组、转录组、蛋白组通常以 信息流 的方式呈现,而代谢组被认为是新陈代谢的结果。
空间共定位分析是一种代谢物的空间相关性分析,选择一种目标代谢物后,进行空间相关性计算,输出与目标代谢物空间表达趋势一致的代谢物List,可以帮助开展对该区域中代谢物表达模式和代谢网络的分析工作。
数据归一化 数据归一化是将数据映射到特定范围之内再进行处理,有利于便捷快速的运算。数据归一化是数据预处理重要一步,可消除样本处理、浓度差异、仪器偏差等统误差。代谢组学常用数据归一化方法:中位数、平均数、总和、指定样本和内参。
如果你的存储系统有权限管理,需要在格式转换之前,将需要转换的目录权限修改为777,否则proteowizard无法访问和写入数据。
代谢物提取,一般要求每组至少10个样;在所有提取好的样本中取等量混合作为QC;QC样本与实验样本穿插上机,开始十个QC,结尾三个QC,中间每十个样本穿插一个QC样本。这里我们采用基于秩的检验方法,其中基因集富集分析(GSEA)是在转录组数据背景下进行代谢路径分析的一个常见例子,它也可以应用于代谢组数据。
空间共定位分析是一种代谢物的空间相关性分析,选择一种目标代谢物后,进行空间相关性计算,输出与目标代谢物空间表达趋势一致的代谢物List,可以帮助开展对该区域中代谢物表达模式和代谢网络的分析工作。
那么在学习数据分析之前,我还是想和大家一起回顾一下什么叫 代谢组学(Metabolomics) 和 代谢组(Metabolome) 。在中心法则的指导下,基因组、转录组、蛋白组通常以 信息流 的方式呈现,而代谢组被认为是新陈代谢的结果。
1、这里我们采用基于秩的检验方法,其中基因集富集分析(GSEA)是在转录组数据背景下进行代谢路径分析的一个常见例子,它也可以应用于代谢组数据。使用GSEA或OR分析的途径分析也可以通过结合代谢组学和转录组学数据来进行,好处是从这两种数据类型中收集信息以确定代谢途径富集程度。
2、代谢组学,一个源自基因组学与蛋白质组学理念的领域,主要致力于对生物体内所有小分子代谢物(相对分子质量通常小于1000)进行定量分析。这一研究方法的核心目标是揭示代谢物与生物体生理病理状态之间的复杂关联,从而深化我们对生物系统动态的理解,它是系统生物学研究的重要组成部分。
3、代谢组学分为非靶标和靶标两大类。非靶标如发现代谢组学,旨在探索未知,而靶标则用于验证并精确测量特定代谢物。这些技术如MRM,需标准品支持,虽精度高,但操作复杂,成本较高。高分辨色谱质谱联用仪器虽能检测海量信息,但也面临着灵敏度和依赖数据库的挑战。
4、单细胞代谢组学技术更是日新月异,微室技术、SERS微液滴、PDMS芯片等创新手段,使得我们能够窥探单个细胞的微观代谢世界,从scMetabolism到原位微探针,每一项技术都为理解生命提供了新的窗口。总的来说,代谢组学是一场对生命深处秘密的探索,每一次数据的解读,都是对生命现象的更深层次理解。