一、视频摘要
使用JMP
Genomics
10,对表达量数据进行分析,得到差异表达基因。主要步骤包括质量检查、表达量均一化和方差分析三个部分。视频将两种方差分析模块One-way
ANOVA和ANOVA分别进行介绍。
二、关键词
JMP
Genomics,
差异表达分析,操作步骤
三、分析方法
详细描述了主要操作步骤和关键信息具体意义,其它细节可观看视频内容
One
way ANOVA
1、数据准备
一般需要准备两个文件,
文件一:各样本的RPKM文件
需转换为Log2(RPKM),样本名要与下面的metadata文件匹配。该文件来自于“使用CLC
11完成RNAseq的mapping工作”
文件二:样本的metadata
如下就好第一列和第二列名字要注意,必需为"Array"和"ColumnName",否则会在后续报错。第三列及以后更多地就是样本之间的差异,填0和1理论上也是可以的。ColumnName要和上个文件样本名对应。
Array
|
ColumnName
|
Strain
|
1
|
StrainA_rep1
|
A
|
2
|
StrainA_rep2
|
A
|
3
|
StrainB_rep1
|
B
|
4
|
StrainB_rep2
|
B
|
导入JMP
Genomic 10,File——>Open——>选择以上文件,选择数据所在sheet,其他基本默认——>import
之后会蹦出下图,选择File——>save
as——>格式选择sas7bdat保存
2、对数据进行质控
操作
打开Expression——>Quality
Control——>Distribution Analysis
接下来就是导入数据,选择输出文件夹,NAME列是作为ID
Variable,给基因,上面的Variables
for Which to Display Distribution选样本列给数据。
Experiment
Design中把分类的几列选上就行,此处是“Strain”
Run结果解析
主要三个图
一个是Kernel
Density Estimates,是对数据分布的一个显示,X轴是Log2(RPKM)值,Y轴是总体密度该数值的总体百分比
箱线图不用说,方差、平均值之类的。
方差和平均值散点图(这张图重要点,因为数区分数据好坏对比看模拟的那个线,变化较大说明样本间数据差距较大,需要进行归一化)
3、归一化
我们一般选择Loess
Normalization
Expression——>Normalization——>Loess
Normalization
参数设置,选择两个初始数据文件,直接run就好,只有一个Input
data is log-transformed注意一下,就是只有数据是已经Log之后的选择这一项,否则不选,他会帮你Log。
结果上,这个图不是很明显,但是一般都是为了减少样本内差异
4、再次质控并与第2步结果对比
步骤略
归一化后两类数据差距变小基本一致,这次变化不大,不过归一化这步还是要做的
5、One-way-ANOVA
Expression——>Differential
Expression——>One-Way ANOVA
参数设置
选择输入文件,在Label
Variable中输入Name,选择输出文件夹
选择实验设计文件,将分类变量选择“Strain”
Test页面中,可以选择所有双向成对分析(将任意两个非重复样本进行比较),简单比较(只和对照进行比较)。
结果解读:
图包含
火山图:X轴对基因在两实验中的差异,Y轴为这个差异的Log(P值)置信度。
聚类热图:对两实验中表达模式相似的进行聚类,并绘制热图
平行线图:每条线实际是描述同一基因不同实验中的平均表达量
主成分分析图:是对这些差异基因进行一个分类
在左侧选项中,可以发现Determine
Significance选项,因为JMP
Genomics可以自助帮你选择前多少个是显著差异基因,但一般来说统计学意义上p值小于0.05即为显著,小于0.01为极显著。即Log(p)>1.6为显著Log(p)>2为极显著。
输出的话选择view
Data,找到所有数据哪一个table,保存为Excel即可,主要看Diff
of Strain和-log10(p-value)for
Diff of Strain两列即可。
5、ANOVA
ANOVA与One-way-ANOVA在前文的数据处理上是一样的,只是适用对象不同。
适用对象:One-way-ANOVA,1v1的比较;ANOVA,N
v N的比较。(如果出现同样本在两者中差异不同的情况,主要是因为归一化那里的范围不同,一个针对全局,一个只针对两者。)
参数设置
Genomics——>Expression——>Differential
Expression——>ANOVA
General界面选择输入文件,把每组表达值的列插入变量
Model界面中,除了输入metadata文件外,有两点要注意
1、Data
Filtering那里是吧0值和缺失值超过阈值Cutoff的去除,不再分析,例如我们有5个样本,有一个样本缺失可以保留,但是存在基因有两个及以上样本是缺失或0值则去除该基因不再出现在后续分析中
2、Fixed
Effects for Differential Expression那里,把所有主要的效应写上,用“|”或空格隔开
Test界面只有一个要注意
Select
Comparison Set for Differential Expression Tests,这里给了几个选项
All
Pairwise Differences denotes differences between all possible
pairs of levels.
Simple
Differences denotes all differences for which only one level has
changed.
Differences
with a Control denotes taking differences against a single
reference level.
一般来说All
pairwise就是吧所有可能的两两比对都给你了,一般是用来保存数据用的,存在不需要或不合适的情况如有可能有多个条件不同的两组数据进行了比对。
Simple
Difference就是只给单水平的比较。
Multiple
Test Method选择空,设置-log10(p-Value)Cutoff为1.3,即筛选P-Value>0.05。
Option界面可以选一些表现参数,除了p-value和-log10(p-value)其他的也不是很有必要
结果与One-way-ANOVA没有什么不同,只是进行的是联合分析。
6、结果文件输出
总的结果表可在结果中打开
总表包含内容:
1、Name、CLC_Raw_RPKM、Loess_norm_RPKM、Diff、Log
Pvalue、sig
Index。
2、对于没有控制变量的可以直接删去
3、列名要简单明了
例如:Diff
of Strain*Medium = (A MediumA)-(A MediumB)
可改为MM_ZM4(mmrVsmmr_lrp)等
后面单表所需列:
Name、Diff、LogPvalue、SigIndex
声明:该视频作品仅代表作者观点,用于共享科学技术。内容仅供大家参考,不代表本站立场。