1.2.Requirement

作业具体要求

  • 报告要求:提交一份完整的工作报告,中英文不限(鼓励英文,可以参考一些发表文献,如 a three-lncRNA signature for cancer ),同时提交源代码。请读者使用我们提供的数据,完成以下工作,包括六个主要步骤:

    • Part I. Prepare Data Matrix

      • 1) 完成五个样本的Reads Processing and Mapping工作,并统计相关的比例和长度信息;

      • 2) 完成五个样本的Expression Matrix的构建;

      • 3) 完成数据分析和质量控制工作;

    • Part II. Matrix Process

      • 4) 完成矩阵处理工作: 主要包括 filter, imputation, normalization, remove batch effect, etc;

    • Part III. Machine Learning

      • 5) 完成特征选择并汇报挑选出的特征(Feature);

      • 6) 完成模型评估与特征解释

中期报告要求:完成上述的最终报告的 Part I-II 部分,参照教程示例绘制相应的图,提交一份工作概述,需要至少包括:

  • 汇报构建的expression matrix与参考样本的相关系数;

  • 数据分析和质量控制相关绘图;

  • 处理矩阵数据,汇报数据处理各个步骤前后的PCA图和alignment score。

1) Reads Processing and Mapping

完成五个样本Sample_N1, Sample_N7, Sample_N13, Sample_N19, Sample_N25的mapping和RNA ratio与length的统计工作。

具体步骤请参考 Helps: Mapping指南

Inputs

File format

Information contained in file

File description

fastq

reads

five samples, GEO link: GSE71008

Outputs

File format

Information contained in file

sam/bam

mapped reads to different kinds of indexes

tsv format

stats of RNA ratio and length

2) Expression Matrix的构建

完成五个样本Sample_N1, Sample_N7, Sample_N13, Sample_N19, Sample_N25的expression matrix的构建,用Sample_N1, Sample_N7的expression matrix数据和/BioII/chenxupeng/student/data/expression_matrix/GSE71008.txt中相应的两个样本的参考数据计算相关系数以检查结果。

具体步骤请参考 Helps: Construct Expression Matrix 指南

inputs

File format

Information contained in file

File description

Notes

bam

alignments

Produced by mapping reads to the transcriptome.

Reads are trimmed using a proprietary version of cutAdapt. We map to transcriptome for a better sensitivity (see details in protocol and example).

outputs

File format

Information contained in file

File description

Notes

tsv

gene (ncRNA) quantifications

Non-normalized counts.

3) 数据分析和质量控制(QC)

具体内容请参考 Helps: 数据分析和质量控制指南

  • 统计一套数据中不同RNA type在不同样本的counts分布,可绘制pie plot, barplot, boxplot和lineplot等。参考 Helps: 基本信息统计 部分。

  • 对数据做基本的quality control,通过经验性的阈值或者PCA中明显离群点去除部分样本。参考

    Helps: sample QC 部分

关键环节:

数据分析和质量控制(QC)是一个很重要的步骤,应该贯穿在第1-2步,甚至后面的每一步,注意利用统计量可视化的plots综合进行分析。

4) 矩阵处理

对expression matrix做相应的处理和加工:

  • Filter

  • Imputation

  • Normalization

  • Remove batch effect

关键环节:

要求读者通过PCA Plot等分析不同处理策略和步骤后的效果,选定自己认为比较合适的处理方法,可以参考 Helps: 矩阵处理指南

Tips: 除了该步骤中对测序深度等系统误差进行normalization,可以在下一步特征选择时再进行一次机器学习中常规的normalization(如每列都noramlize到0-1)。

5) 特征选择 (Feature Selection)

我们希望读者设计一个稳健的特征选择方法,完成以下几种情况下的feature selection,给出针对每种分类条件所挑选的feature,展示不同个数要求下挑出的feature,比如1~10,20,30等个数要求下挑出的feature。

  • 分类条件

    • Colorectal vs Healthy Control

    • Prostate Cancer vs Healthy Control

    • Colorectal vs Prostate Cancer vs Healthy Control(三分类)

  • 基础要求:读者可以从简单的feature selection方法开始尝试,基于分类模型的feature权重挑选feature,。

  • 高级要求:为了帮助读者打开思路,我们给出一个如下的示例性流程

    • 对feature做scale,(using z-scores, min-max, robust normalization)。

    • 使用机器学习二分类/三分类模型 (random forest, logistic regression, linear SVM) 通过feature权重选择feature,使用三折交叉验证选择超参数。

    • Optionally, 使用 recursive feature elimination(RFE)减少feature数量.

    • Resampling 来选择 robust features, 选择那些在resampling runs中重复多次出现的feature(出现频率>50%):

      • shuffle and split dataset, 重复特征选择100次(shuffle split)

      • 或者每次测试一个样本 (leave one out).

    • 用选择出的feature重新拟合模型

以上步骤会挑出在resampling runs中出现频数超过总轮数一半的特征。其中第一步对feature做scale,读者可以尝试不同的对feature进行normalization的策略。第二步读者可以尝试不同的机器学习模型,并且在第三步选择是否使用RFE来逐步筛除feature。第四步是挑选稳健feature的关键,可以采取random split或leave one out,选择重复出现的稳健的feature。

关键环节:

特征的选择是该项目最后结果的一个关键因素,其作用远大于对具体classifier模型的选择,读者可以设计自己的稳健的特征选择方法,甚至应该利用一些生物学上的先验知识进行一些选择,除了准确度 (Accuracy) 也请注意体现出自己的方法的稳健性 (Robustness)

参考 Helps: 特征选择指南

6) 模型评估与特征解释

  • 绘制挑选出的feature counts(经过适当的scale)的clustermap,用颜色块表示class。请参考 Helps: 特征选择结果可视化

  • 绘制二分类的ROC曲线,请参考 Helps: 用选出的feature进行分类并绘制ROC曲线

  • 汇报挑选不同数量的feature时分类效果,用AUC作为指标绘制折线图。请参考 Helps: 用AUC评估挑选不同数量feature的效果

  • 分析挑选出的feature的生物学意义。

  • 尝试更多分析模型结果的方法。

参考 Helps: 模型评估与feature解释指南

关键环节:

选出来的Feature, 也就是RNA Panel,是该项目的重点和目标,要比模型的准确度更为重要。

对于Feautre的选择和解释,都需要注意利用一些生物学上的先验知识,比如优先选择和解释一些已知的oncogene。