1.Precision Medicine - exSEEK

Finding exRNA biomarker panel for cancer diagnosis

0) 背景介绍

在多种体液中,如血清、唾液以及尿液等,可以检测到一类非侵入性细胞外 RNA (extracellular RNA, exRNA)。诸如环状RNA (circular RNA)等这类具有空间结构的 RNA 分子,能够在血浆中稳定存在。这些从细胞分泌出的 exRNA 通常由微囊泡 (microvesicles)、外泌体(exosome) 包裹,或者与 RBP 密切结合形成 RNP 复合体。因为这些分子由于具备类细胞膜结构和蛋白质的保护,加上某些 RNA 具有特定的结构,exRNA 在多种体液 (血清、唾液、尿液等) 中可以抵抗体液中 RNase 的降解,从而稳定存在。exRNA 包括的类型很多,例如 miRNA,Y RNA, circRNA,lncRNA 等,每种又有不同的加工、剪切和修饰产物,这种多样性为更好的临床检验带来了新的期望。这些 exRNA 可以成为一类有效的生物标志物,服务于人体健康状况检测和疾病的诊断,如癌症的早期诊断、肿瘤生长状况监测、以及预后辅助诊断。
本 Quiz 依托于 Lulab 现有的一些研究结果,希望读者通过生物信息学方法,尝试使用一些机器学习方法,发现和研究与癌症发生发展相关的新型体液胞外RNA (extracellular RNA,exRNA)生物标志物,并应用于几种国内高致死癌症的早期诊断和预后辅助治疗。我们将在癌症病人体液 (如血液)中的游离、微囊泡、外泌体、RNP 等不同组分中发现和鉴定标志癌症发生发展的新型 exRNA,构建模型,最终建立一个具有更高精准度和重复性的无创检验癌症(尤其是早期癌症)的方法。
Goal: Develop a RNA panel, paired with a machine learning model (exSeek) to classify cancer from control (healthy person)

1) 总体流程图

重点和难点:
数据的pre-process很重要,尤其是RNA类型繁多,需要一个一个 “依次mapping",是重点要学习和考察的。
当matrix建成之后,机器学习部分反而比较流程化,很多已经被包装成软件包很成熟了(但这不意味着这部分简单,只不过前人的工作基础更多更好)。

2) 报告要求

报告要求:提交一份完整的工作报告,中英文不限(鼓励英文,可以参考一些发表文献,如 a three-lncRNA signature for cancer ),同时提交源代码。请读者使用我们提供的数据,完成以下工作,包括六个主要步骤:

Part I. Prepare Data Matrix

    1) 完成五个样本的Reads Processing and Mapping工作,并统计相关的比例和长度信息
    2) 完成五个样本的Expression Matrix的构建,与给出两个样本参考数据计算相关系数以检查结果;
    3) 完成五个样本的数据分析和质量控制工作
      统计一套数据中不同RNA type在不同样本的counts分布,可绘制pie plot, barplot, boxplot和lineplot等。
      对数据做基本的quality control,通过经验性的阈值或者PCA中明显离群点去除部分样本.

Part II. Matrix Process

    4) 完成矩阵处理工作: 主要包括 filter, imputation, normalization, remove batch effect
      要求读者通过PCA Plot等分析不同处理策略和步骤后的效果,选定自己认为比较合适的处理方法。

Part III. Machine Learning

    5) 完成特征选择并汇报挑选出的特征(Feature);
    我们希望读者设计一个稳健的特征选择方法,完成每个癌症vs健康人的feature selection,展示不同个数要求下挑出的feature,比如1~10,20,30等个数要求下挑出的feature。 基础要求: 读者可以从简单的feature selection方法开始尝试,基于分类模型的feature权重挑选feature。 高级要求:为了帮助读者打开思路,我们给出一个如下的示例性流程
      对feature做scale,(using z-scores, min-max, robust normalization)。
      使用机器学习二分类/三分类模型 (random forest, logistic regression, linear SVM) 通过feature权重选择feature,使用三折交叉验证选择超参数。
      Optionally, 使用 recursive feature elimination(RFE)减少feature数量。
      Resampling 来选择 robust features, 选择那些在resampling runs中重复多次出现的feature(出现频率>50%).
      用选择出的feature重新拟合模型。
    关键环节: 特征的选择是该项目最后结果的一个关键因素,其作用远大于对具体classifier模型的选择,读者可以设计自己的稳健的特征选择方法,甚至应该利用一些生物学上的先验知识进行一些选择,除了准确度 (Accuracy) 也请注意体现出自己的方法的稳健性 (Robustness)
    6) 完成模型评估与特征解释
      绘制挑选出的feature counts(经过适当的scale)的clustermap,用颜色块表示class。
      绘制二分类的ROC曲线。
      汇报挑选不同数量的feature时分类效果,用AUC作为指标绘制折线图。
      分析挑选出的feature的生物学意义。
      尝试更多分析模型结果的方法。
      关键环节:选出来的Feature, 也就是RNA Panel,是该项目的重点和目标,要比模型的准确度更为重要。对于Feautre的选择和解释,都需要注意利用一些生物学上的先验知识,比如优先选择和解释一些已知的oncogene。

3) 相关数据

我们的作业包括Part I. Prepare Data Matrix,Part II. Matrix Process,Part III. Machine Learning三个部分,数据存放于P集群/data/Quiz。
    Part I. Prepare Data Matrix相关文件:包含Sample_N1, Sample_N7, Sample_N13, Sample_N19, Sample_N25的fastq文件,用于自己完成对五个正常人样本进行mapping和创建expression matrix等操作。
    Part II. Matrix Process,Part III. Machine Learning相关文件:包含5种癌症和正常人的表达矩阵、标签信息、批次信息,用于特征选择。

3a) Part I 相关文件

data
path
raw data
/data/Quiz/raw_data/*.fastq
hg38
/data/Quiz/hg38_index/GRCh38.p10.genome.fa
gtf
/data/Quiz/gtf
RNA index
/data/Quiz/RNA_index/
expression_matrix
/data/Quiz/expression_matrix/Sample_N1_N7.txt
具体内容参考

3b) Part II-Part III相关文件

data
path
expression matrix
/data/Quiz/expression_matrix/expression-counts.txt
sample labels
/data/Quiz/expression_matrix/sample_class.txt
batch
/data/Quiz/expression_matrix/sample_batch.txt
split
/data/Quiz/expression_matrix/sample_split.txt
    expression matrix:表达矩阵数据,每一行为一个feature,每一列为一个样本。
    sample labels:样本标签信息文件,其中NC代表健康人,cancer_1、cancer_2、cancer_3、cancer_4、cancer_5为五种癌症。
    batch:batch信息记录了对不同样本采取的不同实验条件,包括处理时间,处理材料的规格差异等,可能会造成同类样本的较大差异,称为batch effect。
    split:为了方便衡量计算效果,我们给定了discovery set和validation set的划分方式。我们可以在discovery set上交叉验证进行特征选择,然后在validation set上评估模型预测效果。validation set不参与到特征选择、模型训练等过程。

3c) other annotations

我们给出一些注释文件,路径为:/data/Quiz/other_annotations/transcript_anno.txt。
可以通过feature的transcript id找到feature的transcript_name, gene_type等信息

4) 更多参考

休息一会

Grail
随着科学技术的不断发展,尤其是 21 世纪初高通量测序技术(NGS) 的出现,使肿瘤诊断从传统的病理和影像学检测跨入精准诊断时代,“液体活检”的概念也应运而生。液体活检(Liquid Biospy)是一种利用 Sanger、qPCR、NGS 等基因测序技术从血液、脑脊液、唾液等非实性生物标本中检测循环肿瘤 DNA( ctDNA) 、循环肿瘤细胞( CTCs) 、外泌体(exosomes) 等生物标志物的肿瘤诊断方法。
液体活检作为可用于癌症早筛的一种无创检测技术,一直以来备受科研和临床研究的关注。测序巨头Illumina首席执行官Jay Flatley此前在接受媒体采访时曾表示,“液态活检”的市场规模至少达400亿美元,甚至宣称这项技术可能是癌症诊断领域最激动人心的突破。
GRAIL正是一家以“液体活检”为中心的公司,被外界称为全球癌症血液筛查公司中的领先者、癌症大数据领域的独角兽 。2016年1月由基因测序巨头Illumina联合比尔盖茨、Bezos Expeditions、和Sutter Hill Ventures等投入一亿美金,并且分出一部分公司骨干成立了Grail。据统计,GRAIL自2016年成立以来,短短两三年时间就已经获得了全球多家公司超过15亿美元的巨额投资,它成为历史上融资规模最大的三家生物技术公司之一,包括腾讯在内的一些中国公司也是其资方。
Jennifer Cook是GRAIL的目前的首席执行官。此前,Jennifer曾在Roche Pharmaceuticals / Genentech担任过多个高级管理职位,负责产品开发和商业化的整个生命周期。2016年 ,因其对医疗保健行业的贡献和鼓舞人心的领导力而获得认可,她被医疗保健女企业家协会评为年度女性。Jennifer拥有斯坦福大学人类生物学和生物学硕士学位,以及加州大学伯克利分校哈斯商学院的MBA学位。
最近,在2018年欧洲肿瘤内科学会(ESMO)年会上,GRAIL公司发布了CCGA( Circulating Cell-free Genome Atlas )研究项目的最新数据。当前研究结果显示,利用血液进行癌症早期筛查不仅可行,而且在不同类型癌症中还具有高度特异性。使用无创、简单、精准的液体活检方法进行癌症早期筛查,代表着人类征服癌症的最大希望。现在,这个梦想变得越来越可触可及了。
Last modified 6mo ago