当前位置:科学网首页 > 基金首页 > 基于小波变换的代谢组低浓度标志物统计分析模型与方法研究

国家自然科学基金项目查询

基于小波变换的代谢组低浓度标志物统计分析模型与方法研究

批准号81302511 学科分类流行病学方法与卫生统计 ( H2611 )
项目负责人李贞子 负责人职称副教授 依托单位哈尔滨医科大学
资助金额24.00
万元
项目类别青年科学基金项目 研究期限2014 年 01 月 01 日 至
2016 年 12 月 31 日
中文主题词统计模型;不完全树型小波变换;特征提取;代谢组学;生物标志物
英文主题词Statistical model;Incomplete tree-structured wavelet transform;Feature selection;Metabolomic;Biomarker

摘要

中文摘要 通过代谢组指纹图谱数据,可以研究机体内在肿瘤发生增殖、侵袭或转移过程中的代谢模式特征。由于代谢组分数量巨大且浓度含量极微变动范围宽达7~9数量级,使重要的低丰度肿瘤标志物难以显现。目前,主要通过分析代谢组质谱数据筛选标志物,由于其数量巨大,各种物质及碎片可达10万以上,识别低浓度标志物极为困难。本项目的思想是,根据色谱中低浓度代谢物数据的自相关信息,对区分恶性肿瘤具有重要作用的标志物及保留时间位置进行估计,在此基础上对其质谱数据进行分析。使用的方法:基于Sobel算子的不完全树型小波变换,将代谢组一维色谱数据通过不同尺度换成二维图像,再使用AdaBoost算法对其图像进行模式识别和特征提取,筛选潜在的低浓度生物标志物。研究的具体内容:小波函数及参数的选择、提取图像特征算法、特征相似度验证、AdaBoost模型与算法。本研究将为识别代谢组低浓度肿瘤标志物提供更为有效的统计模型及数据分析方法。
英文摘要 According to the metabolomic fingerprint data, we can study the metabolomic characteristics of tumor's proliferation, invasion and metastasis process. As we know, the number of metabolites is huge and their contents usually differ from each other by as much as 7 to 9 order of magnitude, which makes it almost impossible to discover the import low abundance tumor biomarkers. Currently, the main method is to do the feature selection based on the metabolomic data. However, the number of metabolites is usually over 100 thousands, it is extremely difficult to distinguish the important biomarkers in low concentration. The idea proposed in this project, is to estimate the position and retention time of the important biomarkers based on the analysis of the auto-correlation of the metabolites in low concentration. The method we used in this project is the incomplete tree-structured wavelet transform based on Sobel operator, which transforms the one-dimensional chromatography data into two-dimensional image using different scales. Then, AdaBoost algorithm is applied to do the pattern recognition and feature selection, with the purpose of screening the potential important biomarkers in low concentration. The content of this project includes the choice of the functions and parameters used in wavelet transform, algorithm used in image feature selection, validation of feature-similarity degree, the AdaBoost models and algorithm. This study would provide more effective statistical models and data analysis methods for identifying the important metabolomic biomarkers in low concentration.
结题摘要 本研究使用高效液相色谱质谱联用仪检测技术对卵巢癌、卵巢良性囊肿患者的血样、尿样进行检测,获得代谢组学色谱指纹图谱数据。针对数据具有代谢组分数量巨大且浓度含量极微变动范围宽达7~9数量级,使重要的低丰度肿瘤标志物难以显现的特点,利用色谱数据具有时间序列自相关信息,将一维代谢组色谱图通过小波变换转换为具有位置特征的二维图像,再使用模式识别算法对图像进行特征提取,筛选出潜在且具有重要意义的低丰度生物标志物。本研究得到的主要研究结果具体如下:(1)将连续小波多尺度变换、矩阵分割特征提取分析应用于色谱数据中分析,结果显示较原始数据判别分类能力有显著的提高且分类效果稳定,筛选出8个对卵巢癌诊断具有潜在生物学意义的标志物。并通过METLIN和HMDB数据库及查阅相关文献证明有些物质已被认定与卵巢癌、淋巴癌、结肠癌等疾病有关。其中2-哌啶酮做了二级质谱的标准品比对,被认定为卵巢癌生物标志物,并通过实验证明2-哌啶酮具有强烈的抗肿瘤效果,对卵巢癌细胞的增殖抑制体现为多靶点作用。(2)针对二维小波系数图像,应用Gabor小波图像特征提取分析、图像锐化小波系数图像特征提取分析,结果显示分类效果都有显著提高,而且通过设置不同的参数,可以获得小波系数图像不同的内在特征。Gabor小波图像特征提取分析筛选出8个血浆潜在生物标志物,然后通过代谢物数据库和二级质谱等进行代谢物化学鉴定。(3)在小波变换的基础上,研究了最大重叠离散小波变换,并将其应用于代谢组学数据的分析中,该方法能够较好地去除一定的噪声和批次效应,提高分析方法的有效性和稳定性。综上所述,本研究将为识别代谢组低丰度肿瘤标志物、卵巢癌的早期诊断、合理治疗提供重要的理论依据。

成果

序号 标题 类型 作者
1 Semiconductor-Based Nanomaterials for Photocatalytic Hydrogen Generation, Hydrogen Production Technologies, Chapter 13 著作 Zipeng Xing|Zhenzi Li|Wei Zhou|
2 3D urchin-like black TiO2x/carbon nanotube heterostructures as efficient visible-light-driven photocatalysts 期刊 Liyan Shen|Qi Zhu|Shilin Yang|Wei Zhou|
3 卵巢癌脂质组学诊断标志物的筛选及其效果研究 期刊 王文杰|李贞子|李康|侯艳|
4 多步骤决策树方法在基因表达数据上的应用研究 期刊 马李冰|侯艳|李贞子|李康|
5 惩罚logistic回归方法在SNPs数据变量筛选研究中的应用 期刊 姜博|肖纯|刘艳|李贞子|

关于我们| 网站声明| 服务条款| 联系方式| RSS| 中国科学报社 京ICP备14006957 京公网安备110402500057号
Copyright @ 2007- 中国科学报社 All Rights Reserved
地址:北京市海淀区中关村南一条乙三号   电话:010-62580783