您好,欢迎访问新疆畜牧科学院 机构知识库!

PCA与随机森林相结合筛选高信息量SNP位点——应用于羊的品种鉴别

文献类型: 中文期刊

作者: 刘月丽 1 ; 覃锡忠 1 ; 贺三刚 1 ; 李文蓉 1 ; 王悦 1 ; 贾振红 1 ; 刘明军 1 ;

作者机构: 1.新疆大学信息科学与工程学院;新疆畜牧科学院生物技术研究所农业部草食家畜繁育生物技术重点开放实验室新疆维吾尔自治区动物生物技术重点实验室

关键词: 主成分分析(PCA);随机森林;高信息量SNP位点;品种鉴别

期刊名称: 计算机工程与应用

ISSN: 1002-8331

年卷期: 2018 年 16 期

页码: 235-240

收录情况: 北大核心 ; CSCD

摘要: 针对品种鉴别中面临的SNP(Single Nucleotide Polymorphisms)数据高维小样本的难点,研究利用少数高信息量SNP位点正确鉴别品种的方法,提出了一种新的SNP位点筛选方法。先利用PCA提取SNP主要位点,随后使用随机森林方法,根据平均精度下降和Gini指数下降对主位点的重要性进行评估,训练分类模型。最后分别选取重要度排名前48和96的位点,以这些位点为分类特征,建立分类模型进行品种鉴别。将该模型应用于6种绵羊Illumina Ovine SNP50的SNP数据。实验表明,可以从46 013个位点中分别筛选出49、96个高信息量位点用于品种鉴别,鉴别准确率达到97%以上。该方法减少了用于品种鉴别的SNP位点个数,降低了品种鉴别成本。

  • 相关文献
作者其他论文 更多>>