一口气讲完糖肽搜索引擎
第五期 一口气讲完 糖肽搜索引擎 Protein Metrics 高准 Database search engine Glycan-first search engine Peptide-first search engine 本文简要介绍糖肽搜索引擎的分类和特点,帮助分析学家快速了解各类搜库软件。 简介 糖肽表征需要确定多肽序列,糖基化位点以及聚糖的组成和结构。与其他翻译后修饰不同,糖基化引起的质量增加通常大于2~3个氨基酸,往往会与漏切肽段或共享碎片离子但序列不同的肽段相互混淆,造成糖肽匹配错误;手动解析费时费力,无法推广到大规模糖肽组学。因此,科学家们开发了大量的糖肽搜库软件以实现自动化的糖肽分析。 按照搜库原理,糖肽搜索引擎大致可以分为3类:database search, glycan-first和peptide-first。Database search需要提供蛋白数据库和聚糖库,通过组合多肽和聚糖信息与串联质谱数据进行匹配,灵敏度高;后两类将糖肽串联质谱数据分割成多肽和聚糖两部分,先完成其中一个搜库,并以此为基础限制另外一个搜库空间,速度快。 01 Database search engine Database search engine将糖肽作为一个整体进行搜索,这就意味着需要考虑所有可能的多肽和聚糖组合。这种搜索的复杂性,往往需要限制蛋白质和聚糖数据库大小,以便在合理的时间内完成搜库。但随着质谱技术和AI技术发展,database search engine的速度得到了大幅度的提高。以Byonic为例,可利用B离子筛选出糖肽二级谱和isobar_score_filter=50智能打分系统过滤掉质量差的糖肽二级谱,最终加快搜库速度并给出高质量的糖肽结果。 在2021年,HUPO启动了糖肽信息化解决方案评估,有众多软件的开发者和用户参与。其中Byonic的N/O糖搜库性能最好,并得益于用户友好界面,精确的图谱标识和灵活的报告模板,Byonic拥有最广泛的用户基础。 02 Glycan-first search engine Glycan-first的典型特征是先用Y离子确定肽质量,并以此来限制肽的搜库空间。MAGIC和pGlyco是这个算法的典型代表,但实现方式不同。 pGlyco3采用两步法,首先使用Y离子和B离子将完整的聚糖与聚糖数据库进行匹配,然后利用前体离子质量减去聚糖质量来确定肽质量,从而在大大减少的搜索空间中匹配肽序列。 MAGIC采用三步法,首先利用五糖核心系列Y离子推测肽质量,然后在限制的搜库空间中匹配肽序列,最后深入表征聚糖的组成和结构。由于三步法依赖五糖核心,该算法主要用于N糖搜库。 03 Peptide-first search engine MSFragger-Glyco是Peptide-first的典型代表,首先利用b/y离子进行肽匹配,然后利用前体离子质量减去肽质量来确定聚糖质量,最后在大大减少的搜库空间中匹配聚糖的组成和结构。与Glycan-first相比,该方法不依赖于Y离子,因此可以大大提高O糖的搜索灵敏度。 糖肽搜索引擎示例 结语 本文是糖蛋白系列文章完成篇,系统介绍了糖肽搜索引擎的分类和特点,方便科研和企业用户选择适合自己的软件。 参考文献: [1] Polasky, Daniel A., and Alexey I. …