根据 MS/MS 数据建立样品特异性N-糖数据库的网络方法

图片

根据 MS/MS 数据建立样品

特异性N-糖数据库的网络方法

Aliana Tang1,Marshall Bern2      

1皮蒙特高中,美国加利福尼亚州皮蒙特            

2Protein Metrics LLC,美国马萨诸塞州波士顿


图片

简介

  • 糖对于许多生物过程至关重要,比如蛋白质折叠和细胞间通讯 

  • 约一半的哺乳动物蛋白质是糖基化蛋白 

  • 质谱在蛋白质和糖蛋白研究中的应用十分广泛 

图片

  • 数据库搜索软件是根据串联质谱数据鉴定蛋白质的主要方法。该方法的要求如下: 

    ✔ 完整的蛋白质数据库——得益于方便的基因组测序,此要求通常都可以满足

    ⚠️ 对于糖蛋白,还需要完整的糖数据库——此要求通常难以满足;往往只具备不完善的信息

  • 目标是开发出能建立更优的 N-糖数据库的软件,从而根据质谱数据本身建立样品特异性糖数据库,而不是仅仅依赖已有的糖数据库

图片

01

方法

编写基于网络的分析软件,使用更多糖数据扩充初始(“种子”)糖数据库,从而构建更完整的糖数据库

图片

我们测试过的算法包括:

  • 算法 1(不使用网络):对于每一幅 MS/MS 谱图,一旦发现 N-糖基化特征峰就推断出糖并添加到糖列表中 

  • 算法 2(单网络):根据算法 1 推断出的糖构建网络或图表,其中每个节点都是一种糖,每条边缘连接质量数相差一个单糖(HexNAc、Hex、Fuc 等)的两个节点。仅从尺寸 ≥ 3 的簇中选取节点构建糖列表。 

  • 算法 3(多网络):将算法1推断出的糖分成一个个小框,使每个框中的所有糖都具有相同的裸肽质量数。在每个框中,遵循算法 2 的步骤计算。

测试使用的所有数据集均下载自 MassIVE 或 PRIDE

02

算法概念示例

算法 1(不使用网络)

为方便起见,质量数都使用近似整数

P = 裸肽质量数(“裸”= 无糖)

G = 糖质量数

Hex 残基质量数 ≈ 162 

算法2和3只接受尺寸≥ 3的簇

图片

算法 2(单网络)

图片

图片

算法 3(多网络)

图片

图片

03

阴性对照

使用不含 N-糖基化结构的样品数据作为阴性对照来测试软件。因此,输出应不含糖。我们用 PNGase F 处理了这些样品,释放出所有 N-糖 (注意:如果酶促反应进行得不完全,可能会残留一些 N-糖)。

输出的糖数量

图片

算法 3 产生的假阳性结果最少à用于全部后续工作

04

大豆根瘤数据的再分析

  • MassIVE 中的数据集 ID 为 MSV0000088754。出版物 [参考文献 3] 中也有游离糖 MALDI 实验的结果 

  • 样品来自分别感染了以下两种根瘤菌的大豆 (Glycine max) 根瘤: 

    • 有固氮能力的野生型 (WT) 慢生根瘤菌 (Bradyrhizobium) 

    • 无固氮能力的突变型 (M) 慢生根瘤菌 (Bradyrhizobium) 

  • 我们以 Byonic 数据库“N-glycan 52 plants”作为“种子”数据库开展再分析(原始出版物也使用该数据库作为基础) 

  • 使用算法 3 进行再分析后,发现了另外 9 种糖

图片

红色:再分析和游离糖 MALDI 实验中都观察到的糖

蓝色:仅在再分析中观察到的糖

05

草鱼数据的再分析

  • PRIDE 中的数据集 ID 为 PXD010308。出版物 [参考文献 4] 中也有游离糖 MALDI 实验的结果 

  • 样品是来自草鱼 (Ctenopharynodonidella idella) 的 IgM

  • 我们以 Byonic 数据库“N-glycan 182 human no multiple fucose”作为“种子”数据库开展再分析(原始出版物也使用了该数据库)

  • 使用算法 3 进行再分析后,发现了另外 18 种糖

    图片

06

数据库搜索验证

  • 通过在扩充的糖数据库中运行数据库搜索 (Byonic),可以(尽可能地)验证我们在再分析中发现的糖 

  • 谱图中可标记的高峰越多,糖肽鉴定结果就越可靠 

  • 此处的示例显示了来自大豆根瘤 (M) 的 HexNAc(2)Hex(2)Fuc(1)Pent(1) 

  • 放大视图显示了戊糖峰

图片

图片

07

丝状真菌数据的再分析

  • PRIDE 中的数据集 ID 为 PXD041208 

  • 样品是由转基因丝状真菌表达系统 Thermothelomyces heterothallica (C1) 产生的单克隆 IgG1 抗体 

  • 原始出版物 [参考文献 5] 的数据分析中包括一系列高甘露糖 ,即 HexNAc(2)Hex(n),1 ≤ n ≤ 11,以及 HexNAc(3)Hex(n),2 ≤ n ≤ 6 

  • 使用算法 3 进行再分析后,发现了另外 6 种糖

图片

  • 我们还深入分析了这些额外发现的糖的 MS/MS 数据 

    • m/z 773 处无峰 à 表明第 3 个 HexNAc 不是平分型 GlcNAc 

    • 与 HexNAc(2)Hex(…) 相比,HexNAc(3)Hex(…) 中的 Hex 峰(m/z 163、145、127 处)明显更小 à 表明第 3 个 HexNAc 位于末端,且在 LacNAc 单元中 

  • 推测:或许 HexNAc(3)Hex(…) 更合适描述为末端带 GlcNAc 的高甘露糖,而不是杂合 N-糖 

    图片

  • 我们进行再分析时得出了另一个有趣的结果,即存在一个额外的大糖“簇”,簇中的每个元素都比已知糖重(几乎恰好)28 Da

  • 推测:甲酰化产生的artifact [参考文献 6]

图片

结论

  • 从实践角度来看,数据库搜索可以说是根据 MS/MS 数据鉴定蛋白质或糖蛋白最有效的软件 

  • 但是,数据库搜索鉴定不了库中未收录的蛋白质或糖。本项目旨在通过完善糖数据库来消除或减少“盲点” 

  • 网络的使用对于该软件的有效性至关重要

  • 网络模型模拟了体内糖合成过程 

  • 我们的网络算法从之前已经发表的数据中发现了更多糖 

    • 后续通过数据库搜索做了验证 

    • 与实验结果一致(游离糖 MALDI)

图片

参考文献

向上滑动阅览

  1. D. Goldberg, M. Bern, S. J. North, S. M. Haslam, and A. Dell, “Glycan family analysis for deducing N -glycan topology from single MS,” Bioinformatics, vol. 25, no. 3, pp. 365–371, Feb. 2009, doi: 10.1093/bioinformatics/btn636.

  2. A. Guthals, J. D. Watrous, P. C. Dorrestein, and N. Bandeira, “The spectral networks paradigm in high throughput mass spectrometry,” Mol. BioSyst., vol. 8, no. 10, p. 2535, 2012, doi: 10.1039/c2mb25085c.

  3. D. Veličković et al., “Spatial Mapping of Plant N-Glycosylation Cellular Heterogeneity Inside Soybean Root Nodules Provided Insights Into Legume-Rhizobia Symbiosis,” Front. Plant Sci., vol. 13, p. 869281, May 2022, doi: 10.3389/fpls.2022.869281.

  4. Y.-L. Su et al., “Site-Specific N-Glycan Characterization of Grass Carp Serum IgM,” Front. Immunol., vol. 9, p. 2645, Nov. 2018, doi: 10.3389/fimmu.2018.02645.

  5. F. K. Kaiser et al., “Filamentous fungus-produced human monoclonal antibody provides protection against SARS-CoV-2 in hamster and non-human primate models,” Nat Commun, vol. 15, no. 1, p. 2319, Mar. 2024, doi: 10.1038/s41467-024-46443-0.

  6. Y. Zhi et al., “Formylation: an undesirable modification on glycopeptides and glycans during storage in formic acid solution,” Anal Bioanal Chem, vol. 414, no. 11, pp. 3311–3317, May 2022, doi: 10.1007/s00216-022-03989-6.


作者在此声明,本文不涉及任何竞争性经济利益。

关于Protein Metrics

Protein Metrics LLC是一家全球领先的质谱数据解析软件供应商,公司总部位于美国加州。我们为科研和企业用户提供高效准确的一站式质谱数据解析方案,帮助用户发现、解决问题。Protein Metrics在全球范围内提供销售和支持,目前已为超过150个企业和300个科研单位提供服务。


联系我们邀约演示:

王蕾    13482181958