根据 MS/MS 数据建立样品特异性N-糖数据库的网络方法

根据 MS/MS 数据建立样品

特异性N-糖数据库的网络方法

Aliana Tang1，Marshall Bern2

1皮蒙特高中，美国加利福尼亚州皮蒙特

2Protein Metrics LLC，美国马萨诸塞州波士顿

简介

糖对于许多生物过程至关重要，比如蛋白质折叠和细胞间通讯
约一半的哺乳动物蛋白质是糖基化蛋白
质谱在蛋白质和糖蛋白研究中的应用十分广泛

数据库搜索软件是根据串联质谱数据鉴定蛋白质的主要方法。该方法的要求如下：

✔ 完整的蛋白质数据库——得益于方便的基因组测序，此要求通常都可以满足

⚠️ 对于糖蛋白，还需要完整的糖数据库——此要求通常难以满足；往往只具备不完善的信息
目标是开发出能建立更优的 N-糖数据库的软件，从而根据质谱数据本身建立样品特异性糖数据库，而不是仅仅依赖已有的糖数据库

方法

编写基于网络的分析软件，使用更多糖数据扩充初始（“种子”）糖数据库，从而构建更完整的糖数据库

我们测试过的算法包括：

算法 1（不使用网络）：对于每一幅 MS/MS 谱图，一旦发现 N-糖基化特征峰就推断出糖并添加到糖列表中
算法 2（单网络）：根据算法 1 推断出的糖构建网络或图表，其中每个节点都是一种糖，每条边缘连接质量数相差一个单糖（HexNAc、Hex、Fuc 等）的两个节点。仅从尺寸 ≥ 3 的簇中选取节点构建糖列表。
算法 3（多网络）：将算法1推断出的糖分成一个个小框，使每个框中的所有糖都具有相同的裸肽质量数。在每个框中，遵循算法 2 的步骤计算。

测试使用的所有数据集均下载自 MassIVE 或 PRIDE

算法概念示例

算法 1（不使用网络）

为方便起见，质量数都使用近似整数

P = 裸肽质量数（“裸”= 无糖）

G = 糖质量数

Hex 残基质量数 ≈ 162

算法2和3只接受尺寸≥ 3的簇

算法 2（单网络）

算法 3（多网络）

阴性对照

使用不含 N-糖基化结构的样品数据作为阴性对照来测试软件。因此，输出应不含糖。我们用 PNGase F 处理了这些样品，释放出所有 N-糖 (注意：如果酶促反应进行得不完全，可能会残留一些 N-糖)。

输出的糖数量

算法 3 产生的假阳性结果最少à用于全部后续工作

大豆根瘤数据的再分析

MassIVE 中的数据集 ID 为 MSV0000088754。出版物 [参考文献 3] 中也有游离糖 MALDI 实验的结果
样品来自分别感染了以下两种根瘤菌的大豆 (Glycine max) 根瘤：

有固氮能力的野生型 (WT) 慢生根瘤菌 (Bradyrhizobium)
无固氮能力的突变型 (M) 慢生根瘤菌 (Bradyrhizobium)

我们以 Byonic 数据库“N-glycan 52 plants”作为“种子”数据库开展再分析（原始出版物也使用该数据库作为基础）
使用算法 3 进行再分析后，发现了另外 9 种糖

红色：再分析和游离糖 MALDI 实验中都观察到的糖

蓝色：仅在再分析中观察到的糖

草鱼数据的再分析

PRIDE 中的数据集 ID 为 PXD010308。出版物 [参考文献 4] 中也有游离糖 MALDI 实验的结果
样品是来自草鱼 (Ctenopharynodonidella idella) 的 IgM
我们以 Byonic 数据库“N-glycan 182 human no multiple fucose”作为“种子”数据库开展再分析（原始出版物也使用了该数据库）
使用算法 3 进行再分析后，发现了另外 18 种糖

数据库搜索验证

通过在扩充的糖数据库中运行数据库搜索 (Byonic)，可以（尽可能地）验证我们在再分析中发现的糖
谱图中可标记的高峰越多，糖肽鉴定结果就越可靠
此处的示例显示了来自大豆根瘤 (M) 的 HexNAc(2)Hex(2)Fuc(1)Pent(1)
放大视图显示了戊糖峰

丝状真菌数据的再分析

PRIDE 中的数据集 ID 为 PXD041208
样品是由转基因丝状真菌表达系统 Thermothelomyces heterothallica (C1) 产生的单克隆 IgG1 抗体
原始出版物 [参考文献 5] 的数据分析中包括一系列高甘露糖，即 HexNAc(2)Hex(n)，1 ≤ n ≤ 11，以及 HexNAc(3)Hex(n)，2 ≤ n ≤ 6
使用算法 3 进行再分析后，发现了另外 6 种糖

我们还深入分析了这些额外发现的糖的 MS/MS 数据

m/z 773 处无峰 à 表明第 3 个 HexNAc 不是平分型 GlcNAc
与 HexNAc(2)Hex(…) 相比，HexNAc(3)Hex(…) 中的 Hex 峰（m/z 163、145、127 处）明显更小 à 表明第 3 个 HexNAc 位于末端，且不在 LacNAc 单元中

推测：或许 HexNAc(3)Hex(…) 更合适描述为末端带 GlcNAc 的高甘露糖，而不是杂合 N-糖
我们进行再分析时得出了另一个有趣的结果，即存在一个额外的大糖“簇”，簇中的每个元素都比已知糖重（几乎恰好）28 Da
推测：甲酰化产生的artifact [参考文献 6]

结论

从实践角度来看，数据库搜索可以说是根据 MS/MS 数据鉴定蛋白质或糖蛋白最有效的软件
但是，数据库搜索鉴定不了库中未收录的蛋白质或糖。本项目旨在通过完善糖数据库来消除或减少“盲点”
网络的使用对于该软件的有效性至关重要
网络模型模拟了体内糖合成过程
我们的网络算法从之前已经发表的数据中发现了更多糖

后续通过数据库搜索做了验证
与实验结果一致（游离糖 MALDI）

参考文献

向上滑动阅览

D. Goldberg, M. Bern, S. J. North, S. M. Haslam, and A. Dell, “Glycan family analysis for deducing N -glycan topology from single MS,” Bioinformatics, vol. 25, no. 3, pp. 365–371, Feb. 2009, doi: 10.1093/bioinformatics/btn636.
A. Guthals, J. D. Watrous, P. C. Dorrestein, and N. Bandeira, “The spectral networks paradigm in high throughput mass spectrometry,” Mol. BioSyst., vol. 8, no. 10, p. 2535, 2012, doi: 10.1039/c2mb25085c.
D. Veličković et al., “Spatial Mapping of Plant N-Glycosylation Cellular Heterogeneity Inside Soybean Root Nodules Provided Insights Into Legume-Rhizobia Symbiosis,” Front. Plant Sci., vol. 13, p. 869281, May 2022, doi: 10.3389/fpls.2022.869281.
Y.-L. Su et al., “Site-Specific N-Glycan Characterization of Grass Carp Serum IgM,” Front. Immunol., vol. 9, p. 2645, Nov. 2018, doi: 10.3389/fimmu.2018.02645.
F. K. Kaiser et al., “Filamentous fungus-produced human monoclonal antibody provides protection against SARS-CoV-2 in hamster and non-human primate models,” Nat Commun, vol. 15, no. 1, p. 2319, Mar. 2024, doi: 10.1038/s41467-024-46443-0.
Y. Zhi et al., “Formylation: an undesirable modification on glycopeptides and glycans during storage in formic acid solution,” Anal Bioanal Chem, vol. 414, no. 11, pp. 3311–3317, May 2022, doi: 10.1007/s00216-022-03989-6.

作者在此声明，本文不涉及任何竞争性经济利益。

关于Protein Metrics

Protein Metrics LLC是一家全球领先的质谱数据解析软件供应商，公司总部位于美国加州。我们为科研和企业用户提供高效准确的一站式质谱数据解析方案，帮助用户发现、解决问题。Protein Metrics在全球范围内提供销售和支持，目前已为超过150个企业和300个科研单位提供服务。

联系我们邀约演示：

王蕾 13482181958