原文:
www.kdnuggets.com/2017/07/hacking-silico-protein-engineering-machine-learning.html
由Kamil Tamiola 创办的 Peptone。
可以安全地说,蛋白质是构建块和定义生命物质的机制。在过去 70 年里,在蛋白质的分离、生产、特征化和最终工程方面取得了巨大的进展。尽管在实验室和工业规模的蛋白质生产方面取得了巨大进步,但蛋白质工程及所有相关步骤仍然是繁琐、昂贵且真正复杂的。
蛋白质是由20 种构建块氨基酸组成的复杂生物分子,这些氨基酸按顺序连接成长的非分支链,通常称为多肽链。
多肽链的独特空间排列产生三维分子结构,这些结构定义了蛋白质的功能及其与其他生物分子的相互作用。
尽管蛋白质三维结构形成的基本力已经已知并理解,但多肽折叠的确切性质仍然难以捉摸,并且在过去 50 年中已经进行了广泛的研究。
我们希望工程化蛋白质以增强其属性。通常,关注点是不同温度、pH或盐度下的稳定性。研究人员通常旨在提高蛋白质酶的催化性能,或向已知蛋白质中添加全新的化学活性。
工程化蛋白质最常见且成熟的方法是通过用替代氨基酸创建其变体,这些变体也称为突变体。随后,使用各种实验技术对新产生的突变体进行特征化,以测量增强的程度;例如,扫描量热法、等电点测定、简单溶解度研究或高级酶活性测定。然而,由于存在20 种标准蛋白质氨基酸,如果你决定探索所有可能的典型蛋白质氨基酸组合,那么 100 残基长的多肽的完全突变将产生20¹⁰⁰种突变组合。
相当可能,只有极少数的突变体会具有期望的属性,因为通常改变蛋白质越多,你就越远离其原始功能。
(这绝不是规则,因为这取决于蛋白质的具体情况。然而,替换蛋白质的主要部分为完全新的氨基酸序列的逻辑后果可能是新的折叠,从而带来新的功能。此外,我故意省略了一个根本性的重要事实——突变可能会显著影响蛋白质的动态,从而影响其功能)。
蛋白质生物技术在很大程度上受到规模和突变分析的复杂性的制约。
机器学习的最先进和概率(贝叶斯)变体在很大程度上依赖于输入数据的大小和质量。这一点对于生命科学中的推断和预测技术尤为重要,因为模型的复杂性水平令人困惑或尚不清楚。
通过机器学习方法对蛋白质结构、功能和动态的预测并非例外。然而,即使在相对稀疏(与所有可能的长多肽链中的蛋白质氨基酸组合数量相比)蛋白质数据库的情况下,机器学习也能帮助揭示蛋白质序列与其结构变异性和动态之间复杂的非线性关系。这些关系要么非常难以建模,要么仅仅尚未完全理解。
机器学习方法在预测蛋白质生物物理属性中的最大价值在于它们能够将松散相关的蛋白质特征与可测量的实验数据“等同”起来。因此,利用复杂数值模型进行的预测可以通过提供独立的蛋白质结构和动态的实验代理进一步调整和优化。
就像我们自然环境中的其他分子一样,多肽链在从纳秒到分钟的时间尺度上进行分子运动。
已接受的观点是,完全理解蛋白质的功能和活动需要对结构和动态的了解。
结构无序是许多已知且特征化蛋白质的非常特殊的属性。它被归因于蛋白质序列中的特定模式,并对蛋白质的稳定性、对酶解的易感性、蛋白质-蛋白质相互作用以及在许多使人虚弱的 人类病理中发挥决定性作用。
从工业生物技术的角度来看,准确识别工程蛋白质中氨基酸突变的无序效应可以节省大量时间和资源。对任意蛋白质突变体的准确无序预测可以立即报告氨基酸序列的有问题的组合,从而将这些残基排除在进一步的突变分析之外,并大幅减少突变搜索空间。
阅读更多内容,始于单一蛋白质结构模型不够的 Kamil Tamiola 文章。转载了初始部分,已获得许可。
简介:卡米尔·塔米奥拉 是一位企业家和研究人员,拥有广泛的超级计算和蛋白质结构生物物理学的科学背景。
1. 谷歌网络安全证书 - 快速进入网络安全职业的快车道
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织进行 IT 管理