户外 内射 困扰数学家一个多世纪的贫穷, AI从生物学中找到痕迹
任何一个有教养的水手都领悟,一个正确的绳结意味着人命的保险,不管是起飞帆船照旧固定锚链户外 内射,绳索的作用取决于它的绳结。不异的风趣也适用于督察东说念主类人命体征的分子,举例最常见的卵白质分子。
卵白质是由氨基酸组成的大分子化合物,是组成生物体的基本物资之一。氨基酸通过肽键集会形成肽链,进而通过螺旋、折叠等神色形成复杂的空间结构,使分子或者相互耦合。永远以来,东说念主们以为,尽管卵白质可能高度缠绕,但在正常条目下它们不行形成纽结,因为这会闭塞卵白质的折叠[译者注1]。
然则,在上世纪70年代,科学家发现了很多在拓扑真谛上形成纽结结构的卵白质(Knottedprotein,也称打结卵白),它们的自然结构呈现为敞开的纽结(即,两头不集会)。尽管几何真谛上,卵白质(以至DNA)不错看作一条(或几条)不闭合的弧线,但它们仍然或者形成纽结,从而影响其功能。事实上,在卵白质数据库中,约莫1%的卵白质包含纽结结构。与绳索或者线不同,每一个纽结卵白质都具有一个特有的纽结(见图1)。纽结卵白质中最大的一类是SPOUT酶(它们组成了七类不同结构的甲基更动酶中的第二大类)。除了一种例外,其余悉数SPOUT酶都形成了“三叶结”——三个环相互重迭的结构。
图1:如图所示,有些卵白质的纽结结构相等明显。第二行的图像展示了每个分子的简化视图。每个图像下方的数字默示卵白质自身交叉重迭的次数,“+”和“-”则默示它们是镜像结构。举例,-31和+31是“三叶结”的镜像方法。需要珍惜的是,卵白质形成的是“敞开的结”,因为它们的两头并莫得集会在一都。不外,这闲居并不影响咱们在分子中界说一个纽结结构。图片
这一发现激励了一系列问题,比如:卵白质分子的纽结结构是奈何形成的,它们折叠的机制是什么,这些纽结又有什么作用,等等。有些凭据标明,纽结卵白质在极点温度下仍不错保捏活性。但关于分子结构中纽结的浩荡性偏激对生物的影响,科学家们依然安坐待毙。当咱们试图将对纽结的潜入用于生物学和软物资问题上时,咱们际遇了一个困扰科学家一个多世纪的数常识题。
迂曲的历史:造作的涡旋原子表面
当代纽结表面的发祥闲居不错回顾到150多年前的一项驰名实验——烟圈实验。1867年,彼得·格想里·泰特(PeterGuthrieTait)邀请他的一又友——物理学家威廉·汤姆森(WilliamThomson,其后的开尔文勋爵),从格拉斯哥赶赴爱丁堡不雅看他演示制形成对的烟圈。令开尔文诧异的是,这些烟圈很是平安,能在房间里移动,以至像橡胶一样相互弹开。烟圈事实上是一种“涡环”(vortexring),其中气溶胶和颗粒物在齐心小圆中旋转,这种畅通赋予了烟圈平安性。
那时,科学家们浩荡以为天地中充满了一种被称为“以太”的物资,引力和电磁放射以这种物资为引子进行传播。开尔文计算,原子可能所以太中的平安涡旋,访佛于烟圈。他进一步以为,以太涡旋形成的纽结决定了不同的化学元素。泰特对开尔文的料想产生了浓厚酷好酷好。在接下来的25年里,泰特与英国国教牧师托马斯·柯克曼(ThomasKirkman)、好意思国数学家查尔斯·利特尔(CharlesLittle)以及詹姆斯·克拉克·麦克斯韦(JamesClerkMaxwell)配合,制作了一张包含251个纽结的表格,其中最多有10个交叉点(见图2)。
跟着科学家对原子结构的深入了解,涡旋原子模子迟缓被消灭。1913年,亨利·莫塞莱(HenryMoseley)的议论最终推翻了这一表面,他诠释化学元素的不同不是由它们的拓扑结构决定的,而是由原子核中质子数决定。尽管当今看来涡旋原子表面是造作的,但纽结表面仍行动数学的一个分支延续于今[译者注2]。
图2:彼得·格想里·泰特和其他早期的纽结表面家破耗多年工夫编制了一份全面的纽结列表。上图摘自他们的结表,列出了最多9个交叉点的纽结——即“九阶纽结”[译者注3]。图片泉源:University of St Andrews Library,ID sfQC3-T2-Vol-1-6.
识别纽结:寻找拓扑不变量
关于泰特偏激同寅来说,为纽结分类是一项极为远程的职责。每当出现一个新的纽结时,他们都必须通过绘制和几何直不雅来查验其是否独到。泰特本东说念主曾写说念:“自然我将很多方法截然有异但等价的结归为一组,但我不行敷裕地笃定这些分组内容上是否完全不同。”确乎,1974年肯尼斯·佩尔科(KennethPerko)发现,泰罕见东说念主所列举的纽结表中有两个纽踏本质上是等价的——它们当今被称为“佩尔科对”[2]。
淌若想要更有劝服力,我的学生乔尔杰·米哈伊洛维奇(DjordjeMihajlovic)建筑了一款名为“识别纽结”(SpotaKnot)的在线游戏,这款游戏的规划是从图片中找出等价的纽结(见图3)。即便议论纽结多年,我我方照旧闲居出错。要想在纽结表中占有置锥之地,一个纽结必须具有独到的拓扑结构,也等于说,除非将其散伙,不然它不行光滑形变成其他已知的结。拓扑学议论的是一个空间在光滑形变后的不变量。对拓扑学家而言,一个马克杯等价于一个甜甜圈,因为二者不错相互形变而且不会丢失内在的洞。但正如佩尔科对和米哈伊洛维奇的游戏所展示的那样,诠释两个纽结不同并非易事。
图3:爱丁堡大学的博士生乔尔杰·米哈伊洛维奇建筑了一款名为“识别纽结”的在线游戏。读者不妨尝试想考一下:在上图中,第一瞥的纽结等价于第二行的哪个呢?图片
在纽结表面中,用来刻画纽结性质的量称为“不变量”。纽结表面学家的终极理想是找到一个不变量,或者根据拓扑结构用其对纽结进行分类(就像质子数一样,不错唯独笃定一种化学元素)。这种“完全不变量”将赋予每一个纽结唯独的值,而且在光滑形变后保捏不变。第一个纽结不变量是1928年由詹姆斯·亚历山大(JamesW.Alexander)冷漠的,称为亚历山大多项式(Alexanderpolynomial)。自那时起,数学家们冷漠了很多其他不变量,但关于每一个措施,东说念主们都发现存无法进行唯独分类的案例。
一种构造拓扑不变量的措施是这么的:“沿着纽结走一遍,将每个交叉点编号为1,2,3,…,2n(每个交叉点会遍历两次)。淌若编号是偶数而且是从上方越过形成的交叉点,则将其标识标为负数(见图4)。终末,每个交叉点会被标识为一双整数,一个是偶数,一个是奇数。这一系列偶数等于该纽结的编码。”这个措施被称为Dowker–Thistlethwaite编码(简称DT编码),于1983岁首次冷漠[3]。自然DT编码不错分类很多通俗的结,但与其他措施一样,它自己并不是拓扑不变量[译者注4]。
图4:Dowker–Thistlethwaite记法是一种于1983年冷漠的纽结不变量。这种措施通过两次遍历纽结,为每个交叉点分派一个整数,最终的整数序列即默示为该纽结。图片
纽结不变量:代数与几何措施
亚历山大多项式属于所谓的“代数不变量”。它通过构造一个矩阵(其行数和列数与结的交叉点数目疏通)并计较其行列式来笃定。这类代数不变量是从结的二维投影中构造出来的,有点像纽结的影子,不外咱们不错辩别每次交叉时哪个部分在上头。然则,像我这么的软物资物理学家但愿对卵白质和DNA均分子中的纽结进行分类,它们是三维的,而且赓续受到热能的烦躁,将这些分子简化为二维投影会抹去一些对其功能至关紧迫的空间特征。
一种有劝服力的替代措施是使用“几何不变量”。这类不变量通过在三维空间中遍历纽结并通过计较某些几何属性(举例曲率)来笃定。其中一种我相等可爱的神色是计较绞拧数[译者注5](writhe,或称缠绕数),不异是由泰特冷漠的。绞拧数不错通过在二维投影中数“上方”和“下方”的交叉点,并用两者相减来计较(见图5b)。
绞拧数不仅是代数目,也不错行动几何量来计较。联想在一个三维纽结(如卵白质)上行走,每走一步计较你看到的交叉点的绞拧数。终末,将这些数值的平均值求出,就得到这个纽结的全局绞拧数。横祸的是,绞拧数并不是完全不变量。本质上,和代数不变量一样,莫得任何几何不变量被诠释或者对悉数纽结进行唯独分类。
2021年,GoogleDeepMind的AI法子AlphaFold基本处置了困扰科学家几十年的一个问题——奈何从氨基酸序列磋议卵白质的结构[6]。卵白质的功能取决于其三维结构,因此AlphaFold成为研发药物和疾病议论的浩瀚器用。
这使得咱们不禁自问:东说念主工智能是否能为纽结不变量问题提供访佛的处置决议?
东说念主工智能与绞拧数
一些议论者还是开动使用东说念主工智能来探讨纽结的分类问题。最新的一些议论恶果包括:2020年香港城市大学的OlafsVandans团队[8]和2023年帕多瓦大学的AnnaBraghetto团队的职责[9]。这些议论将不同的纽结视为一连串珠子,并通过给定的笛卡尔坐标、(后者中是)向量、珠子间的距离和角度等数据来教练神经网罗,从而识别纽结的类型。这些议论取得了高精度的分类截止,但仅限于五个最通俗的纽结。
咱们但愿将此措施实行到更复杂的拓扑结构,同期简化神经网罗模子,并使用更小的教练数据集。为此,咱们从大自然中取得灵感。在咱们的体格中,DNA分子的纽结不错由所谓的“拓扑异构酶”(Topoisomerase)解开。尽管这些酶的体积仅仅DNA分子的千分之一,但它们不错切割并再行集会DNA链,从而有用地解开纽结。咱们假定拓扑异构酶或者感知某种局部几何性质,使它们或者找到DNA分子中最精细缠绕的部分。咱们尝试使用密度、曲率等多种量来完了这一规划。最终,咱们的截止又回到了泉源——泰特和他的几何绞拧数。
除了计较悉数这个词纽结的绞拧数外,咱们还不错计较局部绞拧数,这个量不错刻画某一链段的缠绕进程(见图5c)。咱们发现计较局部绞拧数是一种定位长环状分子中纽结部分的有用措施[10]。基于这一截止,咱们决定将局部绞拧数的数据提供给AI,这么它将有更大的胜算来识别复杂纽结。
这套表面成型后,咱们开动构建神经网罗进行测试。最先,咱们通过模拟五个最通俗的纽结的热畅通生成教练数据集,索求数万个构型(见图6a)。随后,咱们教练了两个神经网罗:一个使用纽结的笛卡尔坐标,另一个使用局部绞拧数。在两种情况下,咱们都对AI进行了监督,使用咱们教练数据集的一个子集来告诉神经网罗每个纽结的类型。咱们要求神经网罗对它们之前从未见过的通俗结进行分类,以考试咱们的措施。
当AI在通俗的神经网罗上使用笛卡尔坐标进行教练时,正确率唯独80%,这与Vandans和Braghetto的恶果访佛。尽管这可能比咱们大大批东说念主在“识别纽结”游戏中的得分要高,但仍与咱们的预期进出甚远。然则,当神经网罗使用局部绞拧数进行教练时,截止令东说念主畏怯:它的正确率卓越了99.9%。
更具挑战性的任务:局部绞拧数识别复杂纽结
探花巨乳尽管我对这一截止感到诧异,但识别五个通俗纽结的任求本质上相对泛泛,咱们完全不错通过现存的不变量完成(甚绝顶为狂暴的“识别纽结”玩家也不错完成)。因此,咱们决定给神经网罗一个更辣手的挑战。这一次,咱们经心挑选三个纽结:康威(Conway)结、木下-寺坂纽结(Kinoshita–Terasaka,以下简称KT结),以及最通俗的“泛泛结”(unknot)。前两个纽结都有11个交叉点,而且是相互的变形,因为它们除了在一个区域“翻转”外是完全疏通的。它们分享很多的纽结不变量,同期也与泛泛结分享一些不变量。咱们发现,关于使用笛卡尔坐标教练的神经网罗,康威结和KT结是无法永诀的,但使用局部绞拧数教练的神经网罗或者以99.9%的准确率识别它们。
图6:纽结的完全不变量在光滑形变下保捏不变。不同的拓扑结构具有不同的完全不变量。(a)中的两幅图像展示的是归并个结吗?仅凭东说念主类的直观通常难以永诀。事实上,这两幅图清楚的是两种稍稍不同的结——康威结和KT结。由于很难永诀这两个结,它们不错用来测试神经网罗是否不错识别纽结。(b)展示了两种结的不同构型——51结(也称五叶结,上图)和72结(下图)。在达维德·米基耶莱托偏激共事的神经网罗议论中,五叶结是第一个教练数据集的一部分,而72结则包含在更大的数据聚合。图片
咱们的终极测试是将这种教练应用于更大畛域的纽结。咱们对250种结进行了模拟,这些结最多有10个交叉点(见图6b)。当神经网罗使用笛卡尔坐标进行教练时,正确率唯独20%。比拟之下,咱们使用局部绞拧数进行教练,AI不错在几秒内以95%的准确率分类悉数250个结,这远超任何已知的算法或单一拓扑不变量[5]。
终末的考据——瓦西里耶夫不变量
在对纽结表面一无所知的情况下,神经网罗通过自学,具备了一种永远跳脱于东说念主类直观以外的才能。本质上,东说念主们仍在勉力掀开“黑箱”,潜入神经网罗究竟探索到了什么。咱们发现,为了永诀五个最通俗的结,神经网罗会将结上的每一双点的绞拧数相乘。值得珍惜的是,这个量等价于一个已存在的不变量,称为“二阶瓦西里耶夫(Vassiliev)不变量”。瓦西里耶夫不变量是通过将局部绞拧数矩阵的二元组、三元组、四元组……直到n元组相乘来计较的。趁便提一下,二阶瓦西里耶夫不变量亦然康威多项式的二次项悉数,这是一种咱们之前提到的代数不变量。一个仍未被考据的料想以为,或者通过积分计较的瓦西里耶夫不变量完备集可能等于永远寻求的完全不变量。
咱们很怡悦地发现,神经网罗或者通过计较更高阶的瓦西里耶夫不变量来合适更复杂的结。举例,为了唯独分类五个通俗结,神经网罗仅需计较二阶瓦西里耶夫不变量。但在250个结的数据聚合,它可能司帐算三阶或四阶的瓦西里耶夫不变量。
几何不变量和代数不变量是通过相等不同的数学措施计较的。AI或者发现它们之间的联系相等令东说念主本心,这也使咱们更接近完全不变量。
纽结竟然很紧迫
在短短三年内,AlphaFold生成了数百万种卵白质,其中大部分尚未被完全议论。2023年,由华沙大学的乔安娜·苏尔科夫斯卡(JoannaSulkowska)带领的一组议论东说念主员磋议,通过AlphaFold生成的卵白质中有多达2%是纽结卵白质,其中最复杂的结有六个交叉点[11]。2022年,约翰内斯·古滕贝格大学的彼得·维尔瑙(PeterVirnau)在AlphaFold2数据聚合发现了一种具有七个交叉点的纽结卵白质[12]。这种卵白质从未在实验中不雅察到,因此咱们不乖谬由敬佩可能还有更复杂的纽结卵白质存在。
纽结不仅存在于生物学中。有议论发现,纽结的拓扑结构会影响冰和水凝胶的热力学和材料属性,这意味着明天咱们可能会行使拓扑性质遐想新材料。咱们需要更有用的措施来识别分子和材料中的纽结结构,但愿咱们的发现能为这一探索提供带领。
在2004年,加拿大的三位议论东说念主员行使他们大学的计较集群将泰特当先编制的结表扩张至19个交叉点的交错纽结,构造出卓越六十亿种独到的纽结结构[7]。泰特花了25年创建他我方的纽结列表,他可能会诧异于一百年后,一台机器居然能在短短几天内将他的职责扩张卓越五个数目级。纽结表面中目下最大的未解之谜仍然是寻找完全不变量。当今,既然有了AI的助力,下一步的发扬可能让咱们感到诧异。
译者注
[1]卵白质可凭借相互作用在特定环境下自我拼装,这个经由被称为卵白质折叠。卵白质折叠问题是分子生物学限制尚未处置的一个要紧课题。
[2]数学上,咱们界说一个纽结为空间中的一个闭合弧线,而且该弧线在职何所在不会出现自相交。
[3]此处原文Theaboveimageisextractedfromtheirtableofknotsuptosevencrossings–“thefirstsevenordersofknottiness”,表述有误。从图中不丢丑出,泰罕见东说念主列出的结表中包含了最多9个交叉点。图2本质上列出了非泛泛纽结的前七种情况,即交叉点的个数大于等于3且小于等于9。(珍惜,交叉点小于等于2的纽结不错光滑形变为泛泛结。)
[4]本段原文有矛盾,“Arecipeforsuchatopologicalinvariantcouldbesomethinglikethis……”,“itisn’tacompleteinvariant”。DT编码仅仅用来构造拓扑不变量的一种措施,它自己并不是一个不变量。DT编码提供了一个径直的标识化默示,使得纽结不错改变成一串数字,便于分析和计较。东说念主们不错进一步推导出亚历山大多项式等紧迫的纽结不变量。另外,使用DT编码,目下还无法构造出确切的完全不变量。
[5]此处原文有误,“OnesuchinvariantthatIamfondofisthe‘writhe’”。和DT编码一样,绞拧数自己并不是拓扑不变量,但不错用来构造拓扑不变量。不同的是,绞拧数用于刻画纽结二维投影图的几何特色(而非单一的代数性质,具体见下文)。举例绞拧数不错用来构造纽结的自交数,在永诀镜像纽结、刻画纽结几何特色和某些物理系统(如DNA链)的议论中有紧迫应用。不异,使用绞拧数,目下还无法构造出确切的完全不变量。
参考文件
[1]Dabrowski-Tumanski,Pawel,andJoannaI.Sulkowska."Totieornottotie?Thatisthequestion."Polymers9.9(2017):454.
[2]Perko,KennethA."Ontheclassificationofknots."ProceedingsoftheAmericanMathematicalSociety45.2(1974):262-266.
[3]Dowker,CliffordH.,andMorwenB.Thistlethwaite."Classificationofknotprojections."TopologyanditsApplications16.1(1983):19-31.
[4]Ippoliti,Emiliano."Ontheheuristicpowerofmathematicalrepresentations."Synthese200.5(2022):407.
[5]Sleiman,JosephLahoud,etal."Geometriclearningofknottopology."SoftMatter20.1(2024):71-78.
[6]Jumper,John,etal."HighlyaccurateproteinstructurepredictionwithAlphaFold."nature596.7873(2021):583-589.
[7]Vandans,Olafs,etal."Identifyingknottypesofpolymerconformationsbymachinelearning."PhysicalReviewE101.2(2020):022502.
[8]Braghetto,Anna,etal."Machinelearningunderstandsknottedpolymers."Macromolecules56.7(2023):2899-2909.
[9]Sleiman,JosephL.,etal."GeometricPredictorsofKnottedandLinkedArcs."ACSPolymersAu2.5(2022):341-350.
[10]Perlinska,AgataP.,etal."AlphaFoldpredictsnovelhumanproteinswithknots."ProteinScience32.5(2023):e4631.
[11]Brems,MaartenA.,etal."AlphaFoldpredictsthemostcomplexproteinknotandcompositeproteinknots."ProteinScience31.8(2022):e4380.
[12]Rankin,Flint,Schermann."Enumeratingtheprimealternatingknots户外 内射,PartI."JournalofKnotTheoryandItsRamifications13.01(2004):57-100.