'人工智能助力藥物研發!產生更大的實際應用價值'

"

點評 | 吳朝暉(浙江大學校長,中國科學院院士)

責編 | 兮

生命科學迅猛發展,刷新大家對生命認知的同時,也給疾病治療帶來了更多的可能性。理論上,幾乎所有生物學功能都可以被藥物靶向。小分子因其相對低廉的成本,成為各大製藥公司和研究機構開展疾病治療研究的首選工具,藥物發現也因此越來越“平權化”。然而,找到具有合適藥理學、毒理學和藥代動力學等特性的小分子,依然是一個很大的挑戰。面對不斷增長的藥物研發數據,現有的人工智能(AI)方法雖然可以據此構建出強大的預測模型,然而深度神經網絡所學到的東西通常難以被化學家和生物學家理解,而且這種認知差距正在不斷增大,也使科技人員難以相信AI模型的預測結果,這也限制了AI技術在藥物研發實踐中的應用【1】

近日,中科院上海藥物所蔣華良院士和鄭明月研究員(第一作者為博士研究生熊招平)在Journal of Medicinal Chemistry發表封面文章Pushingthe Boundaries of Molecular Representation for Drug Discovery with the GraphAttention Mechanism該論文介紹了一種基於注意力機制的圖神經網絡模型(Attentive FP)。該模型可以用於分子表徵,在多個藥物發現相關的數據集上的預測表現達到當前最優,並且該模型所學到的內容具有可解釋性。這種可解釋性在機器的認知和人的認知的差異間架起了一座橋樑,由此可能更好地利用機器的認知增強藥物學家的認知,產生更大的實際應用價值。Attentive FP的特徵可視化表明,它可以自動從特定任務中學習到分子結構內非局部的特性,因此可以幫助藥物學家或化學家超越經驗和直覺,直接從各種性質數據中獲取對該分子結構更深層的理解。

"

點評 | 吳朝暉(浙江大學校長,中國科學院院士)

責編 | 兮

生命科學迅猛發展,刷新大家對生命認知的同時,也給疾病治療帶來了更多的可能性。理論上,幾乎所有生物學功能都可以被藥物靶向。小分子因其相對低廉的成本,成為各大製藥公司和研究機構開展疾病治療研究的首選工具,藥物發現也因此越來越“平權化”。然而,找到具有合適藥理學、毒理學和藥代動力學等特性的小分子,依然是一個很大的挑戰。面對不斷增長的藥物研發數據,現有的人工智能(AI)方法雖然可以據此構建出強大的預測模型,然而深度神經網絡所學到的東西通常難以被化學家和生物學家理解,而且這種認知差距正在不斷增大,也使科技人員難以相信AI模型的預測結果,這也限制了AI技術在藥物研發實踐中的應用【1】

近日,中科院上海藥物所蔣華良院士和鄭明月研究員(第一作者為博士研究生熊招平)在Journal of Medicinal Chemistry發表封面文章Pushingthe Boundaries of Molecular Representation for Drug Discovery with the GraphAttention Mechanism該論文介紹了一種基於注意力機制的圖神經網絡模型(Attentive FP)。該模型可以用於分子表徵,在多個藥物發現相關的數據集上的預測表現達到當前最優,並且該模型所學到的內容具有可解釋性。這種可解釋性在機器的認知和人的認知的差異間架起了一座橋樑,由此可能更好地利用機器的認知增強藥物學家的認知,產生更大的實際應用價值。Attentive FP的特徵可視化表明,它可以自動從特定任務中學習到分子結構內非局部的特性,因此可以幫助藥物學家或化學家超越經驗和直覺,直接從各種性質數據中獲取對該分子結構更深層的理解。

人工智能助力藥物研發!產生更大的實際應用價值


"

點評 | 吳朝暉(浙江大學校長,中國科學院院士)

責編 | 兮

生命科學迅猛發展,刷新大家對生命認知的同時,也給疾病治療帶來了更多的可能性。理論上,幾乎所有生物學功能都可以被藥物靶向。小分子因其相對低廉的成本,成為各大製藥公司和研究機構開展疾病治療研究的首選工具,藥物發現也因此越來越“平權化”。然而,找到具有合適藥理學、毒理學和藥代動力學等特性的小分子,依然是一個很大的挑戰。面對不斷增長的藥物研發數據,現有的人工智能(AI)方法雖然可以據此構建出強大的預測模型,然而深度神經網絡所學到的東西通常難以被化學家和生物學家理解,而且這種認知差距正在不斷增大,也使科技人員難以相信AI模型的預測結果,這也限制了AI技術在藥物研發實踐中的應用【1】

近日,中科院上海藥物所蔣華良院士和鄭明月研究員(第一作者為博士研究生熊招平)在Journal of Medicinal Chemistry發表封面文章Pushingthe Boundaries of Molecular Representation for Drug Discovery with the GraphAttention Mechanism該論文介紹了一種基於注意力機制的圖神經網絡模型(Attentive FP)。該模型可以用於分子表徵,在多個藥物發現相關的數據集上的預測表現達到當前最優,並且該模型所學到的內容具有可解釋性。這種可解釋性在機器的認知和人的認知的差異間架起了一座橋樑,由此可能更好地利用機器的認知增強藥物學家的認知,產生更大的實際應用價值。Attentive FP的特徵可視化表明,它可以自動從特定任務中學習到分子結構內非局部的特性,因此可以幫助藥物學家或化學家超越經驗和直覺,直接從各種性質數據中獲取對該分子結構更深層的理解。

人工智能助力藥物研發!產生更大的實際應用價值


人工智能助力藥物研發!產生更大的實際應用價值

結構決定性質,性質體現於結構。如何從一個分子的化學結構中提取出它的各種性質是科學家夢寐以求的目標。到目前為止,人們先後發明了5000種以上的不同描述符(特徵)去表徵一個化學分子的結構【2】。傳統的機器學習模型就圍繞這些預定義的描述符,通過特徵工程選取不同的組合,對小分子的各種性質進行建模預測。特徵工程選取是一個繁瑣且耗時的過程,而且這種較強的預設先驗很可能使模型產生偏差,導致預測效果達不到最優。以Neural FP為代表的分子圖神經網絡模型能以較少的特徵描述符作為輸入,得到明顯更優的預測結果,是人工智能在分子表徵領域的重要嘗試【3】。然而,在機器學習中準確性和可解釋性很難兼顧。如果不能使神經網絡的“黑盒子”透明化,人們很難判斷一個模型只是擬合或記住了訓練數據,還是真正具備了泛化的能力。面對藥物研發後期巨大的成本投入,藥物學家不可能完全相信某個黑盒算法給出的“武斷”預測【4】。因此,人工智能藥物設計研究的重點之一就是需要探索深度學習算法的可解釋性,針對性地開發了更符合化學背景,更易於解讀的人工智能模型。

"

點評 | 吳朝暉(浙江大學校長,中國科學院院士)

責編 | 兮

生命科學迅猛發展,刷新大家對生命認知的同時,也給疾病治療帶來了更多的可能性。理論上,幾乎所有生物學功能都可以被藥物靶向。小分子因其相對低廉的成本,成為各大製藥公司和研究機構開展疾病治療研究的首選工具,藥物發現也因此越來越“平權化”。然而,找到具有合適藥理學、毒理學和藥代動力學等特性的小分子,依然是一個很大的挑戰。面對不斷增長的藥物研發數據,現有的人工智能(AI)方法雖然可以據此構建出強大的預測模型,然而深度神經網絡所學到的東西通常難以被化學家和生物學家理解,而且這種認知差距正在不斷增大,也使科技人員難以相信AI模型的預測結果,這也限制了AI技術在藥物研發實踐中的應用【1】

近日,中科院上海藥物所蔣華良院士和鄭明月研究員(第一作者為博士研究生熊招平)在Journal of Medicinal Chemistry發表封面文章Pushingthe Boundaries of Molecular Representation for Drug Discovery with the GraphAttention Mechanism該論文介紹了一種基於注意力機制的圖神經網絡模型(Attentive FP)。該模型可以用於分子表徵,在多個藥物發現相關的數據集上的預測表現達到當前最優,並且該模型所學到的內容具有可解釋性。這種可解釋性在機器的認知和人的認知的差異間架起了一座橋樑,由此可能更好地利用機器的認知增強藥物學家的認知,產生更大的實際應用價值。Attentive FP的特徵可視化表明,它可以自動從特定任務中學習到分子結構內非局部的特性,因此可以幫助藥物學家或化學家超越經驗和直覺,直接從各種性質數據中獲取對該分子結構更深層的理解。

人工智能助力藥物研發!產生更大的實際應用價值


人工智能助力藥物研發!產生更大的實際應用價值

結構決定性質,性質體現於結構。如何從一個分子的化學結構中提取出它的各種性質是科學家夢寐以求的目標。到目前為止,人們先後發明了5000種以上的不同描述符(特徵)去表徵一個化學分子的結構【2】。傳統的機器學習模型就圍繞這些預定義的描述符,通過特徵工程選取不同的組合,對小分子的各種性質進行建模預測。特徵工程選取是一個繁瑣且耗時的過程,而且這種較強的預設先驗很可能使模型產生偏差,導致預測效果達不到最優。以Neural FP為代表的分子圖神經網絡模型能以較少的特徵描述符作為輸入,得到明顯更優的預測結果,是人工智能在分子表徵領域的重要嘗試【3】。然而,在機器學習中準確性和可解釋性很難兼顧。如果不能使神經網絡的“黑盒子”透明化,人們很難判斷一個模型只是擬合或記住了訓練數據,還是真正具備了泛化的能力。面對藥物研發後期巨大的成本投入,藥物學家不可能完全相信某個黑盒算法給出的“武斷”預測【4】。因此,人工智能藥物設計研究的重點之一就是需要探索深度學習算法的可解釋性,針對性地開發了更符合化學背景,更易於解讀的人工智能模型。

人工智能助力藥物研發!產生更大的實際應用價值

圖1. Attentive FP總體框架以及與同類的圖神經網絡模型比較。

作者比較了他們自己的AttentiveFP模型與其他幾種圖神經網絡模型(圖1)。如果將分子看作為一張圖(graph),給定一個節點(紅色標記的目標原子),在Neural FP【3】和GCN【5】模型中,其他節點對目標節點的影響會隨距離嚴重衰減,這不符合化學直覺,即化學結構中距離較遠的原子間有時也會產生較強的影響,比如分子內氫鍵的形成;Weave【6】和MPNN(特指Deepchem中實現的MPNN)模型則默認所有其他節點對目標節點有相同的影響,這可以更好捕捉分子結構中的一些非局部特徵,但顯然忽視了化學分子固有的結構。作者提出的Attentive FP能在保持分子固有結構的情況下,有效捕捉圖的非局部特徵和遠距離節點相互作用(圖2)。這得益於Attentive FP先在原子水平加入注意力機制,學習到分子的局部特徵,後在整個分子水平加入注意力機制,學習到分子的全局特徵。值得一提的是,相比其他同類圖神經網絡模型,Attentive FP用了最少的初始特徵作為模型輸入,依然在多個測試數據集中達到了當前最優的預測表現。

"

點評 | 吳朝暉(浙江大學校長,中國科學院院士)

責編 | 兮

生命科學迅猛發展,刷新大家對生命認知的同時,也給疾病治療帶來了更多的可能性。理論上,幾乎所有生物學功能都可以被藥物靶向。小分子因其相對低廉的成本,成為各大製藥公司和研究機構開展疾病治療研究的首選工具,藥物發現也因此越來越“平權化”。然而,找到具有合適藥理學、毒理學和藥代動力學等特性的小分子,依然是一個很大的挑戰。面對不斷增長的藥物研發數據,現有的人工智能(AI)方法雖然可以據此構建出強大的預測模型,然而深度神經網絡所學到的東西通常難以被化學家和生物學家理解,而且這種認知差距正在不斷增大,也使科技人員難以相信AI模型的預測結果,這也限制了AI技術在藥物研發實踐中的應用【1】

近日,中科院上海藥物所蔣華良院士和鄭明月研究員(第一作者為博士研究生熊招平)在Journal of Medicinal Chemistry發表封面文章Pushingthe Boundaries of Molecular Representation for Drug Discovery with the GraphAttention Mechanism該論文介紹了一種基於注意力機制的圖神經網絡模型(Attentive FP)。該模型可以用於分子表徵,在多個藥物發現相關的數據集上的預測表現達到當前最優,並且該模型所學到的內容具有可解釋性。這種可解釋性在機器的認知和人的認知的差異間架起了一座橋樑,由此可能更好地利用機器的認知增強藥物學家的認知,產生更大的實際應用價值。Attentive FP的特徵可視化表明,它可以自動從特定任務中學習到分子結構內非局部的特性,因此可以幫助藥物學家或化學家超越經驗和直覺,直接從各種性質數據中獲取對該分子結構更深層的理解。

人工智能助力藥物研發!產生更大的實際應用價值


人工智能助力藥物研發!產生更大的實際應用價值

結構決定性質,性質體現於結構。如何從一個分子的化學結構中提取出它的各種性質是科學家夢寐以求的目標。到目前為止,人們先後發明了5000種以上的不同描述符(特徵)去表徵一個化學分子的結構【2】。傳統的機器學習模型就圍繞這些預定義的描述符,通過特徵工程選取不同的組合,對小分子的各種性質進行建模預測。特徵工程選取是一個繁瑣且耗時的過程,而且這種較強的預設先驗很可能使模型產生偏差,導致預測效果達不到最優。以Neural FP為代表的分子圖神經網絡模型能以較少的特徵描述符作為輸入,得到明顯更優的預測結果,是人工智能在分子表徵領域的重要嘗試【3】。然而,在機器學習中準確性和可解釋性很難兼顧。如果不能使神經網絡的“黑盒子”透明化,人們很難判斷一個模型只是擬合或記住了訓練數據,還是真正具備了泛化的能力。面對藥物研發後期巨大的成本投入,藥物學家不可能完全相信某個黑盒算法給出的“武斷”預測【4】。因此,人工智能藥物設計研究的重點之一就是需要探索深度學習算法的可解釋性,針對性地開發了更符合化學背景,更易於解讀的人工智能模型。

人工智能助力藥物研發!產生更大的實際應用價值

圖1. Attentive FP總體框架以及與同類的圖神經網絡模型比較。

作者比較了他們自己的AttentiveFP模型與其他幾種圖神經網絡模型(圖1)。如果將分子看作為一張圖(graph),給定一個節點(紅色標記的目標原子),在Neural FP【3】和GCN【5】模型中,其他節點對目標節點的影響會隨距離嚴重衰減,這不符合化學直覺,即化學結構中距離較遠的原子間有時也會產生較強的影響,比如分子內氫鍵的形成;Weave【6】和MPNN(特指Deepchem中實現的MPNN)模型則默認所有其他節點對目標節點有相同的影響,這可以更好捕捉分子結構中的一些非局部特徵,但顯然忽視了化學分子固有的結構。作者提出的Attentive FP能在保持分子固有結構的情況下,有效捕捉圖的非局部特徵和遠距離節點相互作用(圖2)。這得益於Attentive FP先在原子水平加入注意力機制,學習到分子的局部特徵,後在整個分子水平加入注意力機制,學習到分子的全局特徵。值得一提的是,相比其他同類圖神經網絡模型,Attentive FP用了最少的初始特徵作為模型輸入,依然在多個測試數據集中達到了當前最優的預測表現。

人工智能助力藥物研發!產生更大的實際應用價值

圖2. Attentive FP 注意力圖神經網絡架構。


"

點評 | 吳朝暉(浙江大學校長,中國科學院院士)

責編 | 兮

生命科學迅猛發展,刷新大家對生命認知的同時,也給疾病治療帶來了更多的可能性。理論上,幾乎所有生物學功能都可以被藥物靶向。小分子因其相對低廉的成本,成為各大製藥公司和研究機構開展疾病治療研究的首選工具,藥物發現也因此越來越“平權化”。然而,找到具有合適藥理學、毒理學和藥代動力學等特性的小分子,依然是一個很大的挑戰。面對不斷增長的藥物研發數據,現有的人工智能(AI)方法雖然可以據此構建出強大的預測模型,然而深度神經網絡所學到的東西通常難以被化學家和生物學家理解,而且這種認知差距正在不斷增大,也使科技人員難以相信AI模型的預測結果,這也限制了AI技術在藥物研發實踐中的應用【1】

近日,中科院上海藥物所蔣華良院士和鄭明月研究員(第一作者為博士研究生熊招平)在Journal of Medicinal Chemistry發表封面文章Pushingthe Boundaries of Molecular Representation for Drug Discovery with the GraphAttention Mechanism該論文介紹了一種基於注意力機制的圖神經網絡模型(Attentive FP)。該模型可以用於分子表徵,在多個藥物發現相關的數據集上的預測表現達到當前最優,並且該模型所學到的內容具有可解釋性。這種可解釋性在機器的認知和人的認知的差異間架起了一座橋樑,由此可能更好地利用機器的認知增強藥物學家的認知,產生更大的實際應用價值。Attentive FP的特徵可視化表明,它可以自動從特定任務中學習到分子結構內非局部的特性,因此可以幫助藥物學家或化學家超越經驗和直覺,直接從各種性質數據中獲取對該分子結構更深層的理解。

人工智能助力藥物研發!產生更大的實際應用價值


人工智能助力藥物研發!產生更大的實際應用價值

結構決定性質,性質體現於結構。如何從一個分子的化學結構中提取出它的各種性質是科學家夢寐以求的目標。到目前為止,人們先後發明了5000種以上的不同描述符(特徵)去表徵一個化學分子的結構【2】。傳統的機器學習模型就圍繞這些預定義的描述符,通過特徵工程選取不同的組合,對小分子的各種性質進行建模預測。特徵工程選取是一個繁瑣且耗時的過程,而且這種較強的預設先驗很可能使模型產生偏差,導致預測效果達不到最優。以Neural FP為代表的分子圖神經網絡模型能以較少的特徵描述符作為輸入,得到明顯更優的預測結果,是人工智能在分子表徵領域的重要嘗試【3】。然而,在機器學習中準確性和可解釋性很難兼顧。如果不能使神經網絡的“黑盒子”透明化,人們很難判斷一個模型只是擬合或記住了訓練數據,還是真正具備了泛化的能力。面對藥物研發後期巨大的成本投入,藥物學家不可能完全相信某個黑盒算法給出的“武斷”預測【4】。因此,人工智能藥物設計研究的重點之一就是需要探索深度學習算法的可解釋性,針對性地開發了更符合化學背景,更易於解讀的人工智能模型。

人工智能助力藥物研發!產生更大的實際應用價值

圖1. Attentive FP總體框架以及與同類的圖神經網絡模型比較。

作者比較了他們自己的AttentiveFP模型與其他幾種圖神經網絡模型(圖1)。如果將分子看作為一張圖(graph),給定一個節點(紅色標記的目標原子),在Neural FP【3】和GCN【5】模型中,其他節點對目標節點的影響會隨距離嚴重衰減,這不符合化學直覺,即化學結構中距離較遠的原子間有時也會產生較強的影響,比如分子內氫鍵的形成;Weave【6】和MPNN(特指Deepchem中實現的MPNN)模型則默認所有其他節點對目標節點有相同的影響,這可以更好捕捉分子結構中的一些非局部特徵,但顯然忽視了化學分子固有的結構。作者提出的Attentive FP能在保持分子固有結構的情況下,有效捕捉圖的非局部特徵和遠距離節點相互作用(圖2)。這得益於Attentive FP先在原子水平加入注意力機制,學習到分子的局部特徵,後在整個分子水平加入注意力機制,學習到分子的全局特徵。值得一提的是,相比其他同類圖神經網絡模型,Attentive FP用了最少的初始特徵作為模型輸入,依然在多個測試數據集中達到了當前最優的預測表現。

人工智能助力藥物研發!產生更大的實際應用價值

圖2. Attentive FP 注意力圖神經網絡架構。


人工智能助力藥物研發!產生更大的實際應用價值

圖3 AttentiveFP學習水溶性時自動學習到的特徵與化學家定義的描述符比較。

作者將Attentive FP學習水溶性時自動學習到的特徵與化學家定義的描述符進行了對比(圖3)。可以看到,訓練前後,自動學習到的特徵幾乎能復現出跟預測任務相關的經驗描述符。這些經驗描述符是根據化學家的專業知識所定義出來的,比如TPSA(拓撲分子極性表面積)和LogP(油水分配係數)。因為這些經驗描述符與水溶性高度相關,對預測任務有較強的指導,傳統的機器學習模型通常會直接選擇這些描述符作為輸入特徵的一部分來預測水溶性。但作者發展的Attentive FP可以不以這些化學先驗作為輸入,而以更原始簡單的輸入(如原子和鍵的類型等),直接在在隱含層中自動學習到的這些人們長期積累的化學知識,表現為訓練後的模型隱含層特徵與這些經驗描述符的相關性變高,而與預測任務不相關的描述符如SA Score (合成難易性)和Drug Likeness(類藥性)與學習到的隱層特徵相關性比較並沒有顯著變化。

"

點評 | 吳朝暉(浙江大學校長,中國科學院院士)

責編 | 兮

生命科學迅猛發展,刷新大家對生命認知的同時,也給疾病治療帶來了更多的可能性。理論上,幾乎所有生物學功能都可以被藥物靶向。小分子因其相對低廉的成本,成為各大製藥公司和研究機構開展疾病治療研究的首選工具,藥物發現也因此越來越“平權化”。然而,找到具有合適藥理學、毒理學和藥代動力學等特性的小分子,依然是一個很大的挑戰。面對不斷增長的藥物研發數據,現有的人工智能(AI)方法雖然可以據此構建出強大的預測模型,然而深度神經網絡所學到的東西通常難以被化學家和生物學家理解,而且這種認知差距正在不斷增大,也使科技人員難以相信AI模型的預測結果,這也限制了AI技術在藥物研發實踐中的應用【1】

近日,中科院上海藥物所蔣華良院士和鄭明月研究員(第一作者為博士研究生熊招平)在Journal of Medicinal Chemistry發表封面文章Pushingthe Boundaries of Molecular Representation for Drug Discovery with the GraphAttention Mechanism該論文介紹了一種基於注意力機制的圖神經網絡模型(Attentive FP)。該模型可以用於分子表徵,在多個藥物發現相關的數據集上的預測表現達到當前最優,並且該模型所學到的內容具有可解釋性。這種可解釋性在機器的認知和人的認知的差異間架起了一座橋樑,由此可能更好地利用機器的認知增強藥物學家的認知,產生更大的實際應用價值。Attentive FP的特徵可視化表明,它可以自動從特定任務中學習到分子結構內非局部的特性,因此可以幫助藥物學家或化學家超越經驗和直覺,直接從各種性質數據中獲取對該分子結構更深層的理解。

人工智能助力藥物研發!產生更大的實際應用價值


人工智能助力藥物研發!產生更大的實際應用價值

結構決定性質,性質體現於結構。如何從一個分子的化學結構中提取出它的各種性質是科學家夢寐以求的目標。到目前為止,人們先後發明了5000種以上的不同描述符(特徵)去表徵一個化學分子的結構【2】。傳統的機器學習模型就圍繞這些預定義的描述符,通過特徵工程選取不同的組合,對小分子的各種性質進行建模預測。特徵工程選取是一個繁瑣且耗時的過程,而且這種較強的預設先驗很可能使模型產生偏差,導致預測效果達不到最優。以Neural FP為代表的分子圖神經網絡模型能以較少的特徵描述符作為輸入,得到明顯更優的預測結果,是人工智能在分子表徵領域的重要嘗試【3】。然而,在機器學習中準確性和可解釋性很難兼顧。如果不能使神經網絡的“黑盒子”透明化,人們很難判斷一個模型只是擬合或記住了訓練數據,還是真正具備了泛化的能力。面對藥物研發後期巨大的成本投入,藥物學家不可能完全相信某個黑盒算法給出的“武斷”預測【4】。因此,人工智能藥物設計研究的重點之一就是需要探索深度學習算法的可解釋性,針對性地開發了更符合化學背景,更易於解讀的人工智能模型。

人工智能助力藥物研發!產生更大的實際應用價值

圖1. Attentive FP總體框架以及與同類的圖神經網絡模型比較。

作者比較了他們自己的AttentiveFP模型與其他幾種圖神經網絡模型(圖1)。如果將分子看作為一張圖(graph),給定一個節點(紅色標記的目標原子),在Neural FP【3】和GCN【5】模型中,其他節點對目標節點的影響會隨距離嚴重衰減,這不符合化學直覺,即化學結構中距離較遠的原子間有時也會產生較強的影響,比如分子內氫鍵的形成;Weave【6】和MPNN(特指Deepchem中實現的MPNN)模型則默認所有其他節點對目標節點有相同的影響,這可以更好捕捉分子結構中的一些非局部特徵,但顯然忽視了化學分子固有的結構。作者提出的Attentive FP能在保持分子固有結構的情況下,有效捕捉圖的非局部特徵和遠距離節點相互作用(圖2)。這得益於Attentive FP先在原子水平加入注意力機制,學習到分子的局部特徵,後在整個分子水平加入注意力機制,學習到分子的全局特徵。值得一提的是,相比其他同類圖神經網絡模型,Attentive FP用了最少的初始特徵作為模型輸入,依然在多個測試數據集中達到了當前最優的預測表現。

人工智能助力藥物研發!產生更大的實際應用價值

圖2. Attentive FP 注意力圖神經網絡架構。


人工智能助力藥物研發!產生更大的實際應用價值

圖3 AttentiveFP學習水溶性時自動學習到的特徵與化學家定義的描述符比較。

作者將Attentive FP學習水溶性時自動學習到的特徵與化學家定義的描述符進行了對比(圖3)。可以看到,訓練前後,自動學習到的特徵幾乎能復現出跟預測任務相關的經驗描述符。這些經驗描述符是根據化學家的專業知識所定義出來的,比如TPSA(拓撲分子極性表面積)和LogP(油水分配係數)。因為這些經驗描述符與水溶性高度相關,對預測任務有較強的指導,傳統的機器學習模型通常會直接選擇這些描述符作為輸入特徵的一部分來預測水溶性。但作者發展的Attentive FP可以不以這些化學先驗作為輸入,而以更原始簡單的輸入(如原子和鍵的類型等),直接在在隱含層中自動學習到的這些人們長期積累的化學知識,表現為訓練後的模型隱含層特徵與這些經驗描述符的相關性變高,而與預測任務不相關的描述符如SA Score (合成難易性)和Drug Likeness(類藥性)與學習到的隱層特徵相關性比較並沒有顯著變化。

人工智能助力藥物研發!產生更大的實際應用價值

圖4. Attentive FP自動學習化學環境。

作者發展的AttentiveFP模型還能自動學習到原子所處的化學環境,比如,以藥物溶解度作為監督任務進行訓練,將模型學習到的原子向量作相似性評估,負相關的原子對標為黃色,正相關的標為藍色(圖4)。結果表明通過學習,整個分子顯示出特定的結構模式,這種模式在隱藏層的高層更加明顯。對於圖4所示的Iprodione結構,原子被自動聚集的三個部分正好對應分子結構中的三個片段,其中,分子結構中灰色背景的化學基團極性比較小,不利於水溶性,中間紅色背景的基團極性較大,利於水溶性。這一結果提示模型可能自動學習了到各個原子所處的不同化學環境。

"

點評 | 吳朝暉(浙江大學校長,中國科學院院士)

責編 | 兮

生命科學迅猛發展,刷新大家對生命認知的同時,也給疾病治療帶來了更多的可能性。理論上,幾乎所有生物學功能都可以被藥物靶向。小分子因其相對低廉的成本,成為各大製藥公司和研究機構開展疾病治療研究的首選工具,藥物發現也因此越來越“平權化”。然而,找到具有合適藥理學、毒理學和藥代動力學等特性的小分子,依然是一個很大的挑戰。面對不斷增長的藥物研發數據,現有的人工智能(AI)方法雖然可以據此構建出強大的預測模型,然而深度神經網絡所學到的東西通常難以被化學家和生物學家理解,而且這種認知差距正在不斷增大,也使科技人員難以相信AI模型的預測結果,這也限制了AI技術在藥物研發實踐中的應用【1】

近日,中科院上海藥物所蔣華良院士和鄭明月研究員(第一作者為博士研究生熊招平)在Journal of Medicinal Chemistry發表封面文章Pushingthe Boundaries of Molecular Representation for Drug Discovery with the GraphAttention Mechanism該論文介紹了一種基於注意力機制的圖神經網絡模型(Attentive FP)。該模型可以用於分子表徵,在多個藥物發現相關的數據集上的預測表現達到當前最優,並且該模型所學到的內容具有可解釋性。這種可解釋性在機器的認知和人的認知的差異間架起了一座橋樑,由此可能更好地利用機器的認知增強藥物學家的認知,產生更大的實際應用價值。Attentive FP的特徵可視化表明,它可以自動從特定任務中學習到分子結構內非局部的特性,因此可以幫助藥物學家或化學家超越經驗和直覺,直接從各種性質數據中獲取對該分子結構更深層的理解。

人工智能助力藥物研發!產生更大的實際應用價值


人工智能助力藥物研發!產生更大的實際應用價值

結構決定性質,性質體現於結構。如何從一個分子的化學結構中提取出它的各種性質是科學家夢寐以求的目標。到目前為止,人們先後發明了5000種以上的不同描述符(特徵)去表徵一個化學分子的結構【2】。傳統的機器學習模型就圍繞這些預定義的描述符,通過特徵工程選取不同的組合,對小分子的各種性質進行建模預測。特徵工程選取是一個繁瑣且耗時的過程,而且這種較強的預設先驗很可能使模型產生偏差,導致預測效果達不到最優。以Neural FP為代表的分子圖神經網絡模型能以較少的特徵描述符作為輸入,得到明顯更優的預測結果,是人工智能在分子表徵領域的重要嘗試【3】。然而,在機器學習中準確性和可解釋性很難兼顧。如果不能使神經網絡的“黑盒子”透明化,人們很難判斷一個模型只是擬合或記住了訓練數據,還是真正具備了泛化的能力。面對藥物研發後期巨大的成本投入,藥物學家不可能完全相信某個黑盒算法給出的“武斷”預測【4】。因此,人工智能藥物設計研究的重點之一就是需要探索深度學習算法的可解釋性,針對性地開發了更符合化學背景,更易於解讀的人工智能模型。

人工智能助力藥物研發!產生更大的實際應用價值

圖1. Attentive FP總體框架以及與同類的圖神經網絡模型比較。

作者比較了他們自己的AttentiveFP模型與其他幾種圖神經網絡模型(圖1)。如果將分子看作為一張圖(graph),給定一個節點(紅色標記的目標原子),在Neural FP【3】和GCN【5】模型中,其他節點對目標節點的影響會隨距離嚴重衰減,這不符合化學直覺,即化學結構中距離較遠的原子間有時也會產生較強的影響,比如分子內氫鍵的形成;Weave【6】和MPNN(特指Deepchem中實現的MPNN)模型則默認所有其他節點對目標節點有相同的影響,這可以更好捕捉分子結構中的一些非局部特徵,但顯然忽視了化學分子固有的結構。作者提出的Attentive FP能在保持分子固有結構的情況下,有效捕捉圖的非局部特徵和遠距離節點相互作用(圖2)。這得益於Attentive FP先在原子水平加入注意力機制,學習到分子的局部特徵,後在整個分子水平加入注意力機制,學習到分子的全局特徵。值得一提的是,相比其他同類圖神經網絡模型,Attentive FP用了最少的初始特徵作為模型輸入,依然在多個測試數據集中達到了當前最優的預測表現。

人工智能助力藥物研發!產生更大的實際應用價值

圖2. Attentive FP 注意力圖神經網絡架構。


人工智能助力藥物研發!產生更大的實際應用價值

圖3 AttentiveFP學習水溶性時自動學習到的特徵與化學家定義的描述符比較。

作者將Attentive FP學習水溶性時自動學習到的特徵與化學家定義的描述符進行了對比(圖3)。可以看到,訓練前後,自動學習到的特徵幾乎能復現出跟預測任務相關的經驗描述符。這些經驗描述符是根據化學家的專業知識所定義出來的,比如TPSA(拓撲分子極性表面積)和LogP(油水分配係數)。因為這些經驗描述符與水溶性高度相關,對預測任務有較強的指導,傳統的機器學習模型通常會直接選擇這些描述符作為輸入特徵的一部分來預測水溶性。但作者發展的Attentive FP可以不以這些化學先驗作為輸入,而以更原始簡單的輸入(如原子和鍵的類型等),直接在在隱含層中自動學習到的這些人們長期積累的化學知識,表現為訓練後的模型隱含層特徵與這些經驗描述符的相關性變高,而與預測任務不相關的描述符如SA Score (合成難易性)和Drug Likeness(類藥性)與學習到的隱層特徵相關性比較並沒有顯著變化。

人工智能助力藥物研發!產生更大的實際應用價值

圖4. Attentive FP自動學習化學環境。

作者發展的AttentiveFP模型還能自動學習到原子所處的化學環境,比如,以藥物溶解度作為監督任務進行訓練,將模型學習到的原子向量作相似性評估,負相關的原子對標為黃色,正相關的標為藍色(圖4)。結果表明通過學習,整個分子顯示出特定的結構模式,這種模式在隱藏層的高層更加明顯。對於圖4所示的Iprodione結構,原子被自動聚集的三個部分正好對應分子結構中的三個片段,其中,分子結構中灰色背景的化學基團極性比較小,不利於水溶性,中間紅色背景的基團極性較大,利於水溶性。這一結果提示模型可能自動學習了到各個原子所處的不同化學環境。

人工智能助力藥物研發!產生更大的實際應用價值

圖5. Attentive FP自動學習到分子中的芳香性子結構。

化學分子中的芳香性是一種典型的非局部特徵,這一問題也給基於卷積架構的圖神經網絡模型帶來了挑戰。通過利用注意力機制,作者發展的Attentive FP模型很好的解決了這一問題。當原始輸入中去除編碼芳香性的相關特徵(避免信息洩露),輸出僅以分子中芳香原子的個數作為學習目標進行監督訓練時,Attentive FP能根據注意力機制的權重,準確標出芳香原子的位置。同時,訓練完成的模型面對對抗性的樣本(微小的結構改變,但對芳香性影響巨大的分子)也能進行準確鑑別,展現了強大的泛化能力。

人工智能在人臉識別、語音識別、翻譯和自動駕駛等方面的應用不需要關注智能算法學習到了什麼,為什麼會做出這樣的判斷,只要達到足夠的精度即可。但對於像藥物發現這種科學問題,其中有更多的不確定性,在通用人工智能把整個新藥發現流程包辦以前,藥物學家會更相信自己的經驗直覺,但同時又希望從越來越多的藥物研發數據中汲取新的見解。數據的積累和深度學習算法的應用可以建立更準確的預測模型,而這些預測如果是不能被解釋,或者說被藥物學家理解,那麼將很難取得藥物學家的信任,進而被真正應用而成為藥物發現必不可少的環節。該團隊開發的基於注意力機制的可解釋圖神經網絡分子指紋Attentive FP是對人工智能的可解釋性在藥物發現中的有益探索,它將機器認知與人的認知連接起來,以期更好地利用機器的認知增強藥物學家的認知,這類前沿且與藥物研究需求緊密結合的探索,相信能產生更大的實際應用價值。

整體來說,文章乾貨滿滿,更多內容可自行查閱原文,有興趣的讀者也可以直接利用公開的代碼做自己的探索,https://github.com/OpenDrugAI/AttentiveFP。

值得一提的是,蔣華良/鄭明月課題組前不久也在Journal of Medicinal Chemistry雜誌上發表人工智能助力藥物研發的論文,根據現有激酶活性大數據,應用深度神經網絡算法,建立了藥物調控激酶譜的預測分析方法(詳見此前BioArt的報道:特別評述 | 人工智能助力藥物研發:深度學習預測藥物調控激酶譜)。



專家點評


吳朝暉(浙江大學校長,中國科學院院士,人工智能研究專家)

評論家佈雷特·金(Brett King)在《智能浪潮:增強時代來臨》一書中指出,今天所探索的人工智能等科技,將徹底重新定義人類的下一個時代,這一時代可稱之為智能增強時代。智能增強時代不可避免地要協調好機器智能和人類智能的關係,在決策中融合機器智能,實現人機協同,增強人類智能。

最近十年,得益於算力的增長和數據的累積,我們注意到深度學習在物流、監控、個人助手、高頻交易等領域取得了突破性的成功,推動了這一波的人工智能熱潮。然而,我們同樣發現目前以深度神經網絡為代表的連接主義人工智能(AI)還有很多侷限:它太依賴於數據,欠缺泛化推理能力,也是人類不能理解的“黑箱”。我們不知道神經網絡得到預測的依據,更不確定人工智能模型究竟是學習到了可泛化的知識,還是僅僅記住了樣本,擬合了數據。對於諸如圖像識別、機器翻譯等任務,有些情況下即使產生錯誤並不會產生嚴重後果,只要模型達到好的預測效果,我們可以不必關心模型是如何做出預測的。有很多人工智能任務,會因為人類對智能系統理解不足,而存在的巨大風險。深度神經網絡如果一直保持“黑箱”狀態,模型會很容易受對抗性樣本的攻擊,用戶也很難決定什麼時候可以信任模型的預測。例如,醫生不知道AI模型對病理圖片作出預測的依據,就不能放心採用AI給出的診斷結論;藥物學家不知道AI系統為什麼優選開發某些分子而不是另外一些分子的原因,面對後期巨大的經費投入和失敗風險,就很難相信AI給出的研發決策。

因此,當前人工智能想要真正顯示智慧特徵,創造普惠價值,需要解決的一個重要問題是深度神經網絡的可解釋性。只有人工智能決策過程變得更加透明,這種智能才能更加通用。可解釋性人工智能(Explainable AI)作為一個非常前沿的研究方向,聚焦於用系統性和可解釋的方式呈現人工智能所學習到的複雜邏輯,讓人工智能的預測依據更好地被人類理解。這是實現人機協作,增強人類智能的基礎。可解釋性人工智能受到了各國政府、工業界和學術界的廣泛關注。美國國防部先進研究項目局DARPA資助了可解釋性人工智能項目XAI(ExplainableAI);中國國務院在2017年印發的《新一代人工智能發展規劃》中提出要“實現具備高可解釋性、強泛化能力的人工智能”,得到了產業界和學術機構廣泛認可和積極響應。

近日,上海科技大學和中科院上海藥物研究所蔣華良院士和鄭明月研究員團隊在人工智能的可解釋性在藥物發現領域中的應用進行探索,開發了一種新的分子結構表徵方法Attentive FP【8】。該方法是基於注意力機制的圖神經網絡模型。其中,圖神經網絡模型對拓撲圖中的點和邊的關係進行建模,有利於關係推理。注意力機制是近年來人工智能自然語言模型的核心進展之一,在提高語言模型性能的同時也提升了模型的可解釋性【9】。在Attentive FP中,該團隊使用圖神經網絡處理含有原子和鍵的分子圖結構,並通過創新性地引入原子水平和分子水平的注意力機制,使分子圖模型兼具推理能力和可解釋性。利用Attentive FP進行分子表徵和藥物性質預測建模,可以獲得泛化性能更好的模型;通過可視化模型自動學習到的特徵,可以發現Attentive FP能從化合物的性質數據中直接學習和提取符合化學經驗知識的模式和關聯性。這些特性可以幫助藥物學家更加高效地處理日益擴增的研發數據,從海量大數據中直接獲取新的見解,豐富藥物學家的知識庫和經驗儲備。

未來,隨著腦科學、認知科學、類腦計算的迅猛發展,人工智能在感知、記憶、推理等方面的功能“短板”終將得到補齊,人工智能“黑箱”模型也將變得更加透明,屆時人工智能才能更顯智慧特徵,更具普惠價值。可以預見,藥物研發領域也會融合機器智能與人類智能,實現人機協同,由機器智能幫助藥物學家快速處理海量數據,增強藥物研發的合理決策。基於注意力機制的圖神經網絡分子指紋Attentive FP是在藥物發現中對可解釋性人工智能的積極嘗試,也展示了可解釋性人工智能在人機協同以及在助力藥物研發方面的巨大潛力。


"

點評 | 吳朝暉(浙江大學校長,中國科學院院士)

責編 | 兮

生命科學迅猛發展,刷新大家對生命認知的同時,也給疾病治療帶來了更多的可能性。理論上,幾乎所有生物學功能都可以被藥物靶向。小分子因其相對低廉的成本,成為各大製藥公司和研究機構開展疾病治療研究的首選工具,藥物發現也因此越來越“平權化”。然而,找到具有合適藥理學、毒理學和藥代動力學等特性的小分子,依然是一個很大的挑戰。面對不斷增長的藥物研發數據,現有的人工智能(AI)方法雖然可以據此構建出強大的預測模型,然而深度神經網絡所學到的東西通常難以被化學家和生物學家理解,而且這種認知差距正在不斷增大,也使科技人員難以相信AI模型的預測結果,這也限制了AI技術在藥物研發實踐中的應用【1】

近日,中科院上海藥物所蔣華良院士和鄭明月研究員(第一作者為博士研究生熊招平)在Journal of Medicinal Chemistry發表封面文章Pushingthe Boundaries of Molecular Representation for Drug Discovery with the GraphAttention Mechanism該論文介紹了一種基於注意力機制的圖神經網絡模型(Attentive FP)。該模型可以用於分子表徵,在多個藥物發現相關的數據集上的預測表現達到當前最優,並且該模型所學到的內容具有可解釋性。這種可解釋性在機器的認知和人的認知的差異間架起了一座橋樑,由此可能更好地利用機器的認知增強藥物學家的認知,產生更大的實際應用價值。Attentive FP的特徵可視化表明,它可以自動從特定任務中學習到分子結構內非局部的特性,因此可以幫助藥物學家或化學家超越經驗和直覺,直接從各種性質數據中獲取對該分子結構更深層的理解。

人工智能助力藥物研發!產生更大的實際應用價值


人工智能助力藥物研發!產生更大的實際應用價值

結構決定性質,性質體現於結構。如何從一個分子的化學結構中提取出它的各種性質是科學家夢寐以求的目標。到目前為止,人們先後發明了5000種以上的不同描述符(特徵)去表徵一個化學分子的結構【2】。傳統的機器學習模型就圍繞這些預定義的描述符,通過特徵工程選取不同的組合,對小分子的各種性質進行建模預測。特徵工程選取是一個繁瑣且耗時的過程,而且這種較強的預設先驗很可能使模型產生偏差,導致預測效果達不到最優。以Neural FP為代表的分子圖神經網絡模型能以較少的特徵描述符作為輸入,得到明顯更優的預測結果,是人工智能在分子表徵領域的重要嘗試【3】。然而,在機器學習中準確性和可解釋性很難兼顧。如果不能使神經網絡的“黑盒子”透明化,人們很難判斷一個模型只是擬合或記住了訓練數據,還是真正具備了泛化的能力。面對藥物研發後期巨大的成本投入,藥物學家不可能完全相信某個黑盒算法給出的“武斷”預測【4】。因此,人工智能藥物設計研究的重點之一就是需要探索深度學習算法的可解釋性,針對性地開發了更符合化學背景,更易於解讀的人工智能模型。

人工智能助力藥物研發!產生更大的實際應用價值

圖1. Attentive FP總體框架以及與同類的圖神經網絡模型比較。

作者比較了他們自己的AttentiveFP模型與其他幾種圖神經網絡模型(圖1)。如果將分子看作為一張圖(graph),給定一個節點(紅色標記的目標原子),在Neural FP【3】和GCN【5】模型中,其他節點對目標節點的影響會隨距離嚴重衰減,這不符合化學直覺,即化學結構中距離較遠的原子間有時也會產生較強的影響,比如分子內氫鍵的形成;Weave【6】和MPNN(特指Deepchem中實現的MPNN)模型則默認所有其他節點對目標節點有相同的影響,這可以更好捕捉分子結構中的一些非局部特徵,但顯然忽視了化學分子固有的結構。作者提出的Attentive FP能在保持分子固有結構的情況下,有效捕捉圖的非局部特徵和遠距離節點相互作用(圖2)。這得益於Attentive FP先在原子水平加入注意力機制,學習到分子的局部特徵,後在整個分子水平加入注意力機制,學習到分子的全局特徵。值得一提的是,相比其他同類圖神經網絡模型,Attentive FP用了最少的初始特徵作為模型輸入,依然在多個測試數據集中達到了當前最優的預測表現。

人工智能助力藥物研發!產生更大的實際應用價值

圖2. Attentive FP 注意力圖神經網絡架構。


人工智能助力藥物研發!產生更大的實際應用價值

圖3 AttentiveFP學習水溶性時自動學習到的特徵與化學家定義的描述符比較。

作者將Attentive FP學習水溶性時自動學習到的特徵與化學家定義的描述符進行了對比(圖3)。可以看到,訓練前後,自動學習到的特徵幾乎能復現出跟預測任務相關的經驗描述符。這些經驗描述符是根據化學家的專業知識所定義出來的,比如TPSA(拓撲分子極性表面積)和LogP(油水分配係數)。因為這些經驗描述符與水溶性高度相關,對預測任務有較強的指導,傳統的機器學習模型通常會直接選擇這些描述符作為輸入特徵的一部分來預測水溶性。但作者發展的Attentive FP可以不以這些化學先驗作為輸入,而以更原始簡單的輸入(如原子和鍵的類型等),直接在在隱含層中自動學習到的這些人們長期積累的化學知識,表現為訓練後的模型隱含層特徵與這些經驗描述符的相關性變高,而與預測任務不相關的描述符如SA Score (合成難易性)和Drug Likeness(類藥性)與學習到的隱層特徵相關性比較並沒有顯著變化。

人工智能助力藥物研發!產生更大的實際應用價值

圖4. Attentive FP自動學習化學環境。

作者發展的AttentiveFP模型還能自動學習到原子所處的化學環境,比如,以藥物溶解度作為監督任務進行訓練,將模型學習到的原子向量作相似性評估,負相關的原子對標為黃色,正相關的標為藍色(圖4)。結果表明通過學習,整個分子顯示出特定的結構模式,這種模式在隱藏層的高層更加明顯。對於圖4所示的Iprodione結構,原子被自動聚集的三個部分正好對應分子結構中的三個片段,其中,分子結構中灰色背景的化學基團極性比較小,不利於水溶性,中間紅色背景的基團極性較大,利於水溶性。這一結果提示模型可能自動學習了到各個原子所處的不同化學環境。

人工智能助力藥物研發!產生更大的實際應用價值

圖5. Attentive FP自動學習到分子中的芳香性子結構。

化學分子中的芳香性是一種典型的非局部特徵,這一問題也給基於卷積架構的圖神經網絡模型帶來了挑戰。通過利用注意力機制,作者發展的Attentive FP模型很好的解決了這一問題。當原始輸入中去除編碼芳香性的相關特徵(避免信息洩露),輸出僅以分子中芳香原子的個數作為學習目標進行監督訓練時,Attentive FP能根據注意力機制的權重,準確標出芳香原子的位置。同時,訓練完成的模型面對對抗性的樣本(微小的結構改變,但對芳香性影響巨大的分子)也能進行準確鑑別,展現了強大的泛化能力。

人工智能在人臉識別、語音識別、翻譯和自動駕駛等方面的應用不需要關注智能算法學習到了什麼,為什麼會做出這樣的判斷,只要達到足夠的精度即可。但對於像藥物發現這種科學問題,其中有更多的不確定性,在通用人工智能把整個新藥發現流程包辦以前,藥物學家會更相信自己的經驗直覺,但同時又希望從越來越多的藥物研發數據中汲取新的見解。數據的積累和深度學習算法的應用可以建立更準確的預測模型,而這些預測如果是不能被解釋,或者說被藥物學家理解,那麼將很難取得藥物學家的信任,進而被真正應用而成為藥物發現必不可少的環節。該團隊開發的基於注意力機制的可解釋圖神經網絡分子指紋Attentive FP是對人工智能的可解釋性在藥物發現中的有益探索,它將機器認知與人的認知連接起來,以期更好地利用機器的認知增強藥物學家的認知,這類前沿且與藥物研究需求緊密結合的探索,相信能產生更大的實際應用價值。

整體來說,文章乾貨滿滿,更多內容可自行查閱原文,有興趣的讀者也可以直接利用公開的代碼做自己的探索,https://github.com/OpenDrugAI/AttentiveFP。

值得一提的是,蔣華良/鄭明月課題組前不久也在Journal of Medicinal Chemistry雜誌上發表人工智能助力藥物研發的論文,根據現有激酶活性大數據,應用深度神經網絡算法,建立了藥物調控激酶譜的預測分析方法(詳見此前BioArt的報道:特別評述 | 人工智能助力藥物研發:深度學習預測藥物調控激酶譜)。



專家點評


吳朝暉(浙江大學校長,中國科學院院士,人工智能研究專家)

評論家佈雷特·金(Brett King)在《智能浪潮:增強時代來臨》一書中指出,今天所探索的人工智能等科技,將徹底重新定義人類的下一個時代,這一時代可稱之為智能增強時代。智能增強時代不可避免地要協調好機器智能和人類智能的關係,在決策中融合機器智能,實現人機協同,增強人類智能。

最近十年,得益於算力的增長和數據的累積,我們注意到深度學習在物流、監控、個人助手、高頻交易等領域取得了突破性的成功,推動了這一波的人工智能熱潮。然而,我們同樣發現目前以深度神經網絡為代表的連接主義人工智能(AI)還有很多侷限:它太依賴於數據,欠缺泛化推理能力,也是人類不能理解的“黑箱”。我們不知道神經網絡得到預測的依據,更不確定人工智能模型究竟是學習到了可泛化的知識,還是僅僅記住了樣本,擬合了數據。對於諸如圖像識別、機器翻譯等任務,有些情況下即使產生錯誤並不會產生嚴重後果,只要模型達到好的預測效果,我們可以不必關心模型是如何做出預測的。有很多人工智能任務,會因為人類對智能系統理解不足,而存在的巨大風險。深度神經網絡如果一直保持“黑箱”狀態,模型會很容易受對抗性樣本的攻擊,用戶也很難決定什麼時候可以信任模型的預測。例如,醫生不知道AI模型對病理圖片作出預測的依據,就不能放心採用AI給出的診斷結論;藥物學家不知道AI系統為什麼優選開發某些分子而不是另外一些分子的原因,面對後期巨大的經費投入和失敗風險,就很難相信AI給出的研發決策。

因此,當前人工智能想要真正顯示智慧特徵,創造普惠價值,需要解決的一個重要問題是深度神經網絡的可解釋性。只有人工智能決策過程變得更加透明,這種智能才能更加通用。可解釋性人工智能(Explainable AI)作為一個非常前沿的研究方向,聚焦於用系統性和可解釋的方式呈現人工智能所學習到的複雜邏輯,讓人工智能的預測依據更好地被人類理解。這是實現人機協作,增強人類智能的基礎。可解釋性人工智能受到了各國政府、工業界和學術界的廣泛關注。美國國防部先進研究項目局DARPA資助了可解釋性人工智能項目XAI(ExplainableAI);中國國務院在2017年印發的《新一代人工智能發展規劃》中提出要“實現具備高可解釋性、強泛化能力的人工智能”,得到了產業界和學術機構廣泛認可和積極響應。

近日,上海科技大學和中科院上海藥物研究所蔣華良院士和鄭明月研究員團隊在人工智能的可解釋性在藥物發現領域中的應用進行探索,開發了一種新的分子結構表徵方法Attentive FP【8】。該方法是基於注意力機制的圖神經網絡模型。其中,圖神經網絡模型對拓撲圖中的點和邊的關係進行建模,有利於關係推理。注意力機制是近年來人工智能自然語言模型的核心進展之一,在提高語言模型性能的同時也提升了模型的可解釋性【9】。在Attentive FP中,該團隊使用圖神經網絡處理含有原子和鍵的分子圖結構,並通過創新性地引入原子水平和分子水平的注意力機制,使分子圖模型兼具推理能力和可解釋性。利用Attentive FP進行分子表徵和藥物性質預測建模,可以獲得泛化性能更好的模型;通過可視化模型自動學習到的特徵,可以發現Attentive FP能從化合物的性質數據中直接學習和提取符合化學經驗知識的模式和關聯性。這些特性可以幫助藥物學家更加高效地處理日益擴增的研發數據,從海量大數據中直接獲取新的見解,豐富藥物學家的知識庫和經驗儲備。

未來,隨著腦科學、認知科學、類腦計算的迅猛發展,人工智能在感知、記憶、推理等方面的功能“短板”終將得到補齊,人工智能“黑箱”模型也將變得更加透明,屆時人工智能才能更顯智慧特徵,更具普惠價值。可以預見,藥物研發領域也會融合機器智能與人類智能,實現人機協同,由機器智能幫助藥物學家快速處理海量數據,增強藥物研發的合理決策。基於注意力機制的圖神經網絡分子指紋Attentive FP是在藥物發現中對可解釋性人工智能的積極嘗試,也展示了可解釋性人工智能在人機協同以及在助力藥物研發方面的巨大潛力。


人工智能助力藥物研發!產生更大的實際應用價值


作者簡介

"

點評 | 吳朝暉(浙江大學校長,中國科學院院士)

責編 | 兮

生命科學迅猛發展,刷新大家對生命認知的同時,也給疾病治療帶來了更多的可能性。理論上,幾乎所有生物學功能都可以被藥物靶向。小分子因其相對低廉的成本,成為各大製藥公司和研究機構開展疾病治療研究的首選工具,藥物發現也因此越來越“平權化”。然而,找到具有合適藥理學、毒理學和藥代動力學等特性的小分子,依然是一個很大的挑戰。面對不斷增長的藥物研發數據,現有的人工智能(AI)方法雖然可以據此構建出強大的預測模型,然而深度神經網絡所學到的東西通常難以被化學家和生物學家理解,而且這種認知差距正在不斷增大,也使科技人員難以相信AI模型的預測結果,這也限制了AI技術在藥物研發實踐中的應用【1】

近日,中科院上海藥物所蔣華良院士和鄭明月研究員(第一作者為博士研究生熊招平)在Journal of Medicinal Chemistry發表封面文章Pushingthe Boundaries of Molecular Representation for Drug Discovery with the GraphAttention Mechanism該論文介紹了一種基於注意力機制的圖神經網絡模型(Attentive FP)。該模型可以用於分子表徵,在多個藥物發現相關的數據集上的預測表現達到當前最優,並且該模型所學到的內容具有可解釋性。這種可解釋性在機器的認知和人的認知的差異間架起了一座橋樑,由此可能更好地利用機器的認知增強藥物學家的認知,產生更大的實際應用價值。Attentive FP的特徵可視化表明,它可以自動從特定任務中學習到分子結構內非局部的特性,因此可以幫助藥物學家或化學家超越經驗和直覺,直接從各種性質數據中獲取對該分子結構更深層的理解。

人工智能助力藥物研發!產生更大的實際應用價值


人工智能助力藥物研發!產生更大的實際應用價值

結構決定性質,性質體現於結構。如何從一個分子的化學結構中提取出它的各種性質是科學家夢寐以求的目標。到目前為止,人們先後發明了5000種以上的不同描述符(特徵)去表徵一個化學分子的結構【2】。傳統的機器學習模型就圍繞這些預定義的描述符,通過特徵工程選取不同的組合,對小分子的各種性質進行建模預測。特徵工程選取是一個繁瑣且耗時的過程,而且這種較強的預設先驗很可能使模型產生偏差,導致預測效果達不到最優。以Neural FP為代表的分子圖神經網絡模型能以較少的特徵描述符作為輸入,得到明顯更優的預測結果,是人工智能在分子表徵領域的重要嘗試【3】。然而,在機器學習中準確性和可解釋性很難兼顧。如果不能使神經網絡的“黑盒子”透明化,人們很難判斷一個模型只是擬合或記住了訓練數據,還是真正具備了泛化的能力。面對藥物研發後期巨大的成本投入,藥物學家不可能完全相信某個黑盒算法給出的“武斷”預測【4】。因此,人工智能藥物設計研究的重點之一就是需要探索深度學習算法的可解釋性,針對性地開發了更符合化學背景,更易於解讀的人工智能模型。

人工智能助力藥物研發!產生更大的實際應用價值

圖1. Attentive FP總體框架以及與同類的圖神經網絡模型比較。

作者比較了他們自己的AttentiveFP模型與其他幾種圖神經網絡模型(圖1)。如果將分子看作為一張圖(graph),給定一個節點(紅色標記的目標原子),在Neural FP【3】和GCN【5】模型中,其他節點對目標節點的影響會隨距離嚴重衰減,這不符合化學直覺,即化學結構中距離較遠的原子間有時也會產生較強的影響,比如分子內氫鍵的形成;Weave【6】和MPNN(特指Deepchem中實現的MPNN)模型則默認所有其他節點對目標節點有相同的影響,這可以更好捕捉分子結構中的一些非局部特徵,但顯然忽視了化學分子固有的結構。作者提出的Attentive FP能在保持分子固有結構的情況下,有效捕捉圖的非局部特徵和遠距離節點相互作用(圖2)。這得益於Attentive FP先在原子水平加入注意力機制,學習到分子的局部特徵,後在整個分子水平加入注意力機制,學習到分子的全局特徵。值得一提的是,相比其他同類圖神經網絡模型,Attentive FP用了最少的初始特徵作為模型輸入,依然在多個測試數據集中達到了當前最優的預測表現。

人工智能助力藥物研發!產生更大的實際應用價值

圖2. Attentive FP 注意力圖神經網絡架構。


人工智能助力藥物研發!產生更大的實際應用價值

圖3 AttentiveFP學習水溶性時自動學習到的特徵與化學家定義的描述符比較。

作者將Attentive FP學習水溶性時自動學習到的特徵與化學家定義的描述符進行了對比(圖3)。可以看到,訓練前後,自動學習到的特徵幾乎能復現出跟預測任務相關的經驗描述符。這些經驗描述符是根據化學家的專業知識所定義出來的,比如TPSA(拓撲分子極性表面積)和LogP(油水分配係數)。因為這些經驗描述符與水溶性高度相關,對預測任務有較強的指導,傳統的機器學習模型通常會直接選擇這些描述符作為輸入特徵的一部分來預測水溶性。但作者發展的Attentive FP可以不以這些化學先驗作為輸入,而以更原始簡單的輸入(如原子和鍵的類型等),直接在在隱含層中自動學習到的這些人們長期積累的化學知識,表現為訓練後的模型隱含層特徵與這些經驗描述符的相關性變高,而與預測任務不相關的描述符如SA Score (合成難易性)和Drug Likeness(類藥性)與學習到的隱層特徵相關性比較並沒有顯著變化。

人工智能助力藥物研發!產生更大的實際應用價值

圖4. Attentive FP自動學習化學環境。

作者發展的AttentiveFP模型還能自動學習到原子所處的化學環境,比如,以藥物溶解度作為監督任務進行訓練,將模型學習到的原子向量作相似性評估,負相關的原子對標為黃色,正相關的標為藍色(圖4)。結果表明通過學習,整個分子顯示出特定的結構模式,這種模式在隱藏層的高層更加明顯。對於圖4所示的Iprodione結構,原子被自動聚集的三個部分正好對應分子結構中的三個片段,其中,分子結構中灰色背景的化學基團極性比較小,不利於水溶性,中間紅色背景的基團極性較大,利於水溶性。這一結果提示模型可能自動學習了到各個原子所處的不同化學環境。

人工智能助力藥物研發!產生更大的實際應用價值

圖5. Attentive FP自動學習到分子中的芳香性子結構。

化學分子中的芳香性是一種典型的非局部特徵,這一問題也給基於卷積架構的圖神經網絡模型帶來了挑戰。通過利用注意力機制,作者發展的Attentive FP模型很好的解決了這一問題。當原始輸入中去除編碼芳香性的相關特徵(避免信息洩露),輸出僅以分子中芳香原子的個數作為學習目標進行監督訓練時,Attentive FP能根據注意力機制的權重,準確標出芳香原子的位置。同時,訓練完成的模型面對對抗性的樣本(微小的結構改變,但對芳香性影響巨大的分子)也能進行準確鑑別,展現了強大的泛化能力。

人工智能在人臉識別、語音識別、翻譯和自動駕駛等方面的應用不需要關注智能算法學習到了什麼,為什麼會做出這樣的判斷,只要達到足夠的精度即可。但對於像藥物發現這種科學問題,其中有更多的不確定性,在通用人工智能把整個新藥發現流程包辦以前,藥物學家會更相信自己的經驗直覺,但同時又希望從越來越多的藥物研發數據中汲取新的見解。數據的積累和深度學習算法的應用可以建立更準確的預測模型,而這些預測如果是不能被解釋,或者說被藥物學家理解,那麼將很難取得藥物學家的信任,進而被真正應用而成為藥物發現必不可少的環節。該團隊開發的基於注意力機制的可解釋圖神經網絡分子指紋Attentive FP是對人工智能的可解釋性在藥物發現中的有益探索,它將機器認知與人的認知連接起來,以期更好地利用機器的認知增強藥物學家的認知,這類前沿且與藥物研究需求緊密結合的探索,相信能產生更大的實際應用價值。

整體來說,文章乾貨滿滿,更多內容可自行查閱原文,有興趣的讀者也可以直接利用公開的代碼做自己的探索,https://github.com/OpenDrugAI/AttentiveFP。

值得一提的是,蔣華良/鄭明月課題組前不久也在Journal of Medicinal Chemistry雜誌上發表人工智能助力藥物研發的論文,根據現有激酶活性大數據,應用深度神經網絡算法,建立了藥物調控激酶譜的預測分析方法(詳見此前BioArt的報道:特別評述 | 人工智能助力藥物研發:深度學習預測藥物調控激酶譜)。



專家點評


吳朝暉(浙江大學校長,中國科學院院士,人工智能研究專家)

評論家佈雷特·金(Brett King)在《智能浪潮:增強時代來臨》一書中指出,今天所探索的人工智能等科技,將徹底重新定義人類的下一個時代,這一時代可稱之為智能增強時代。智能增強時代不可避免地要協調好機器智能和人類智能的關係,在決策中融合機器智能,實現人機協同,增強人類智能。

最近十年,得益於算力的增長和數據的累積,我們注意到深度學習在物流、監控、個人助手、高頻交易等領域取得了突破性的成功,推動了這一波的人工智能熱潮。然而,我們同樣發現目前以深度神經網絡為代表的連接主義人工智能(AI)還有很多侷限:它太依賴於數據,欠缺泛化推理能力,也是人類不能理解的“黑箱”。我們不知道神經網絡得到預測的依據,更不確定人工智能模型究竟是學習到了可泛化的知識,還是僅僅記住了樣本,擬合了數據。對於諸如圖像識別、機器翻譯等任務,有些情況下即使產生錯誤並不會產生嚴重後果,只要模型達到好的預測效果,我們可以不必關心模型是如何做出預測的。有很多人工智能任務,會因為人類對智能系統理解不足,而存在的巨大風險。深度神經網絡如果一直保持“黑箱”狀態,模型會很容易受對抗性樣本的攻擊,用戶也很難決定什麼時候可以信任模型的預測。例如,醫生不知道AI模型對病理圖片作出預測的依據,就不能放心採用AI給出的診斷結論;藥物學家不知道AI系統為什麼優選開發某些分子而不是另外一些分子的原因,面對後期巨大的經費投入和失敗風險,就很難相信AI給出的研發決策。

因此,當前人工智能想要真正顯示智慧特徵,創造普惠價值,需要解決的一個重要問題是深度神經網絡的可解釋性。只有人工智能決策過程變得更加透明,這種智能才能更加通用。可解釋性人工智能(Explainable AI)作為一個非常前沿的研究方向,聚焦於用系統性和可解釋的方式呈現人工智能所學習到的複雜邏輯,讓人工智能的預測依據更好地被人類理解。這是實現人機協作,增強人類智能的基礎。可解釋性人工智能受到了各國政府、工業界和學術界的廣泛關注。美國國防部先進研究項目局DARPA資助了可解釋性人工智能項目XAI(ExplainableAI);中國國務院在2017年印發的《新一代人工智能發展規劃》中提出要“實現具備高可解釋性、強泛化能力的人工智能”,得到了產業界和學術機構廣泛認可和積極響應。

近日,上海科技大學和中科院上海藥物研究所蔣華良院士和鄭明月研究員團隊在人工智能的可解釋性在藥物發現領域中的應用進行探索,開發了一種新的分子結構表徵方法Attentive FP【8】。該方法是基於注意力機制的圖神經網絡模型。其中,圖神經網絡模型對拓撲圖中的點和邊的關係進行建模,有利於關係推理。注意力機制是近年來人工智能自然語言模型的核心進展之一,在提高語言模型性能的同時也提升了模型的可解釋性【9】。在Attentive FP中,該團隊使用圖神經網絡處理含有原子和鍵的分子圖結構,並通過創新性地引入原子水平和分子水平的注意力機制,使分子圖模型兼具推理能力和可解釋性。利用Attentive FP進行分子表徵和藥物性質預測建模,可以獲得泛化性能更好的模型;通過可視化模型自動學習到的特徵,可以發現Attentive FP能從化合物的性質數據中直接學習和提取符合化學經驗知識的模式和關聯性。這些特性可以幫助藥物學家更加高效地處理日益擴增的研發數據,從海量大數據中直接獲取新的見解,豐富藥物學家的知識庫和經驗儲備。

未來,隨著腦科學、認知科學、類腦計算的迅猛發展,人工智能在感知、記憶、推理等方面的功能“短板”終將得到補齊,人工智能“黑箱”模型也將變得更加透明,屆時人工智能才能更顯智慧特徵,更具普惠價值。可以預見,藥物研發領域也會融合機器智能與人類智能,實現人機協同,由機器智能幫助藥物學家快速處理海量數據,增強藥物研發的合理決策。基於注意力機制的圖神經網絡分子指紋Attentive FP是在藥物發現中對可解釋性人工智能的積極嘗試,也展示了可解釋性人工智能在人機協同以及在助力藥物研發方面的巨大潛力。


人工智能助力藥物研發!產生更大的實際應用價值


作者簡介

人工智能助力藥物研發!產生更大的實際應用價值

熊招平(第一作者)

熊招平,上海科技大學與中科院上海藥物研究所聯合培養博士生,導師為蔣華良院士和鄭明月研究員。他研究興趣集中於圖神經網絡(Graph Neural Network)在分子表徵、分子生成和結構優化中的應用,重點探索可解釋性人工智能在新藥研發中的潛力。他思維活躍,研究興趣廣泛,對多學科交叉融合尤其感興趣。2015年第二屆中美青年創客大賽中,他所在的無人船團隊獲得上海賽區第一名,他在其中負責視覺算法開發和佈署。2016年第一屆由中科院微小衛星中心舉辦的微小衛星設計大賽中,他主持的微小衛星生化實驗模塊項目獲得第二名。2018 DREAM Challenge的“多靶點藥物預測挑戰賽”(Multi-Targeting Dream Challenge 2018) 中,他在甲狀腺髓樣瘤(medullarythyroid carcinoma)和tau蛋白神經退行性模型兩項任務都獲得第一名(人工智能助力上海研究生熊招平摘取多靶點藥物分子設計國際挑戰大賽冠軍)。

"

點評 | 吳朝暉(浙江大學校長,中國科學院院士)

責編 | 兮

生命科學迅猛發展,刷新大家對生命認知的同時,也給疾病治療帶來了更多的可能性。理論上,幾乎所有生物學功能都可以被藥物靶向。小分子因其相對低廉的成本,成為各大製藥公司和研究機構開展疾病治療研究的首選工具,藥物發現也因此越來越“平權化”。然而,找到具有合適藥理學、毒理學和藥代動力學等特性的小分子,依然是一個很大的挑戰。面對不斷增長的藥物研發數據,現有的人工智能(AI)方法雖然可以據此構建出強大的預測模型,然而深度神經網絡所學到的東西通常難以被化學家和生物學家理解,而且這種認知差距正在不斷增大,也使科技人員難以相信AI模型的預測結果,這也限制了AI技術在藥物研發實踐中的應用【1】

近日,中科院上海藥物所蔣華良院士和鄭明月研究員(第一作者為博士研究生熊招平)在Journal of Medicinal Chemistry發表封面文章Pushingthe Boundaries of Molecular Representation for Drug Discovery with the GraphAttention Mechanism該論文介紹了一種基於注意力機制的圖神經網絡模型(Attentive FP)。該模型可以用於分子表徵,在多個藥物發現相關的數據集上的預測表現達到當前最優,並且該模型所學到的內容具有可解釋性。這種可解釋性在機器的認知和人的認知的差異間架起了一座橋樑,由此可能更好地利用機器的認知增強藥物學家的認知,產生更大的實際應用價值。Attentive FP的特徵可視化表明,它可以自動從特定任務中學習到分子結構內非局部的特性,因此可以幫助藥物學家或化學家超越經驗和直覺,直接從各種性質數據中獲取對該分子結構更深層的理解。

人工智能助力藥物研發!產生更大的實際應用價值


人工智能助力藥物研發!產生更大的實際應用價值

結構決定性質,性質體現於結構。如何從一個分子的化學結構中提取出它的各種性質是科學家夢寐以求的目標。到目前為止,人們先後發明了5000種以上的不同描述符(特徵)去表徵一個化學分子的結構【2】。傳統的機器學習模型就圍繞這些預定義的描述符,通過特徵工程選取不同的組合,對小分子的各種性質進行建模預測。特徵工程選取是一個繁瑣且耗時的過程,而且這種較強的預設先驗很可能使模型產生偏差,導致預測效果達不到最優。以Neural FP為代表的分子圖神經網絡模型能以較少的特徵描述符作為輸入,得到明顯更優的預測結果,是人工智能在分子表徵領域的重要嘗試【3】。然而,在機器學習中準確性和可解釋性很難兼顧。如果不能使神經網絡的“黑盒子”透明化,人們很難判斷一個模型只是擬合或記住了訓練數據,還是真正具備了泛化的能力。面對藥物研發後期巨大的成本投入,藥物學家不可能完全相信某個黑盒算法給出的“武斷”預測【4】。因此,人工智能藥物設計研究的重點之一就是需要探索深度學習算法的可解釋性,針對性地開發了更符合化學背景,更易於解讀的人工智能模型。

人工智能助力藥物研發!產生更大的實際應用價值

圖1. Attentive FP總體框架以及與同類的圖神經網絡模型比較。

作者比較了他們自己的AttentiveFP模型與其他幾種圖神經網絡模型(圖1)。如果將分子看作為一張圖(graph),給定一個節點(紅色標記的目標原子),在Neural FP【3】和GCN【5】模型中,其他節點對目標節點的影響會隨距離嚴重衰減,這不符合化學直覺,即化學結構中距離較遠的原子間有時也會產生較強的影響,比如分子內氫鍵的形成;Weave【6】和MPNN(特指Deepchem中實現的MPNN)模型則默認所有其他節點對目標節點有相同的影響,這可以更好捕捉分子結構中的一些非局部特徵,但顯然忽視了化學分子固有的結構。作者提出的Attentive FP能在保持分子固有結構的情況下,有效捕捉圖的非局部特徵和遠距離節點相互作用(圖2)。這得益於Attentive FP先在原子水平加入注意力機制,學習到分子的局部特徵,後在整個分子水平加入注意力機制,學習到分子的全局特徵。值得一提的是,相比其他同類圖神經網絡模型,Attentive FP用了最少的初始特徵作為模型輸入,依然在多個測試數據集中達到了當前最優的預測表現。

人工智能助力藥物研發!產生更大的實際應用價值

圖2. Attentive FP 注意力圖神經網絡架構。


人工智能助力藥物研發!產生更大的實際應用價值

圖3 AttentiveFP學習水溶性時自動學習到的特徵與化學家定義的描述符比較。

作者將Attentive FP學習水溶性時自動學習到的特徵與化學家定義的描述符進行了對比(圖3)。可以看到,訓練前後,自動學習到的特徵幾乎能復現出跟預測任務相關的經驗描述符。這些經驗描述符是根據化學家的專業知識所定義出來的,比如TPSA(拓撲分子極性表面積)和LogP(油水分配係數)。因為這些經驗描述符與水溶性高度相關,對預測任務有較強的指導,傳統的機器學習模型通常會直接選擇這些描述符作為輸入特徵的一部分來預測水溶性。但作者發展的Attentive FP可以不以這些化學先驗作為輸入,而以更原始簡單的輸入(如原子和鍵的類型等),直接在在隱含層中自動學習到的這些人們長期積累的化學知識,表現為訓練後的模型隱含層特徵與這些經驗描述符的相關性變高,而與預測任務不相關的描述符如SA Score (合成難易性)和Drug Likeness(類藥性)與學習到的隱層特徵相關性比較並沒有顯著變化。

人工智能助力藥物研發!產生更大的實際應用價值

圖4. Attentive FP自動學習化學環境。

作者發展的AttentiveFP模型還能自動學習到原子所處的化學環境,比如,以藥物溶解度作為監督任務進行訓練,將模型學習到的原子向量作相似性評估,負相關的原子對標為黃色,正相關的標為藍色(圖4)。結果表明通過學習,整個分子顯示出特定的結構模式,這種模式在隱藏層的高層更加明顯。對於圖4所示的Iprodione結構,原子被自動聚集的三個部分正好對應分子結構中的三個片段,其中,分子結構中灰色背景的化學基團極性比較小,不利於水溶性,中間紅色背景的基團極性較大,利於水溶性。這一結果提示模型可能自動學習了到各個原子所處的不同化學環境。

人工智能助力藥物研發!產生更大的實際應用價值

圖5. Attentive FP自動學習到分子中的芳香性子結構。

化學分子中的芳香性是一種典型的非局部特徵,這一問題也給基於卷積架構的圖神經網絡模型帶來了挑戰。通過利用注意力機制,作者發展的Attentive FP模型很好的解決了這一問題。當原始輸入中去除編碼芳香性的相關特徵(避免信息洩露),輸出僅以分子中芳香原子的個數作為學習目標進行監督訓練時,Attentive FP能根據注意力機制的權重,準確標出芳香原子的位置。同時,訓練完成的模型面對對抗性的樣本(微小的結構改變,但對芳香性影響巨大的分子)也能進行準確鑑別,展現了強大的泛化能力。

人工智能在人臉識別、語音識別、翻譯和自動駕駛等方面的應用不需要關注智能算法學習到了什麼,為什麼會做出這樣的判斷,只要達到足夠的精度即可。但對於像藥物發現這種科學問題,其中有更多的不確定性,在通用人工智能把整個新藥發現流程包辦以前,藥物學家會更相信自己的經驗直覺,但同時又希望從越來越多的藥物研發數據中汲取新的見解。數據的積累和深度學習算法的應用可以建立更準確的預測模型,而這些預測如果是不能被解釋,或者說被藥物學家理解,那麼將很難取得藥物學家的信任,進而被真正應用而成為藥物發現必不可少的環節。該團隊開發的基於注意力機制的可解釋圖神經網絡分子指紋Attentive FP是對人工智能的可解釋性在藥物發現中的有益探索,它將機器認知與人的認知連接起來,以期更好地利用機器的認知增強藥物學家的認知,這類前沿且與藥物研究需求緊密結合的探索,相信能產生更大的實際應用價值。

整體來說,文章乾貨滿滿,更多內容可自行查閱原文,有興趣的讀者也可以直接利用公開的代碼做自己的探索,https://github.com/OpenDrugAI/AttentiveFP。

值得一提的是,蔣華良/鄭明月課題組前不久也在Journal of Medicinal Chemistry雜誌上發表人工智能助力藥物研發的論文,根據現有激酶活性大數據,應用深度神經網絡算法,建立了藥物調控激酶譜的預測分析方法(詳見此前BioArt的報道:特別評述 | 人工智能助力藥物研發:深度學習預測藥物調控激酶譜)。



專家點評


吳朝暉(浙江大學校長,中國科學院院士,人工智能研究專家)

評論家佈雷特·金(Brett King)在《智能浪潮:增強時代來臨》一書中指出,今天所探索的人工智能等科技,將徹底重新定義人類的下一個時代,這一時代可稱之為智能增強時代。智能增強時代不可避免地要協調好機器智能和人類智能的關係,在決策中融合機器智能,實現人機協同,增強人類智能。

最近十年,得益於算力的增長和數據的累積,我們注意到深度學習在物流、監控、個人助手、高頻交易等領域取得了突破性的成功,推動了這一波的人工智能熱潮。然而,我們同樣發現目前以深度神經網絡為代表的連接主義人工智能(AI)還有很多侷限:它太依賴於數據,欠缺泛化推理能力,也是人類不能理解的“黑箱”。我們不知道神經網絡得到預測的依據,更不確定人工智能模型究竟是學習到了可泛化的知識,還是僅僅記住了樣本,擬合了數據。對於諸如圖像識別、機器翻譯等任務,有些情況下即使產生錯誤並不會產生嚴重後果,只要模型達到好的預測效果,我們可以不必關心模型是如何做出預測的。有很多人工智能任務,會因為人類對智能系統理解不足,而存在的巨大風險。深度神經網絡如果一直保持“黑箱”狀態,模型會很容易受對抗性樣本的攻擊,用戶也很難決定什麼時候可以信任模型的預測。例如,醫生不知道AI模型對病理圖片作出預測的依據,就不能放心採用AI給出的診斷結論;藥物學家不知道AI系統為什麼優選開發某些分子而不是另外一些分子的原因,面對後期巨大的經費投入和失敗風險,就很難相信AI給出的研發決策。

因此,當前人工智能想要真正顯示智慧特徵,創造普惠價值,需要解決的一個重要問題是深度神經網絡的可解釋性。只有人工智能決策過程變得更加透明,這種智能才能更加通用。可解釋性人工智能(Explainable AI)作為一個非常前沿的研究方向,聚焦於用系統性和可解釋的方式呈現人工智能所學習到的複雜邏輯,讓人工智能的預測依據更好地被人類理解。這是實現人機協作,增強人類智能的基礎。可解釋性人工智能受到了各國政府、工業界和學術界的廣泛關注。美國國防部先進研究項目局DARPA資助了可解釋性人工智能項目XAI(ExplainableAI);中國國務院在2017年印發的《新一代人工智能發展規劃》中提出要“實現具備高可解釋性、強泛化能力的人工智能”,得到了產業界和學術機構廣泛認可和積極響應。

近日,上海科技大學和中科院上海藥物研究所蔣華良院士和鄭明月研究員團隊在人工智能的可解釋性在藥物發現領域中的應用進行探索,開發了一種新的分子結構表徵方法Attentive FP【8】。該方法是基於注意力機制的圖神經網絡模型。其中,圖神經網絡模型對拓撲圖中的點和邊的關係進行建模,有利於關係推理。注意力機制是近年來人工智能自然語言模型的核心進展之一,在提高語言模型性能的同時也提升了模型的可解釋性【9】。在Attentive FP中,該團隊使用圖神經網絡處理含有原子和鍵的分子圖結構,並通過創新性地引入原子水平和分子水平的注意力機制,使分子圖模型兼具推理能力和可解釋性。利用Attentive FP進行分子表徵和藥物性質預測建模,可以獲得泛化性能更好的模型;通過可視化模型自動學習到的特徵,可以發現Attentive FP能從化合物的性質數據中直接學習和提取符合化學經驗知識的模式和關聯性。這些特性可以幫助藥物學家更加高效地處理日益擴增的研發數據,從海量大數據中直接獲取新的見解,豐富藥物學家的知識庫和經驗儲備。

未來,隨著腦科學、認知科學、類腦計算的迅猛發展,人工智能在感知、記憶、推理等方面的功能“短板”終將得到補齊,人工智能“黑箱”模型也將變得更加透明,屆時人工智能才能更顯智慧特徵,更具普惠價值。可以預見,藥物研發領域也會融合機器智能與人類智能,實現人機協同,由機器智能幫助藥物學家快速處理海量數據,增強藥物研發的合理決策。基於注意力機制的圖神經網絡分子指紋Attentive FP是在藥物發現中對可解釋性人工智能的積極嘗試,也展示了可解釋性人工智能在人機協同以及在助力藥物研發方面的巨大潛力。


人工智能助力藥物研發!產生更大的實際應用價值


作者簡介

人工智能助力藥物研發!產生更大的實際應用價值

熊招平(第一作者)

熊招平,上海科技大學與中科院上海藥物研究所聯合培養博士生,導師為蔣華良院士和鄭明月研究員。他研究興趣集中於圖神經網絡(Graph Neural Network)在分子表徵、分子生成和結構優化中的應用,重點探索可解釋性人工智能在新藥研發中的潛力。他思維活躍,研究興趣廣泛,對多學科交叉融合尤其感興趣。2015年第二屆中美青年創客大賽中,他所在的無人船團隊獲得上海賽區第一名,他在其中負責視覺算法開發和佈署。2016年第一屆由中科院微小衛星中心舉辦的微小衛星設計大賽中,他主持的微小衛星生化實驗模塊項目獲得第二名。2018 DREAM Challenge的“多靶點藥物預測挑戰賽”(Multi-Targeting Dream Challenge 2018) 中,他在甲狀腺髓樣瘤(medullarythyroid carcinoma)和tau蛋白神經退行性模型兩項任務都獲得第一名(人工智能助力上海研究生熊招平摘取多靶點藥物分子設計國際挑戰大賽冠軍)。

人工智能助力藥物研發!產生更大的實際應用價值

鄭明月(通訊作者)

鄭明月,中國科學院上海藥物研究所研究員、博士生導師、國家新藥研究重點實驗室成員、中國化學會計算機化學專業委員會委員。研究方向是基於人工智能和大數據的精準藥物設計技術開發。在藥物作用機制和靶點發現、新靶點活性化合物的發現和成藥性優化等方面取得了一系列成果,發展了具有特色和創新性的機器學習算法和模型,得到了國內外同行的關注。近年來,共發表SCI論文70餘篇,參與5部專著的編寫;在Trends Pharmacol Sci、Autophagy、J Med Chem、J Chem Theory Comput和Bioinformatics等雜誌發表通訊或第一作者論文40餘篇。參與申請發明專利和軟件著作權16項,其中已獲得發明專利授權5項,軟件著作權3項。目前主持自然科學基金面上項目,作為課題負責人蔘與科學院個性化藥物先導專項和生物安全關鍵技術國家重點研發計劃等項目。近年來,入選中科院青年創新促進會會員(2013),獲得中國藥學會施維雅青年藥物化學獎(2014),賽諾菲-中科院上海生科院優秀青年人才獎(2015),上海市人才發展資金(2018)等獎勵和榮譽。

"

點評 | 吳朝暉(浙江大學校長,中國科學院院士)

責編 | 兮

生命科學迅猛發展,刷新大家對生命認知的同時,也給疾病治療帶來了更多的可能性。理論上,幾乎所有生物學功能都可以被藥物靶向。小分子因其相對低廉的成本,成為各大製藥公司和研究機構開展疾病治療研究的首選工具,藥物發現也因此越來越“平權化”。然而,找到具有合適藥理學、毒理學和藥代動力學等特性的小分子,依然是一個很大的挑戰。面對不斷增長的藥物研發數據,現有的人工智能(AI)方法雖然可以據此構建出強大的預測模型,然而深度神經網絡所學到的東西通常難以被化學家和生物學家理解,而且這種認知差距正在不斷增大,也使科技人員難以相信AI模型的預測結果,這也限制了AI技術在藥物研發實踐中的應用【1】

近日,中科院上海藥物所蔣華良院士和鄭明月研究員(第一作者為博士研究生熊招平)在Journal of Medicinal Chemistry發表封面文章Pushingthe Boundaries of Molecular Representation for Drug Discovery with the GraphAttention Mechanism該論文介紹了一種基於注意力機制的圖神經網絡模型(Attentive FP)。該模型可以用於分子表徵,在多個藥物發現相關的數據集上的預測表現達到當前最優,並且該模型所學到的內容具有可解釋性。這種可解釋性在機器的認知和人的認知的差異間架起了一座橋樑,由此可能更好地利用機器的認知增強藥物學家的認知,產生更大的實際應用價值。Attentive FP的特徵可視化表明,它可以自動從特定任務中學習到分子結構內非局部的特性,因此可以幫助藥物學家或化學家超越經驗和直覺,直接從各種性質數據中獲取對該分子結構更深層的理解。

人工智能助力藥物研發!產生更大的實際應用價值


人工智能助力藥物研發!產生更大的實際應用價值

結構決定性質,性質體現於結構。如何從一個分子的化學結構中提取出它的各種性質是科學家夢寐以求的目標。到目前為止,人們先後發明了5000種以上的不同描述符(特徵)去表徵一個化學分子的結構【2】。傳統的機器學習模型就圍繞這些預定義的描述符,通過特徵工程選取不同的組合,對小分子的各種性質進行建模預測。特徵工程選取是一個繁瑣且耗時的過程,而且這種較強的預設先驗很可能使模型產生偏差,導致預測效果達不到最優。以Neural FP為代表的分子圖神經網絡模型能以較少的特徵描述符作為輸入,得到明顯更優的預測結果,是人工智能在分子表徵領域的重要嘗試【3】。然而,在機器學習中準確性和可解釋性很難兼顧。如果不能使神經網絡的“黑盒子”透明化,人們很難判斷一個模型只是擬合或記住了訓練數據,還是真正具備了泛化的能力。面對藥物研發後期巨大的成本投入,藥物學家不可能完全相信某個黑盒算法給出的“武斷”預測【4】。因此,人工智能藥物設計研究的重點之一就是需要探索深度學習算法的可解釋性,針對性地開發了更符合化學背景,更易於解讀的人工智能模型。

人工智能助力藥物研發!產生更大的實際應用價值

圖1. Attentive FP總體框架以及與同類的圖神經網絡模型比較。

作者比較了他們自己的AttentiveFP模型與其他幾種圖神經網絡模型(圖1)。如果將分子看作為一張圖(graph),給定一個節點(紅色標記的目標原子),在Neural FP【3】和GCN【5】模型中,其他節點對目標節點的影響會隨距離嚴重衰減,這不符合化學直覺,即化學結構中距離較遠的原子間有時也會產生較強的影響,比如分子內氫鍵的形成;Weave【6】和MPNN(特指Deepchem中實現的MPNN)模型則默認所有其他節點對目標節點有相同的影響,這可以更好捕捉分子結構中的一些非局部特徵,但顯然忽視了化學分子固有的結構。作者提出的Attentive FP能在保持分子固有結構的情況下,有效捕捉圖的非局部特徵和遠距離節點相互作用(圖2)。這得益於Attentive FP先在原子水平加入注意力機制,學習到分子的局部特徵,後在整個分子水平加入注意力機制,學習到分子的全局特徵。值得一提的是,相比其他同類圖神經網絡模型,Attentive FP用了最少的初始特徵作為模型輸入,依然在多個測試數據集中達到了當前最優的預測表現。

人工智能助力藥物研發!產生更大的實際應用價值

圖2. Attentive FP 注意力圖神經網絡架構。


人工智能助力藥物研發!產生更大的實際應用價值

圖3 AttentiveFP學習水溶性時自動學習到的特徵與化學家定義的描述符比較。

作者將Attentive FP學習水溶性時自動學習到的特徵與化學家定義的描述符進行了對比(圖3)。可以看到,訓練前後,自動學習到的特徵幾乎能復現出跟預測任務相關的經驗描述符。這些經驗描述符是根據化學家的專業知識所定義出來的,比如TPSA(拓撲分子極性表面積)和LogP(油水分配係數)。因為這些經驗描述符與水溶性高度相關,對預測任務有較強的指導,傳統的機器學習模型通常會直接選擇這些描述符作為輸入特徵的一部分來預測水溶性。但作者發展的Attentive FP可以不以這些化學先驗作為輸入,而以更原始簡單的輸入(如原子和鍵的類型等),直接在在隱含層中自動學習到的這些人們長期積累的化學知識,表現為訓練後的模型隱含層特徵與這些經驗描述符的相關性變高,而與預測任務不相關的描述符如SA Score (合成難易性)和Drug Likeness(類藥性)與學習到的隱層特徵相關性比較並沒有顯著變化。

人工智能助力藥物研發!產生更大的實際應用價值

圖4. Attentive FP自動學習化學環境。

作者發展的AttentiveFP模型還能自動學習到原子所處的化學環境,比如,以藥物溶解度作為監督任務進行訓練,將模型學習到的原子向量作相似性評估,負相關的原子對標為黃色,正相關的標為藍色(圖4)。結果表明通過學習,整個分子顯示出特定的結構模式,這種模式在隱藏層的高層更加明顯。對於圖4所示的Iprodione結構,原子被自動聚集的三個部分正好對應分子結構中的三個片段,其中,分子結構中灰色背景的化學基團極性比較小,不利於水溶性,中間紅色背景的基團極性較大,利於水溶性。這一結果提示模型可能自動學習了到各個原子所處的不同化學環境。

人工智能助力藥物研發!產生更大的實際應用價值

圖5. Attentive FP自動學習到分子中的芳香性子結構。

化學分子中的芳香性是一種典型的非局部特徵,這一問題也給基於卷積架構的圖神經網絡模型帶來了挑戰。通過利用注意力機制,作者發展的Attentive FP模型很好的解決了這一問題。當原始輸入中去除編碼芳香性的相關特徵(避免信息洩露),輸出僅以分子中芳香原子的個數作為學習目標進行監督訓練時,Attentive FP能根據注意力機制的權重,準確標出芳香原子的位置。同時,訓練完成的模型面對對抗性的樣本(微小的結構改變,但對芳香性影響巨大的分子)也能進行準確鑑別,展現了強大的泛化能力。

人工智能在人臉識別、語音識別、翻譯和自動駕駛等方面的應用不需要關注智能算法學習到了什麼,為什麼會做出這樣的判斷,只要達到足夠的精度即可。但對於像藥物發現這種科學問題,其中有更多的不確定性,在通用人工智能把整個新藥發現流程包辦以前,藥物學家會更相信自己的經驗直覺,但同時又希望從越來越多的藥物研發數據中汲取新的見解。數據的積累和深度學習算法的應用可以建立更準確的預測模型,而這些預測如果是不能被解釋,或者說被藥物學家理解,那麼將很難取得藥物學家的信任,進而被真正應用而成為藥物發現必不可少的環節。該團隊開發的基於注意力機制的可解釋圖神經網絡分子指紋Attentive FP是對人工智能的可解釋性在藥物發現中的有益探索,它將機器認知與人的認知連接起來,以期更好地利用機器的認知增強藥物學家的認知,這類前沿且與藥物研究需求緊密結合的探索,相信能產生更大的實際應用價值。

整體來說,文章乾貨滿滿,更多內容可自行查閱原文,有興趣的讀者也可以直接利用公開的代碼做自己的探索,https://github.com/OpenDrugAI/AttentiveFP。

值得一提的是,蔣華良/鄭明月課題組前不久也在Journal of Medicinal Chemistry雜誌上發表人工智能助力藥物研發的論文,根據現有激酶活性大數據,應用深度神經網絡算法,建立了藥物調控激酶譜的預測分析方法(詳見此前BioArt的報道:特別評述 | 人工智能助力藥物研發:深度學習預測藥物調控激酶譜)。



專家點評


吳朝暉(浙江大學校長,中國科學院院士,人工智能研究專家)

評論家佈雷特·金(Brett King)在《智能浪潮:增強時代來臨》一書中指出,今天所探索的人工智能等科技,將徹底重新定義人類的下一個時代,這一時代可稱之為智能增強時代。智能增強時代不可避免地要協調好機器智能和人類智能的關係,在決策中融合機器智能,實現人機協同,增強人類智能。

最近十年,得益於算力的增長和數據的累積,我們注意到深度學習在物流、監控、個人助手、高頻交易等領域取得了突破性的成功,推動了這一波的人工智能熱潮。然而,我們同樣發現目前以深度神經網絡為代表的連接主義人工智能(AI)還有很多侷限:它太依賴於數據,欠缺泛化推理能力,也是人類不能理解的“黑箱”。我們不知道神經網絡得到預測的依據,更不確定人工智能模型究竟是學習到了可泛化的知識,還是僅僅記住了樣本,擬合了數據。對於諸如圖像識別、機器翻譯等任務,有些情況下即使產生錯誤並不會產生嚴重後果,只要模型達到好的預測效果,我們可以不必關心模型是如何做出預測的。有很多人工智能任務,會因為人類對智能系統理解不足,而存在的巨大風險。深度神經網絡如果一直保持“黑箱”狀態,模型會很容易受對抗性樣本的攻擊,用戶也很難決定什麼時候可以信任模型的預測。例如,醫生不知道AI模型對病理圖片作出預測的依據,就不能放心採用AI給出的診斷結論;藥物學家不知道AI系統為什麼優選開發某些分子而不是另外一些分子的原因,面對後期巨大的經費投入和失敗風險,就很難相信AI給出的研發決策。

因此,當前人工智能想要真正顯示智慧特徵,創造普惠價值,需要解決的一個重要問題是深度神經網絡的可解釋性。只有人工智能決策過程變得更加透明,這種智能才能更加通用。可解釋性人工智能(Explainable AI)作為一個非常前沿的研究方向,聚焦於用系統性和可解釋的方式呈現人工智能所學習到的複雜邏輯,讓人工智能的預測依據更好地被人類理解。這是實現人機協作,增強人類智能的基礎。可解釋性人工智能受到了各國政府、工業界和學術界的廣泛關注。美國國防部先進研究項目局DARPA資助了可解釋性人工智能項目XAI(ExplainableAI);中國國務院在2017年印發的《新一代人工智能發展規劃》中提出要“實現具備高可解釋性、強泛化能力的人工智能”,得到了產業界和學術機構廣泛認可和積極響應。

近日,上海科技大學和中科院上海藥物研究所蔣華良院士和鄭明月研究員團隊在人工智能的可解釋性在藥物發現領域中的應用進行探索,開發了一種新的分子結構表徵方法Attentive FP【8】。該方法是基於注意力機制的圖神經網絡模型。其中,圖神經網絡模型對拓撲圖中的點和邊的關係進行建模,有利於關係推理。注意力機制是近年來人工智能自然語言模型的核心進展之一,在提高語言模型性能的同時也提升了模型的可解釋性【9】。在Attentive FP中,該團隊使用圖神經網絡處理含有原子和鍵的分子圖結構,並通過創新性地引入原子水平和分子水平的注意力機制,使分子圖模型兼具推理能力和可解釋性。利用Attentive FP進行分子表徵和藥物性質預測建模,可以獲得泛化性能更好的模型;通過可視化模型自動學習到的特徵,可以發現Attentive FP能從化合物的性質數據中直接學習和提取符合化學經驗知識的模式和關聯性。這些特性可以幫助藥物學家更加高效地處理日益擴增的研發數據,從海量大數據中直接獲取新的見解,豐富藥物學家的知識庫和經驗儲備。

未來,隨著腦科學、認知科學、類腦計算的迅猛發展,人工智能在感知、記憶、推理等方面的功能“短板”終將得到補齊,人工智能“黑箱”模型也將變得更加透明,屆時人工智能才能更顯智慧特徵,更具普惠價值。可以預見,藥物研發領域也會融合機器智能與人類智能,實現人機協同,由機器智能幫助藥物學家快速處理海量數據,增強藥物研發的合理決策。基於注意力機制的圖神經網絡分子指紋Attentive FP是在藥物發現中對可解釋性人工智能的積極嘗試,也展示了可解釋性人工智能在人機協同以及在助力藥物研發方面的巨大潛力。


人工智能助力藥物研發!產生更大的實際應用價值


作者簡介

人工智能助力藥物研發!產生更大的實際應用價值

熊招平(第一作者)

熊招平,上海科技大學與中科院上海藥物研究所聯合培養博士生,導師為蔣華良院士和鄭明月研究員。他研究興趣集中於圖神經網絡(Graph Neural Network)在分子表徵、分子生成和結構優化中的應用,重點探索可解釋性人工智能在新藥研發中的潛力。他思維活躍,研究興趣廣泛,對多學科交叉融合尤其感興趣。2015年第二屆中美青年創客大賽中,他所在的無人船團隊獲得上海賽區第一名,他在其中負責視覺算法開發和佈署。2016年第一屆由中科院微小衛星中心舉辦的微小衛星設計大賽中,他主持的微小衛星生化實驗模塊項目獲得第二名。2018 DREAM Challenge的“多靶點藥物預測挑戰賽”(Multi-Targeting Dream Challenge 2018) 中,他在甲狀腺髓樣瘤(medullarythyroid carcinoma)和tau蛋白神經退行性模型兩項任務都獲得第一名(人工智能助力上海研究生熊招平摘取多靶點藥物分子設計國際挑戰大賽冠軍)。

人工智能助力藥物研發!產生更大的實際應用價值

鄭明月(通訊作者)

鄭明月,中國科學院上海藥物研究所研究員、博士生導師、國家新藥研究重點實驗室成員、中國化學會計算機化學專業委員會委員。研究方向是基於人工智能和大數據的精準藥物設計技術開發。在藥物作用機制和靶點發現、新靶點活性化合物的發現和成藥性優化等方面取得了一系列成果,發展了具有特色和創新性的機器學習算法和模型,得到了國內外同行的關注。近年來,共發表SCI論文70餘篇,參與5部專著的編寫;在Trends Pharmacol Sci、Autophagy、J Med Chem、J Chem Theory Comput和Bioinformatics等雜誌發表通訊或第一作者論文40餘篇。參與申請發明專利和軟件著作權16項,其中已獲得發明專利授權5項,軟件著作權3項。目前主持自然科學基金面上項目,作為課題負責人蔘與科學院個性化藥物先導專項和生物安全關鍵技術國家重點研發計劃等項目。近年來,入選中科院青年創新促進會會員(2013),獲得中國藥學會施維雅青年藥物化學獎(2014),賽諾菲-中科院上海生科院優秀青年人才獎(2015),上海市人才發展資金(2018)等獎勵和榮譽。

人工智能助力藥物研發!產生更大的實際應用價值

蔣華良(共同通訊作者)

蔣華良,中國科學院院士,中國科學院上海藥物研究研究員,上海科技大學免疫化學研究所教授。1987年畢業於南京大學化學系,獲得有機化學學士學位;1992年於華東師範大學化學系獲得物理化學碩士學位;1995年於中國科學院上海藥物研究所獲得藥物化學博士學位。

蔣華良長期致力藥物科學基礎研究和新藥發現,他通過生物學、化學、數理科學和計算信息科學等多學科的交叉,開展原創藥物研究新策略與新方法、先導化合物發現和優化、藥物靶標調控機制等研究。他發展了一系列靶標發現和藥物設計新方法,被國際同行和製藥公司廣泛應用。他發展了能預測化合物藥效的理論計算方法,部分解決了藥物設計領域的重大難題。他針對多種重要靶標發現了數十個新結構類型的先導化合物,其中5個候選藥物已進入臨床試驗研究,。迄今他在國際學刊上發表論文460餘篇,其中通訊或共同通訊論文作者200餘篇、綜述13篇;合編專著24本,譯著2本,論著被他引2萬餘次。申請專利160項,獲授權70餘項(其中國際專利16項),實現成果轉讓6項。

他獲國家自然科學二等獎、國家科技進步二等獎、何樑何利科技進步獎、國家青年科學家獎、國家青年科技獎、上海市牡丹自然科學獎、上海市科技進步一等獎、上海市科技精英等多種獎項。目前擔任J. Med. Chem.副主編和其他5種國際學刊的編委。曾任國家863計劃專家組成員、國家重大基礎研究計劃“蛋白質科學重大基礎研究計劃”專家組成員、國家自然科學基金委“基於化學小分子探針的信號轉導過程研究”重大研究計劃專家組成員,現任國家自然科學基金委“生物大學分子動態修飾與化學干預”重大研究計劃專家組組長。

原文鏈接:

https://doi.org/10.1021/acs.jmedchem.9b00959

製版人:小嫻子

參考文獻

1. Shake-up in AI drug discovery, NatBiotechnol. 2019, 37(6):576.

2. Dragon 7.0. https://chm.kode-solutions.net/products_dragon.php

3. Duvenaud, D.; Maclaurin, D.;et al.. Convolutional Networks on Graphs for Learning Molecular Fingerprints. ArXiv E-Prints 2015, arXiv:1509.09292.

4. Schneider, G. Mind and Machinein Drug Design. Nat. Mach. Intell. 2019, 1 (3), 128–130.

5. Zhou, Z.; Li, X. GraphConvolution: A High-Order and Adaptive Approach. ArXiv E-Prints2017,arXiv:1706.09916.

6. Kearnes, S.; McCloskey, K.;Berndl, M.; Pande, V.; Riley, P. Molecular Graph Convolutions: Moving BeyondFingerprints. J Comput-Aided Mol Des 2016, 30, 595.

7. Wu, Z.; Ramsundar, B.; et al..MoleculeNet: A Benchmark for Molecular Machine Learning. Chem Sci2018,9 (2), 513–530.

8. Xiong, Z, Wang, D,; et al..Pushing the boundaries of molecular representation for drug discovery withgraph attention mechanism. J Med Chem. 2019,https://doi.org/10.1021/acs.jmedchem.9b00959

9. Ashish, V.; Shazeer N,; et al.."Attention is all you need." In Advances in neural informationprocessing systems, 2017, pp. 5998-6008.

"

相關推薦

推薦中...