'思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%'

""思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%"思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

在AI技術準確檢出肺部結節病灶的前提下,團隊開發了一套胸部CT排版系統,適合全自動或者半自動的影像學圖像的排版問題,可以將以往人工診斷到排版花費約2小時的工作時間,降低到約100秒完成。

作者 | 李雨晨

過去幾年,AI在醫學影像方面取得了諸多成果。在影像學科的臨床工作流程中,肺部病變的良、惡性鑑別診斷,已經成為AI創業公司爭先恐後湧入的賽道。但是,多數創業公司基本上是停留在後端的疾病診斷層面,在此之前的圖像採集、圖像呈現階段,其實都有文章可做。

近日,南京鼓樓醫院醫學影像科張冰團隊,在柳葉刀子刊EBiomedicine發表了一則AI醫療的新成果,直面影像科醫生工作流程前端的痛點問題。

該團隊選擇了一個全新的切入點——從臨床影像工作全流程角度出發,提出了一種基於深度學習的智能成像排版系統(IILS),系統包括AI肺結節檢測和分類和自適應排版工具,用於結節識別的成像報告標準化和工作流程優化。

成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。特別是當肺結節的直徑小於1 cm時,相應報告不能與排版結果100%匹配。

據瞭解,團隊提出的胸部CT排版工具,使用來自11205名患者的CT成像數據,可以適應全自動或者半自動的影像學圖像的排版問題。以往人工診斷到排版需要花費約2小時的時間,在這個工具的幫助下,時間可以降低到約100秒。

以下為論文詳細內容,由AI掘金志學術組編譯。關注AI掘金志公眾號,在對話框回覆關鍵詞“南京鼓樓”,即可獲取原文PDF下載鏈接。

1、引言

臨床任務的一個典型例子是,分類並生成與肺結節的診斷密切相關的胸部CT圖像的佈局。在篩查檢測和隨訪期間,目前的日常工作流程中仍存在五個問題。

1、成像報告標準化缺乏:由於沒有標準化、科學驗證的方法評估結節,試驗放射科醫師制定了診斷隨訪的指南,但沒有強制要求評估方法(圖1)。

2、缺失結節:如果幹激光膠片用作成像信息載體,則無法顯示與報告中的描述相對應的結節(圖2),這是一個常見問題。

3、缺少關鍵圖像:在從CT掃描儀獲取圖像之後,大量圖像不加選擇地輸入到PACS中。此外,許多臨床醫生對成像知識相對不熟悉,需要花費大量時間和精力來瀏覽這些缺乏關鍵信息的複雜圖像,更不用說使用智能手機或平板電腦來檢查這些圖像。而且,許多無效圖像經常出現在一系列圖像中(圖2)。因此,治療過程極其低效。

4、訪問來自其他醫院的圖像困難:如果患者需要他或她自己的圖像,圖像通常在光盤(CD)上刻錄或通過便攜式硬盤驅動器傳輸。然而,許多現代計算機沒有配備CD驅動器或醫院禁止使用計算機的通用串行總線(USB)接口。因此,患者在不同醫院都要進行掃描成像。

5、 缺乏對臨床醫生和患者需求的考慮(圖2):作為放射科醫師,幫助他人更容易閱讀和理解成像結果的機會尚未得到充分利用。因此,迫切需要具有關鍵圖像的電子報告和可視化結構化報告來解決這些問題。

當前,AI的應用似乎忽略了兩個事實。首先,高質量的標準化圖像是人工智能開發的基礎,其次,AI可以接管簡單和重複的工作。

在這項研究中,我們尋求開發基於人工智能技術和自適應佈局工具融合的智能成像排版系統(IILS),以建立日常工作的新流程,併為放射科醫生和臨床醫生提供標準化圖像和報告。同時,我們從三個方面評估IILS的綜合實力,包括i)IILS與臨床專家之間結節診斷效率的比較; ii)IILS可以優化臨床工作流程的程度;iii)IILS的交叉製造適用性(cross-manufacture applicability)。

總之,我們認為AI技術可以通過串聯連接集成到放射學工作流中,而不是基於簡單的並行關係來遵循傳統的工作流程。

"思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

在AI技術準確檢出肺部結節病灶的前提下,團隊開發了一套胸部CT排版系統,適合全自動或者半自動的影像學圖像的排版問題,可以將以往人工診斷到排版花費約2小時的工作時間,降低到約100秒完成。

作者 | 李雨晨

過去幾年,AI在醫學影像方面取得了諸多成果。在影像學科的臨床工作流程中,肺部病變的良、惡性鑑別診斷,已經成為AI創業公司爭先恐後湧入的賽道。但是,多數創業公司基本上是停留在後端的疾病診斷層面,在此之前的圖像採集、圖像呈現階段,其實都有文章可做。

近日,南京鼓樓醫院醫學影像科張冰團隊,在柳葉刀子刊EBiomedicine發表了一則AI醫療的新成果,直面影像科醫生工作流程前端的痛點問題。

該團隊選擇了一個全新的切入點——從臨床影像工作全流程角度出發,提出了一種基於深度學習的智能成像排版系統(IILS),系統包括AI肺結節檢測和分類和自適應排版工具,用於結節識別的成像報告標準化和工作流程優化。

成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。特別是當肺結節的直徑小於1 cm時,相應報告不能與排版結果100%匹配。

據瞭解,團隊提出的胸部CT排版工具,使用來自11205名患者的CT成像數據,可以適應全自動或者半自動的影像學圖像的排版問題。以往人工診斷到排版需要花費約2小時的時間,在這個工具的幫助下,時間可以降低到約100秒。

以下為論文詳細內容,由AI掘金志學術組編譯。關注AI掘金志公眾號,在對話框回覆關鍵詞“南京鼓樓”,即可獲取原文PDF下載鏈接。

1、引言

臨床任務的一個典型例子是,分類並生成與肺結節的診斷密切相關的胸部CT圖像的佈局。在篩查檢測和隨訪期間,目前的日常工作流程中仍存在五個問題。

1、成像報告標準化缺乏:由於沒有標準化、科學驗證的方法評估結節,試驗放射科醫師制定了診斷隨訪的指南,但沒有強制要求評估方法(圖1)。

2、缺失結節:如果幹激光膠片用作成像信息載體,則無法顯示與報告中的描述相對應的結節(圖2),這是一個常見問題。

3、缺少關鍵圖像:在從CT掃描儀獲取圖像之後,大量圖像不加選擇地輸入到PACS中。此外,許多臨床醫生對成像知識相對不熟悉,需要花費大量時間和精力來瀏覽這些缺乏關鍵信息的複雜圖像,更不用說使用智能手機或平板電腦來檢查這些圖像。而且,許多無效圖像經常出現在一系列圖像中(圖2)。因此,治療過程極其低效。

4、訪問來自其他醫院的圖像困難:如果患者需要他或她自己的圖像,圖像通常在光盤(CD)上刻錄或通過便攜式硬盤驅動器傳輸。然而,許多現代計算機沒有配備CD驅動器或醫院禁止使用計算機的通用串行總線(USB)接口。因此,患者在不同醫院都要進行掃描成像。

5、 缺乏對臨床醫生和患者需求的考慮(圖2):作為放射科醫師,幫助他人更容易閱讀和理解成像結果的機會尚未得到充分利用。因此,迫切需要具有關鍵圖像的電子報告和可視化結構化報告來解決這些問題。

當前,AI的應用似乎忽略了兩個事實。首先,高質量的標準化圖像是人工智能開發的基礎,其次,AI可以接管簡單和重複的工作。

在這項研究中,我們尋求開發基於人工智能技術和自適應佈局工具融合的智能成像排版系統(IILS),以建立日常工作的新流程,併為放射科醫生和臨床醫生提供標準化圖像和報告。同時,我們從三個方面評估IILS的綜合實力,包括i)IILS與臨床專家之間結節診斷效率的比較; ii)IILS可以優化臨床工作流程的程度;iii)IILS的交叉製造適用性(cross-manufacture applicability)。

總之,我們認為AI技術可以通過串聯連接集成到放射學工作流中,而不是基於簡單的並行關係來遵循傳統的工作流程。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖2.當前的手工選片過程和日常工作中的相關問題。例如,成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。相應報告不能與排版結果100%匹配,特別是當肺結節的直徑小於1cm時。 以GE的CT掃描方法為例,在日常工作中使用手動圖像排版時,通常會忽略6(層)×1·25 mm(厚度)= 7·5 mm範圍內的肺組織。因此,當醫生獲得最終的圖像時會遇到以下問題:缺乏成像報告標準化、缺失結節、缺乏關鍵圖像以及缺乏對臨床醫生和患者需求的考慮。

"思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

在AI技術準確檢出肺部結節病灶的前提下,團隊開發了一套胸部CT排版系統,適合全自動或者半自動的影像學圖像的排版問題,可以將以往人工診斷到排版花費約2小時的工作時間,降低到約100秒完成。

作者 | 李雨晨

過去幾年,AI在醫學影像方面取得了諸多成果。在影像學科的臨床工作流程中,肺部病變的良、惡性鑑別診斷,已經成為AI創業公司爭先恐後湧入的賽道。但是,多數創業公司基本上是停留在後端的疾病診斷層面,在此之前的圖像採集、圖像呈現階段,其實都有文章可做。

近日,南京鼓樓醫院醫學影像科張冰團隊,在柳葉刀子刊EBiomedicine發表了一則AI醫療的新成果,直面影像科醫生工作流程前端的痛點問題。

該團隊選擇了一個全新的切入點——從臨床影像工作全流程角度出發,提出了一種基於深度學習的智能成像排版系統(IILS),系統包括AI肺結節檢測和分類和自適應排版工具,用於結節識別的成像報告標準化和工作流程優化。

成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。特別是當肺結節的直徑小於1 cm時,相應報告不能與排版結果100%匹配。

據瞭解,團隊提出的胸部CT排版工具,使用來自11205名患者的CT成像數據,可以適應全自動或者半自動的影像學圖像的排版問題。以往人工診斷到排版需要花費約2小時的時間,在這個工具的幫助下,時間可以降低到約100秒。

以下為論文詳細內容,由AI掘金志學術組編譯。關注AI掘金志公眾號,在對話框回覆關鍵詞“南京鼓樓”,即可獲取原文PDF下載鏈接。

1、引言

臨床任務的一個典型例子是,分類並生成與肺結節的診斷密切相關的胸部CT圖像的佈局。在篩查檢測和隨訪期間,目前的日常工作流程中仍存在五個問題。

1、成像報告標準化缺乏:由於沒有標準化、科學驗證的方法評估結節,試驗放射科醫師制定了診斷隨訪的指南,但沒有強制要求評估方法(圖1)。

2、缺失結節:如果幹激光膠片用作成像信息載體,則無法顯示與報告中的描述相對應的結節(圖2),這是一個常見問題。

3、缺少關鍵圖像:在從CT掃描儀獲取圖像之後,大量圖像不加選擇地輸入到PACS中。此外,許多臨床醫生對成像知識相對不熟悉,需要花費大量時間和精力來瀏覽這些缺乏關鍵信息的複雜圖像,更不用說使用智能手機或平板電腦來檢查這些圖像。而且,許多無效圖像經常出現在一系列圖像中(圖2)。因此,治療過程極其低效。

4、訪問來自其他醫院的圖像困難:如果患者需要他或她自己的圖像,圖像通常在光盤(CD)上刻錄或通過便攜式硬盤驅動器傳輸。然而,許多現代計算機沒有配備CD驅動器或醫院禁止使用計算機的通用串行總線(USB)接口。因此,患者在不同醫院都要進行掃描成像。

5、 缺乏對臨床醫生和患者需求的考慮(圖2):作為放射科醫師,幫助他人更容易閱讀和理解成像結果的機會尚未得到充分利用。因此,迫切需要具有關鍵圖像的電子報告和可視化結構化報告來解決這些問題。

當前,AI的應用似乎忽略了兩個事實。首先,高質量的標準化圖像是人工智能開發的基礎,其次,AI可以接管簡單和重複的工作。

在這項研究中,我們尋求開發基於人工智能技術和自適應佈局工具融合的智能成像排版系統(IILS),以建立日常工作的新流程,併為放射科醫生和臨床醫生提供標準化圖像和報告。同時,我們從三個方面評估IILS的綜合實力,包括i)IILS與臨床專家之間結節診斷效率的比較; ii)IILS可以優化臨床工作流程的程度;iii)IILS的交叉製造適用性(cross-manufacture applicability)。

總之,我們認為AI技術可以通過串聯連接集成到放射學工作流中,而不是基於簡單的並行關係來遵循傳統的工作流程。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖2.當前的手工選片過程和日常工作中的相關問題。例如,成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。相應報告不能與排版結果100%匹配,特別是當肺結節的直徑小於1cm時。 以GE的CT掃描方法為例,在日常工作中使用手動圖像排版時,通常會忽略6(層)×1·25 mm(厚度)= 7·5 mm範圍內的肺組織。因此,當醫生獲得最終的圖像時會遇到以下問題:缺乏成像報告標準化、缺失結節、缺乏關鍵圖像以及缺乏對臨床醫生和患者需求的考慮。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖3. IILS的組成以及如何將其整合到當前的成像過程中。新的IILS包括以下部分:一個是AI肺結節檢測和分類,另一個是自適應排版工具,包括我們團隊發明的自動排版和可視化結構化報告生成。為了確保圖像質量和結果,我們有一位放射科醫生,他通常負責編寫報告,仔細檢查自動生成的結構化報告和圖像排版結果。成像部門日常工作的整個過程包括以下關鍵步驟:i)獲取:從不同臨床科室的患者收集圖像信息; ii)排版:包括日常工作的手動排版和圖像管理; iii)診斷:放射科醫師的圖像診斷,預測和評估。新型智能系統的應用通過串聯而非並聯連接集成到放射工作流中。

2、材料與方法

2.1 實驗軟件和硬件

本文中的模型均在DGX1平臺上進行訓練。(NVIDIA DGX1 system, 8× Tesla V100 GPUs, 128 GB total system GPUMemory, dual 20-core Intel Xeon E5–2698 CPU v4 2.2 GHz, SantaClara, California, USA)

2.2 實驗模型和項目細節

"思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

在AI技術準確檢出肺部結節病灶的前提下,團隊開發了一套胸部CT排版系統,適合全自動或者半自動的影像學圖像的排版問題,可以將以往人工診斷到排版花費約2小時的工作時間,降低到約100秒完成。

作者 | 李雨晨

過去幾年,AI在醫學影像方面取得了諸多成果。在影像學科的臨床工作流程中,肺部病變的良、惡性鑑別診斷,已經成為AI創業公司爭先恐後湧入的賽道。但是,多數創業公司基本上是停留在後端的疾病診斷層面,在此之前的圖像採集、圖像呈現階段,其實都有文章可做。

近日,南京鼓樓醫院醫學影像科張冰團隊,在柳葉刀子刊EBiomedicine發表了一則AI醫療的新成果,直面影像科醫生工作流程前端的痛點問題。

該團隊選擇了一個全新的切入點——從臨床影像工作全流程角度出發,提出了一種基於深度學習的智能成像排版系統(IILS),系統包括AI肺結節檢測和分類和自適應排版工具,用於結節識別的成像報告標準化和工作流程優化。

成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。特別是當肺結節的直徑小於1 cm時,相應報告不能與排版結果100%匹配。

據瞭解,團隊提出的胸部CT排版工具,使用來自11205名患者的CT成像數據,可以適應全自動或者半自動的影像學圖像的排版問題。以往人工診斷到排版需要花費約2小時的時間,在這個工具的幫助下,時間可以降低到約100秒。

以下為論文詳細內容,由AI掘金志學術組編譯。關注AI掘金志公眾號,在對話框回覆關鍵詞“南京鼓樓”,即可獲取原文PDF下載鏈接。

1、引言

臨床任務的一個典型例子是,分類並生成與肺結節的診斷密切相關的胸部CT圖像的佈局。在篩查檢測和隨訪期間,目前的日常工作流程中仍存在五個問題。

1、成像報告標準化缺乏:由於沒有標準化、科學驗證的方法評估結節,試驗放射科醫師制定了診斷隨訪的指南,但沒有強制要求評估方法(圖1)。

2、缺失結節:如果幹激光膠片用作成像信息載體,則無法顯示與報告中的描述相對應的結節(圖2),這是一個常見問題。

3、缺少關鍵圖像:在從CT掃描儀獲取圖像之後,大量圖像不加選擇地輸入到PACS中。此外,許多臨床醫生對成像知識相對不熟悉,需要花費大量時間和精力來瀏覽這些缺乏關鍵信息的複雜圖像,更不用說使用智能手機或平板電腦來檢查這些圖像。而且,許多無效圖像經常出現在一系列圖像中(圖2)。因此,治療過程極其低效。

4、訪問來自其他醫院的圖像困難:如果患者需要他或她自己的圖像,圖像通常在光盤(CD)上刻錄或通過便攜式硬盤驅動器傳輸。然而,許多現代計算機沒有配備CD驅動器或醫院禁止使用計算機的通用串行總線(USB)接口。因此,患者在不同醫院都要進行掃描成像。

5、 缺乏對臨床醫生和患者需求的考慮(圖2):作為放射科醫師,幫助他人更容易閱讀和理解成像結果的機會尚未得到充分利用。因此,迫切需要具有關鍵圖像的電子報告和可視化結構化報告來解決這些問題。

當前,AI的應用似乎忽略了兩個事實。首先,高質量的標準化圖像是人工智能開發的基礎,其次,AI可以接管簡單和重複的工作。

在這項研究中,我們尋求開發基於人工智能技術和自適應佈局工具融合的智能成像排版系統(IILS),以建立日常工作的新流程,併為放射科醫生和臨床醫生提供標準化圖像和報告。同時,我們從三個方面評估IILS的綜合實力,包括i)IILS與臨床專家之間結節診斷效率的比較; ii)IILS可以優化臨床工作流程的程度;iii)IILS的交叉製造適用性(cross-manufacture applicability)。

總之,我們認為AI技術可以通過串聯連接集成到放射學工作流中,而不是基於簡單的並行關係來遵循傳統的工作流程。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖2.當前的手工選片過程和日常工作中的相關問題。例如,成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。相應報告不能與排版結果100%匹配,特別是當肺結節的直徑小於1cm時。 以GE的CT掃描方法為例,在日常工作中使用手動圖像排版時,通常會忽略6(層)×1·25 mm(厚度)= 7·5 mm範圍內的肺組織。因此,當醫生獲得最終的圖像時會遇到以下問題:缺乏成像報告標準化、缺失結節、缺乏關鍵圖像以及缺乏對臨床醫生和患者需求的考慮。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖3. IILS的組成以及如何將其整合到當前的成像過程中。新的IILS包括以下部分:一個是AI肺結節檢測和分類,另一個是自適應排版工具,包括我們團隊發明的自動排版和可視化結構化報告生成。為了確保圖像質量和結果,我們有一位放射科醫生,他通常負責編寫報告,仔細檢查自動生成的結構化報告和圖像排版結果。成像部門日常工作的整個過程包括以下關鍵步驟:i)獲取:從不同臨床科室的患者收集圖像信息; ii)排版:包括日常工作的手動排版和圖像管理; iii)診斷:放射科醫師的圖像診斷,預測和評估。新型智能系統的應用通過串聯而非並聯連接集成到放射工作流中。

2、材料與方法

2.1 實驗軟件和硬件

本文中的模型均在DGX1平臺上進行訓練。(NVIDIA DGX1 system, 8× Tesla V100 GPUs, 128 GB total system GPUMemory, dual 20-core Intel Xeon E5–2698 CPU v4 2.2 GHz, SantaClara, California, USA)

2.2 實驗模型和項目細節

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖4:數據流圖顯示了我們檢測結節和分類良性或惡性病例的方法。本研究採用的數據是從2016年10月到2018年11月,從五個主要的不同CT製造商處獲得的11205名患者、共3527048張胸部CT掃描圖像。

訓練過程分為兩部分,分別由兩個訓練隊列組成。通過卷積神經網絡(CNN)獲得兩個模型,通過5折交叉驗證進行性能評估,然後合併形成IILS的第一層,即用於檢測結節和分類病例的篩選部分。我們將最終的兩個模型部署到包含1965個病例的獨立隊列中,通過六位臨床專家對結節數量的一致性分析,以顯示我們IILS的可信度。

八名有3到25年胸部CT經驗的專家作為檢查員參加了會議。為了在臨床專家的背景下評估我們的卷積神經網絡,我們使用1965名患者的獨立測試集來比較我們的網絡決策和人類專家的決策。隨機選擇作為受試者的1965名患者進行讀者間和讀者間再現性研究。

所有肺結節的數量的確定、良性和惡性結節的判斷由六位專家檢查兩次,間隔為1個月,以最小化記憶偏差。所有決策均由六位專家做出,用於讀者間的再現性分析。加權誤差評分用於反映假陰性結果(未做出決定)比假陽性結果更有害。使用這些加權懲罰點、計算模型和每個人類專家的錯誤率。

即使患者有較大的病變,我們也僅包括小於30 mm的結節,其大小相當於約30 mm的平均直徑,因為肺結節的定義是直徑小於3cm的病變。我們納入了疑似轉移的結節以及可能具有良性組織學特徵的結節。然而,排除了粟粒性結核、間質病變、結節病和重症肺炎。

以下參數用於評估結節特徵和圖像質量對觀察者一致性的影響:總結節大小(最大直徑,毫米)、結節類型、良性或惡性以及肺實質內結節的密度。從數據庫中提取參數結節大小、良性或惡性和類型。結節的密度由沒有參與閱讀過程的專家(H.Y 和H.W)測量。將兩個約1cm的感興趣區域放置在結節中的兩個均勻區域中,並且兩次測量中平均的Hounsfield units標準偏差是密度的度量。

2.3 病人分類

訓練過程中的用例隨機分為訓練集80%和驗證集20%(圖4)。訓練集用於訓練算法,驗證集用於模型選擇,測試集用於評估最終選擇的模型。在確定百分比分割時,目標是為算法保留足夠的數據以進行訓練,但是具有足夠的驗證和測試用例以保持模型準確性的合理置信區間。 該數據集代表了在參與診所提供和接受治療的最常見的實性、鈣化或磨玻璃結節患者。

2.4 圖像標註

在訓練之前,每個圖像都經過分層分級系統,該系統由多級訓練有素的評分者組成,他們具有逐級遞增的專業知識,可用於圖像標籤的驗證和校正。導入數據庫的每個圖像都與患者最近診斷的標籤相匹配。第一級評分員包括具有呼吸系統和成像基礎知識的成員。這一級評分員進行了初步的質量控制,並排除了包含嚴重偽影或顯著降低圖像分辨率的胸部CT圖像。第二級評分員由兩位專家組成,他們對通過第一級的每張圖像進行獨立評分。記錄胸部CT圖像上是否存在實性,鈣化或磨玻璃結節和其他可見的病變。最後,第二層由兩名高級呼吸和成像專家組成,每位專家擁有超過15年的臨床呼吸和成像經驗,獨立驗證每張圖像的真實標籤。所有圖像的驗證子集由兩名專家分別評分,不一致的臨床標籤由由高級專家仲裁,以解釋評分中的人為錯誤。

2.5 軟件支持

軟件系統的開發在Linux Ubuntu 18.04環境下進行。Pycharm 和 VS Code用作開發的IDE。Chrome調試器用於測試和調試UI / UX。 軟件的實現細節是保密的,以下部分主要描述了實現的設計和邏輯。

"思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

在AI技術準確檢出肺部結節病灶的前提下,團隊開發了一套胸部CT排版系統,適合全自動或者半自動的影像學圖像的排版問題,可以將以往人工診斷到排版花費約2小時的工作時間,降低到約100秒完成。

作者 | 李雨晨

過去幾年,AI在醫學影像方面取得了諸多成果。在影像學科的臨床工作流程中,肺部病變的良、惡性鑑別診斷,已經成為AI創業公司爭先恐後湧入的賽道。但是,多數創業公司基本上是停留在後端的疾病診斷層面,在此之前的圖像採集、圖像呈現階段,其實都有文章可做。

近日,南京鼓樓醫院醫學影像科張冰團隊,在柳葉刀子刊EBiomedicine發表了一則AI醫療的新成果,直面影像科醫生工作流程前端的痛點問題。

該團隊選擇了一個全新的切入點——從臨床影像工作全流程角度出發,提出了一種基於深度學習的智能成像排版系統(IILS),系統包括AI肺結節檢測和分類和自適應排版工具,用於結節識別的成像報告標準化和工作流程優化。

成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。特別是當肺結節的直徑小於1 cm時,相應報告不能與排版結果100%匹配。

據瞭解,團隊提出的胸部CT排版工具,使用來自11205名患者的CT成像數據,可以適應全自動或者半自動的影像學圖像的排版問題。以往人工診斷到排版需要花費約2小時的時間,在這個工具的幫助下,時間可以降低到約100秒。

以下為論文詳細內容,由AI掘金志學術組編譯。關注AI掘金志公眾號,在對話框回覆關鍵詞“南京鼓樓”,即可獲取原文PDF下載鏈接。

1、引言

臨床任務的一個典型例子是,分類並生成與肺結節的診斷密切相關的胸部CT圖像的佈局。在篩查檢測和隨訪期間,目前的日常工作流程中仍存在五個問題。

1、成像報告標準化缺乏:由於沒有標準化、科學驗證的方法評估結節,試驗放射科醫師制定了診斷隨訪的指南,但沒有強制要求評估方法(圖1)。

2、缺失結節:如果幹激光膠片用作成像信息載體,則無法顯示與報告中的描述相對應的結節(圖2),這是一個常見問題。

3、缺少關鍵圖像:在從CT掃描儀獲取圖像之後,大量圖像不加選擇地輸入到PACS中。此外,許多臨床醫生對成像知識相對不熟悉,需要花費大量時間和精力來瀏覽這些缺乏關鍵信息的複雜圖像,更不用說使用智能手機或平板電腦來檢查這些圖像。而且,許多無效圖像經常出現在一系列圖像中(圖2)。因此,治療過程極其低效。

4、訪問來自其他醫院的圖像困難:如果患者需要他或她自己的圖像,圖像通常在光盤(CD)上刻錄或通過便攜式硬盤驅動器傳輸。然而,許多現代計算機沒有配備CD驅動器或醫院禁止使用計算機的通用串行總線(USB)接口。因此,患者在不同醫院都要進行掃描成像。

5、 缺乏對臨床醫生和患者需求的考慮(圖2):作為放射科醫師,幫助他人更容易閱讀和理解成像結果的機會尚未得到充分利用。因此,迫切需要具有關鍵圖像的電子報告和可視化結構化報告來解決這些問題。

當前,AI的應用似乎忽略了兩個事實。首先,高質量的標準化圖像是人工智能開發的基礎,其次,AI可以接管簡單和重複的工作。

在這項研究中,我們尋求開發基於人工智能技術和自適應佈局工具融合的智能成像排版系統(IILS),以建立日常工作的新流程,併為放射科醫生和臨床醫生提供標準化圖像和報告。同時,我們從三個方面評估IILS的綜合實力,包括i)IILS與臨床專家之間結節診斷效率的比較; ii)IILS可以優化臨床工作流程的程度;iii)IILS的交叉製造適用性(cross-manufacture applicability)。

總之,我們認為AI技術可以通過串聯連接集成到放射學工作流中,而不是基於簡單的並行關係來遵循傳統的工作流程。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖2.當前的手工選片過程和日常工作中的相關問題。例如,成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。相應報告不能與排版結果100%匹配,特別是當肺結節的直徑小於1cm時。 以GE的CT掃描方法為例,在日常工作中使用手動圖像排版時,通常會忽略6(層)×1·25 mm(厚度)= 7·5 mm範圍內的肺組織。因此,當醫生獲得最終的圖像時會遇到以下問題:缺乏成像報告標準化、缺失結節、缺乏關鍵圖像以及缺乏對臨床醫生和患者需求的考慮。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖3. IILS的組成以及如何將其整合到當前的成像過程中。新的IILS包括以下部分:一個是AI肺結節檢測和分類,另一個是自適應排版工具,包括我們團隊發明的自動排版和可視化結構化報告生成。為了確保圖像質量和結果,我們有一位放射科醫生,他通常負責編寫報告,仔細檢查自動生成的結構化報告和圖像排版結果。成像部門日常工作的整個過程包括以下關鍵步驟:i)獲取:從不同臨床科室的患者收集圖像信息; ii)排版:包括日常工作的手動排版和圖像管理; iii)診斷:放射科醫師的圖像診斷,預測和評估。新型智能系統的應用通過串聯而非並聯連接集成到放射工作流中。

2、材料與方法

2.1 實驗軟件和硬件

本文中的模型均在DGX1平臺上進行訓練。(NVIDIA DGX1 system, 8× Tesla V100 GPUs, 128 GB total system GPUMemory, dual 20-core Intel Xeon E5–2698 CPU v4 2.2 GHz, SantaClara, California, USA)

2.2 實驗模型和項目細節

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖4:數據流圖顯示了我們檢測結節和分類良性或惡性病例的方法。本研究採用的數據是從2016年10月到2018年11月,從五個主要的不同CT製造商處獲得的11205名患者、共3527048張胸部CT掃描圖像。

訓練過程分為兩部分,分別由兩個訓練隊列組成。通過卷積神經網絡(CNN)獲得兩個模型,通過5折交叉驗證進行性能評估,然後合併形成IILS的第一層,即用於檢測結節和分類病例的篩選部分。我們將最終的兩個模型部署到包含1965個病例的獨立隊列中,通過六位臨床專家對結節數量的一致性分析,以顯示我們IILS的可信度。

八名有3到25年胸部CT經驗的專家作為檢查員參加了會議。為了在臨床專家的背景下評估我們的卷積神經網絡,我們使用1965名患者的獨立測試集來比較我們的網絡決策和人類專家的決策。隨機選擇作為受試者的1965名患者進行讀者間和讀者間再現性研究。

所有肺結節的數量的確定、良性和惡性結節的判斷由六位專家檢查兩次,間隔為1個月,以最小化記憶偏差。所有決策均由六位專家做出,用於讀者間的再現性分析。加權誤差評分用於反映假陰性結果(未做出決定)比假陽性結果更有害。使用這些加權懲罰點、計算模型和每個人類專家的錯誤率。

即使患者有較大的病變,我們也僅包括小於30 mm的結節,其大小相當於約30 mm的平均直徑,因為肺結節的定義是直徑小於3cm的病變。我們納入了疑似轉移的結節以及可能具有良性組織學特徵的結節。然而,排除了粟粒性結核、間質病變、結節病和重症肺炎。

以下參數用於評估結節特徵和圖像質量對觀察者一致性的影響:總結節大小(最大直徑,毫米)、結節類型、良性或惡性以及肺實質內結節的密度。從數據庫中提取參數結節大小、良性或惡性和類型。結節的密度由沒有參與閱讀過程的專家(H.Y 和H.W)測量。將兩個約1cm的感興趣區域放置在結節中的兩個均勻區域中,並且兩次測量中平均的Hounsfield units標準偏差是密度的度量。

2.3 病人分類

訓練過程中的用例隨機分為訓練集80%和驗證集20%(圖4)。訓練集用於訓練算法,驗證集用於模型選擇,測試集用於評估最終選擇的模型。在確定百分比分割時,目標是為算法保留足夠的數據以進行訓練,但是具有足夠的驗證和測試用例以保持模型準確性的合理置信區間。 該數據集代表了在參與診所提供和接受治療的最常見的實性、鈣化或磨玻璃結節患者。

2.4 圖像標註

在訓練之前,每個圖像都經過分層分級系統,該系統由多級訓練有素的評分者組成,他們具有逐級遞增的專業知識,可用於圖像標籤的驗證和校正。導入數據庫的每個圖像都與患者最近診斷的標籤相匹配。第一級評分員包括具有呼吸系統和成像基礎知識的成員。這一級評分員進行了初步的質量控制,並排除了包含嚴重偽影或顯著降低圖像分辨率的胸部CT圖像。第二級評分員由兩位專家組成,他們對通過第一級的每張圖像進行獨立評分。記錄胸部CT圖像上是否存在實性,鈣化或磨玻璃結節和其他可見的病變。最後,第二層由兩名高級呼吸和成像專家組成,每位專家擁有超過15年的臨床呼吸和成像經驗,獨立驗證每張圖像的真實標籤。所有圖像的驗證子集由兩名專家分別評分,不一致的臨床標籤由由高級專家仲裁,以解釋評分中的人為錯誤。

2.5 軟件支持

軟件系統的開發在Linux Ubuntu 18.04環境下進行。Pycharm 和 VS Code用作開發的IDE。Chrome調試器用於測試和調試UI / UX。 軟件的實現細節是保密的,以下部分主要描述了實現的設計和邏輯。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖5:排版示例加上可視化結構報告以及與傳統排版和報告的比較。

(a)使用IILS選擇後的新圖像排版。新的排版圖像被分為三個部分(兩個紅框的區域,代表關鍵圖像所在的區域)。顯然,與(c)相比沒有無效圖像(標有橙色下劃線)。排版第一部分開頭的五個小框依次顯示:1)肺窗條件下結節的最大橫截面切片的圖像(WW:1500; WL:-500),2)具有長徑和短徑測量數據的圖像,3)縱隔窗口條件下的結節圖像(WW:350,WL:50),4)結節的冠狀圖像重建,5)結節的矢狀圖像重建。第二部分是在縱隔窗口條件下每層間隔的一組圖像。最後一部分是一組薄層肺組織圖像,大約分為六層。另一個便利是,片子上任一單元格中的每個圖像都可以通過其切片ID進行跟蹤,並通過雙擊它來重定向到圖像集中的原始位置。還自動生成與片子相關的可視化結構報告。有關詳細信息,請參見視頻2。

(b):如果患者沒有肺結節,IILS給出的排版和報告將與傳統系統給出的相似。

(c):使用傳統的手工排版形式,表格分為兩部分。 前部包括縱隔組織圖像,後部是肺組織圖像。 傳統排版格式的主要問題是缺少關鍵圖像,各種無效圖像(一些帶橙色下劃線的圖像),以及缺少鏈接功能。 相關報告填充了文本,沒有生成結構化報告。

2.6 自動排版

通過將固定輸出過程分成以下子任務來執行自動排版:1,驗證; 2,輸出。在驗證任務中,我們的程序首先處理最重要的結節,生成五個放大的輸出圖像,聚焦在結節上,同時突出顯示矩形,標明肺窗形式的結節位置,長徑測量,縱隔窗 和兩個方向透視。 五個輸出圖像放置在第一行,然後是30個縱隔窗口圖像,其餘的為肺窗口。 具體而言,第一部分五個網格是單個結節的自動排版,具有最高的惡性概率風險,這可由AI預測。 五張圖片也可以由放射科醫師驗證和覆蓋。 自適應排版工具的輸出包括兩個電子排片和一個由四組圖像組成的結構化報告。

與傳統報告的比較,IILS提供了以下信息:i)基本信息顯示:患者信息,檢查信息,放射科醫師信息等。ii)結果(來自AI預測和放射科醫師的雙重確認):標準化描述肺結節圖像,包括結節位置,形態和密度,圖像信息的層數,結節長徑,體積,平均CT值,以及結節的惡性概率。此外,我們為放射科醫師預留了足夠的空間,可以為其他病變編寫定期報告。 iii)診斷感想:由放射科醫師撰寫的診斷建議。肺部全部範圍的適應性是主要關注點,其意味著五個圖像是否附在第一組,即 一組顯示結節的五種形式圖像具有最高的AI預測得分為惡性,符合我們的預設的將受到高度重視。驗證後,可以將排片導出為可打印格式,以便為放射科醫師和患者提供可視化信息,同時自動生成結構報告。

我們還推斷一個好的排版系統主要包括以下三個主要內容:1)任何可靠,客觀的測量數據的所有關鍵圖像; 2)顯示腫瘤特徵的一系列圖像,包括形狀,數量,密度,大小,增強,多角度觀察和後續比較; 3)胸部縱隔窗和肺窗圖像連續顯示(圖5a-b)。 此外,我們手工顯示當前排版形式的圖片,這在日常工作中作為比較非常普遍(圖5c)。

2.7 結構化報告

結構化報告生成程序旨在完成常見CT掃描場景中的完整工作流程(補充圖S2)。與傳統報告的比較,我們計劃為放射科醫師和患者提供圖像和結果的可視化。該計劃主要通過以下三個步驟進行:1,收集資源;2,渲染圖像;3,輸出。我們現在將詳細描述每個步驟。為了收集資源,我們需要在我們的程序中加載多個資源,包括DICOM圖像集、AI預測結節、患者/醫院信息,以及捕獲放射科醫師的結果和診斷感想。收集必要的資源後,我們繼續進行渲染部分。該程序將首先根據其重要性對結節進行排序(由AI定義,但可以由操作員覆蓋),然後在相應的圖像上使用矩形框渲染每個結節。該程序還放大了圖像並設置其中心,重點放在結節本身。渲染和轉換後,將觸發特殊事件偵聽器以通知程序捕獲渲染數據。最後,程序生成預定義的可打印輸出。

2.8 定量和統計分析

ROC曲線繪製了真陽性率(TPR,靈敏度)與假陽性率(1- 特異度)的關係曲線。通過將正確標記的惡性結節的總數和正確標記的良性結節的總數分別除以測試圖像的結節總數來確定靈敏度和特異度。連續變量被描述為平均值±標準誤差(SEM),並且分類變量被表示為諸如良性/惡性(B / M)的特徵。將傳統圖像排版組與智能系統組和正常對照組之間的臨床特徵通過Mann-Whitney U檢驗,卡方檢驗或Fisher精確檢驗進行比較。使用雙樣本Mann-Whitney U檢驗比較傳統排版組與智能佈局組和正常對照組之間的差異。Kappa統計用於衡量兩個評估者之間的一致性程度,即AI和人類專家。kappa值至少為0.75表示良好的一致性。 然而,我們認為較大的kappa值,例如0.90,是優選的。雙尾P值<0.05被認為具有統計學意義。

3、結果

3.1患者和圖像特徵

具有四種不同結節大小的病例及其特徵和演變表明隨訪的重要性(圖6a)。表1總結了用於訓練、驗證和獨立測試數據集的患者和結節的特徵。根據文獻,結節類型分為實性結節、鈣化結節和磨砂玻璃結節。工作流程圖的總體實驗設計如圖6b所示。

"思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

在AI技術準確檢出肺部結節病灶的前提下,團隊開發了一套胸部CT排版系統,適合全自動或者半自動的影像學圖像的排版問題,可以將以往人工診斷到排版花費約2小時的工作時間,降低到約100秒完成。

作者 | 李雨晨

過去幾年,AI在醫學影像方面取得了諸多成果。在影像學科的臨床工作流程中,肺部病變的良、惡性鑑別診斷,已經成為AI創業公司爭先恐後湧入的賽道。但是,多數創業公司基本上是停留在後端的疾病診斷層面,在此之前的圖像採集、圖像呈現階段,其實都有文章可做。

近日,南京鼓樓醫院醫學影像科張冰團隊,在柳葉刀子刊EBiomedicine發表了一則AI醫療的新成果,直面影像科醫生工作流程前端的痛點問題。

該團隊選擇了一個全新的切入點——從臨床影像工作全流程角度出發,提出了一種基於深度學習的智能成像排版系統(IILS),系統包括AI肺結節檢測和分類和自適應排版工具,用於結節識別的成像報告標準化和工作流程優化。

成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。特別是當肺結節的直徑小於1 cm時,相應報告不能與排版結果100%匹配。

據瞭解,團隊提出的胸部CT排版工具,使用來自11205名患者的CT成像數據,可以適應全自動或者半自動的影像學圖像的排版問題。以往人工診斷到排版需要花費約2小時的時間,在這個工具的幫助下,時間可以降低到約100秒。

以下為論文詳細內容,由AI掘金志學術組編譯。關注AI掘金志公眾號,在對話框回覆關鍵詞“南京鼓樓”,即可獲取原文PDF下載鏈接。

1、引言

臨床任務的一個典型例子是,分類並生成與肺結節的診斷密切相關的胸部CT圖像的佈局。在篩查檢測和隨訪期間,目前的日常工作流程中仍存在五個問題。

1、成像報告標準化缺乏:由於沒有標準化、科學驗證的方法評估結節,試驗放射科醫師制定了診斷隨訪的指南,但沒有強制要求評估方法(圖1)。

2、缺失結節:如果幹激光膠片用作成像信息載體,則無法顯示與報告中的描述相對應的結節(圖2),這是一個常見問題。

3、缺少關鍵圖像:在從CT掃描儀獲取圖像之後,大量圖像不加選擇地輸入到PACS中。此外,許多臨床醫生對成像知識相對不熟悉,需要花費大量時間和精力來瀏覽這些缺乏關鍵信息的複雜圖像,更不用說使用智能手機或平板電腦來檢查這些圖像。而且,許多無效圖像經常出現在一系列圖像中(圖2)。因此,治療過程極其低效。

4、訪問來自其他醫院的圖像困難:如果患者需要他或她自己的圖像,圖像通常在光盤(CD)上刻錄或通過便攜式硬盤驅動器傳輸。然而,許多現代計算機沒有配備CD驅動器或醫院禁止使用計算機的通用串行總線(USB)接口。因此,患者在不同醫院都要進行掃描成像。

5、 缺乏對臨床醫生和患者需求的考慮(圖2):作為放射科醫師,幫助他人更容易閱讀和理解成像結果的機會尚未得到充分利用。因此,迫切需要具有關鍵圖像的電子報告和可視化結構化報告來解決這些問題。

當前,AI的應用似乎忽略了兩個事實。首先,高質量的標準化圖像是人工智能開發的基礎,其次,AI可以接管簡單和重複的工作。

在這項研究中,我們尋求開發基於人工智能技術和自適應佈局工具融合的智能成像排版系統(IILS),以建立日常工作的新流程,併為放射科醫生和臨床醫生提供標準化圖像和報告。同時,我們從三個方面評估IILS的綜合實力,包括i)IILS與臨床專家之間結節診斷效率的比較; ii)IILS可以優化臨床工作流程的程度;iii)IILS的交叉製造適用性(cross-manufacture applicability)。

總之,我們認為AI技術可以通過串聯連接集成到放射學工作流中,而不是基於簡單的並行關係來遵循傳統的工作流程。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖2.當前的手工選片過程和日常工作中的相關問題。例如,成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。相應報告不能與排版結果100%匹配,特別是當肺結節的直徑小於1cm時。 以GE的CT掃描方法為例,在日常工作中使用手動圖像排版時,通常會忽略6(層)×1·25 mm(厚度)= 7·5 mm範圍內的肺組織。因此,當醫生獲得最終的圖像時會遇到以下問題:缺乏成像報告標準化、缺失結節、缺乏關鍵圖像以及缺乏對臨床醫生和患者需求的考慮。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖3. IILS的組成以及如何將其整合到當前的成像過程中。新的IILS包括以下部分:一個是AI肺結節檢測和分類,另一個是自適應排版工具,包括我們團隊發明的自動排版和可視化結構化報告生成。為了確保圖像質量和結果,我們有一位放射科醫生,他通常負責編寫報告,仔細檢查自動生成的結構化報告和圖像排版結果。成像部門日常工作的整個過程包括以下關鍵步驟:i)獲取:從不同臨床科室的患者收集圖像信息; ii)排版:包括日常工作的手動排版和圖像管理; iii)診斷:放射科醫師的圖像診斷,預測和評估。新型智能系統的應用通過串聯而非並聯連接集成到放射工作流中。

2、材料與方法

2.1 實驗軟件和硬件

本文中的模型均在DGX1平臺上進行訓練。(NVIDIA DGX1 system, 8× Tesla V100 GPUs, 128 GB total system GPUMemory, dual 20-core Intel Xeon E5–2698 CPU v4 2.2 GHz, SantaClara, California, USA)

2.2 實驗模型和項目細節

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖4:數據流圖顯示了我們檢測結節和分類良性或惡性病例的方法。本研究採用的數據是從2016年10月到2018年11月,從五個主要的不同CT製造商處獲得的11205名患者、共3527048張胸部CT掃描圖像。

訓練過程分為兩部分,分別由兩個訓練隊列組成。通過卷積神經網絡(CNN)獲得兩個模型,通過5折交叉驗證進行性能評估,然後合併形成IILS的第一層,即用於檢測結節和分類病例的篩選部分。我們將最終的兩個模型部署到包含1965個病例的獨立隊列中,通過六位臨床專家對結節數量的一致性分析,以顯示我們IILS的可信度。

八名有3到25年胸部CT經驗的專家作為檢查員參加了會議。為了在臨床專家的背景下評估我們的卷積神經網絡,我們使用1965名患者的獨立測試集來比較我們的網絡決策和人類專家的決策。隨機選擇作為受試者的1965名患者進行讀者間和讀者間再現性研究。

所有肺結節的數量的確定、良性和惡性結節的判斷由六位專家檢查兩次,間隔為1個月,以最小化記憶偏差。所有決策均由六位專家做出,用於讀者間的再現性分析。加權誤差評分用於反映假陰性結果(未做出決定)比假陽性結果更有害。使用這些加權懲罰點、計算模型和每個人類專家的錯誤率。

即使患者有較大的病變,我們也僅包括小於30 mm的結節,其大小相當於約30 mm的平均直徑,因為肺結節的定義是直徑小於3cm的病變。我們納入了疑似轉移的結節以及可能具有良性組織學特徵的結節。然而,排除了粟粒性結核、間質病變、結節病和重症肺炎。

以下參數用於評估結節特徵和圖像質量對觀察者一致性的影響:總結節大小(最大直徑,毫米)、結節類型、良性或惡性以及肺實質內結節的密度。從數據庫中提取參數結節大小、良性或惡性和類型。結節的密度由沒有參與閱讀過程的專家(H.Y 和H.W)測量。將兩個約1cm的感興趣區域放置在結節中的兩個均勻區域中,並且兩次測量中平均的Hounsfield units標準偏差是密度的度量。

2.3 病人分類

訓練過程中的用例隨機分為訓練集80%和驗證集20%(圖4)。訓練集用於訓練算法,驗證集用於模型選擇,測試集用於評估最終選擇的模型。在確定百分比分割時,目標是為算法保留足夠的數據以進行訓練,但是具有足夠的驗證和測試用例以保持模型準確性的合理置信區間。 該數據集代表了在參與診所提供和接受治療的最常見的實性、鈣化或磨玻璃結節患者。

2.4 圖像標註

在訓練之前,每個圖像都經過分層分級系統,該系統由多級訓練有素的評分者組成,他們具有逐級遞增的專業知識,可用於圖像標籤的驗證和校正。導入數據庫的每個圖像都與患者最近診斷的標籤相匹配。第一級評分員包括具有呼吸系統和成像基礎知識的成員。這一級評分員進行了初步的質量控制,並排除了包含嚴重偽影或顯著降低圖像分辨率的胸部CT圖像。第二級評分員由兩位專家組成,他們對通過第一級的每張圖像進行獨立評分。記錄胸部CT圖像上是否存在實性,鈣化或磨玻璃結節和其他可見的病變。最後,第二層由兩名高級呼吸和成像專家組成,每位專家擁有超過15年的臨床呼吸和成像經驗,獨立驗證每張圖像的真實標籤。所有圖像的驗證子集由兩名專家分別評分,不一致的臨床標籤由由高級專家仲裁,以解釋評分中的人為錯誤。

2.5 軟件支持

軟件系統的開發在Linux Ubuntu 18.04環境下進行。Pycharm 和 VS Code用作開發的IDE。Chrome調試器用於測試和調試UI / UX。 軟件的實現細節是保密的,以下部分主要描述了實現的設計和邏輯。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖5:排版示例加上可視化結構報告以及與傳統排版和報告的比較。

(a)使用IILS選擇後的新圖像排版。新的排版圖像被分為三個部分(兩個紅框的區域,代表關鍵圖像所在的區域)。顯然,與(c)相比沒有無效圖像(標有橙色下劃線)。排版第一部分開頭的五個小框依次顯示:1)肺窗條件下結節的最大橫截面切片的圖像(WW:1500; WL:-500),2)具有長徑和短徑測量數據的圖像,3)縱隔窗口條件下的結節圖像(WW:350,WL:50),4)結節的冠狀圖像重建,5)結節的矢狀圖像重建。第二部分是在縱隔窗口條件下每層間隔的一組圖像。最後一部分是一組薄層肺組織圖像,大約分為六層。另一個便利是,片子上任一單元格中的每個圖像都可以通過其切片ID進行跟蹤,並通過雙擊它來重定向到圖像集中的原始位置。還自動生成與片子相關的可視化結構報告。有關詳細信息,請參見視頻2。

(b):如果患者沒有肺結節,IILS給出的排版和報告將與傳統系統給出的相似。

(c):使用傳統的手工排版形式,表格分為兩部分。 前部包括縱隔組織圖像,後部是肺組織圖像。 傳統排版格式的主要問題是缺少關鍵圖像,各種無效圖像(一些帶橙色下劃線的圖像),以及缺少鏈接功能。 相關報告填充了文本,沒有生成結構化報告。

2.6 自動排版

通過將固定輸出過程分成以下子任務來執行自動排版:1,驗證; 2,輸出。在驗證任務中,我們的程序首先處理最重要的結節,生成五個放大的輸出圖像,聚焦在結節上,同時突出顯示矩形,標明肺窗形式的結節位置,長徑測量,縱隔窗 和兩個方向透視。 五個輸出圖像放置在第一行,然後是30個縱隔窗口圖像,其餘的為肺窗口。 具體而言,第一部分五個網格是單個結節的自動排版,具有最高的惡性概率風險,這可由AI預測。 五張圖片也可以由放射科醫師驗證和覆蓋。 自適應排版工具的輸出包括兩個電子排片和一個由四組圖像組成的結構化報告。

與傳統報告的比較,IILS提供了以下信息:i)基本信息顯示:患者信息,檢查信息,放射科醫師信息等。ii)結果(來自AI預測和放射科醫師的雙重確認):標準化描述肺結節圖像,包括結節位置,形態和密度,圖像信息的層數,結節長徑,體積,平均CT值,以及結節的惡性概率。此外,我們為放射科醫師預留了足夠的空間,可以為其他病變編寫定期報告。 iii)診斷感想:由放射科醫師撰寫的診斷建議。肺部全部範圍的適應性是主要關注點,其意味著五個圖像是否附在第一組,即 一組顯示結節的五種形式圖像具有最高的AI預測得分為惡性,符合我們的預設的將受到高度重視。驗證後,可以將排片導出為可打印格式,以便為放射科醫師和患者提供可視化信息,同時自動生成結構報告。

我們還推斷一個好的排版系統主要包括以下三個主要內容:1)任何可靠,客觀的測量數據的所有關鍵圖像; 2)顯示腫瘤特徵的一系列圖像,包括形狀,數量,密度,大小,增強,多角度觀察和後續比較; 3)胸部縱隔窗和肺窗圖像連續顯示(圖5a-b)。 此外,我們手工顯示當前排版形式的圖片,這在日常工作中作為比較非常普遍(圖5c)。

2.7 結構化報告

結構化報告生成程序旨在完成常見CT掃描場景中的完整工作流程(補充圖S2)。與傳統報告的比較,我們計劃為放射科醫師和患者提供圖像和結果的可視化。該計劃主要通過以下三個步驟進行:1,收集資源;2,渲染圖像;3,輸出。我們現在將詳細描述每個步驟。為了收集資源,我們需要在我們的程序中加載多個資源,包括DICOM圖像集、AI預測結節、患者/醫院信息,以及捕獲放射科醫師的結果和診斷感想。收集必要的資源後,我們繼續進行渲染部分。該程序將首先根據其重要性對結節進行排序(由AI定義,但可以由操作員覆蓋),然後在相應的圖像上使用矩形框渲染每個結節。該程序還放大了圖像並設置其中心,重點放在結節本身。渲染和轉換後,將觸發特殊事件偵聽器以通知程序捕獲渲染數據。最後,程序生成預定義的可打印輸出。

2.8 定量和統計分析

ROC曲線繪製了真陽性率(TPR,靈敏度)與假陽性率(1- 特異度)的關係曲線。通過將正確標記的惡性結節的總數和正確標記的良性結節的總數分別除以測試圖像的結節總數來確定靈敏度和特異度。連續變量被描述為平均值±標準誤差(SEM),並且分類變量被表示為諸如良性/惡性(B / M)的特徵。將傳統圖像排版組與智能系統組和正常對照組之間的臨床特徵通過Mann-Whitney U檢驗,卡方檢驗或Fisher精確檢驗進行比較。使用雙樣本Mann-Whitney U檢驗比較傳統排版組與智能佈局組和正常對照組之間的差異。Kappa統計用於衡量兩個評估者之間的一致性程度,即AI和人類專家。kappa值至少為0.75表示良好的一致性。 然而,我們認為較大的kappa值,例如0.90,是優選的。雙尾P值<0.05被認為具有統計學意義。

3、結果

3.1患者和圖像特徵

具有四種不同結節大小的病例及其特徵和演變表明隨訪的重要性(圖6a)。表1總結了用於訓練、驗證和獨立測試數據集的患者和結節的特徵。根據文獻,結節類型分為實性結節、鈣化結節和磨砂玻璃結節。工作流程圖的總體實驗設計如圖6b所示。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖6:應用人工智能技術對不同大小肺結節的檢測過程進行了演示,並給出了整個實驗設計的流程圖。

3.2 模型設計和性能評估

IILS系統的核心設計是深度學習模型,該模型分為兩個部分,Faster RCNN和ResNet。Faster RCNN主要負責肺結節的檢測和定位。Faster RCNN 還有助於將肺結節分為以下幾類:0-3 mm、3-6mm、6-0mm、10-30mm肺結節,實性結節、鈣化結節和磨砂玻璃結節(GGNs)。第二部分是ResNet,主要負責肺結節良惡性的分類。在第一部分中,關於特徵提取,我們使用了ResNet-50 中的層conv4_x作為輸出。在我們的嘗試中,ResNet-50中的層conv4_x在檢測中表現出最佳性能。在區域建議網絡(RPN)中,採用二元交叉熵作為分類損失函數,選取smooth L1損失函數作為迴歸損失函數。模型的訓練過程完善,曲線均達到收斂。該模型的訓練過程是完美的,所有曲線均達到收斂。RPN的訓練過程如圖7a-b所示,所有曲線收斂為零。這也表明我們的模型能夠很好地區分前景和背景,並提供了一個精確的前景邊界框。圖7c曲線也收斂到零,該曲線的收斂性表明,該模型能夠很好地區分7類肺結節。第二部分,我們用ResNet對結節良惡性進行了分類。為了獲得更準確的模型並避免梯度分散等問題,我們選擇了ResNet。在IILS系統中,ResNet顯現出了優異的分類性能。曲線的收斂代表了我們分類工作的成功;在模型精度方面,訓練和驗證曲線均接近100%(訓練過程為100%,驗證過程為97%)。在損失函數部分,曲線也顯示該模型在良惡性結節的分類上表現良好。

"思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

在AI技術準確檢出肺部結節病灶的前提下,團隊開發了一套胸部CT排版系統,適合全自動或者半自動的影像學圖像的排版問題,可以將以往人工診斷到排版花費約2小時的工作時間,降低到約100秒完成。

作者 | 李雨晨

過去幾年,AI在醫學影像方面取得了諸多成果。在影像學科的臨床工作流程中,肺部病變的良、惡性鑑別診斷,已經成為AI創業公司爭先恐後湧入的賽道。但是,多數創業公司基本上是停留在後端的疾病診斷層面,在此之前的圖像採集、圖像呈現階段,其實都有文章可做。

近日,南京鼓樓醫院醫學影像科張冰團隊,在柳葉刀子刊EBiomedicine發表了一則AI醫療的新成果,直面影像科醫生工作流程前端的痛點問題。

該團隊選擇了一個全新的切入點——從臨床影像工作全流程角度出發,提出了一種基於深度學習的智能成像排版系統(IILS),系統包括AI肺結節檢測和分類和自適應排版工具,用於結節識別的成像報告標準化和工作流程優化。

成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。特別是當肺結節的直徑小於1 cm時,相應報告不能與排版結果100%匹配。

據瞭解,團隊提出的胸部CT排版工具,使用來自11205名患者的CT成像數據,可以適應全自動或者半自動的影像學圖像的排版問題。以往人工診斷到排版需要花費約2小時的時間,在這個工具的幫助下,時間可以降低到約100秒。

以下為論文詳細內容,由AI掘金志學術組編譯。關注AI掘金志公眾號,在對話框回覆關鍵詞“南京鼓樓”,即可獲取原文PDF下載鏈接。

1、引言

臨床任務的一個典型例子是,分類並生成與肺結節的診斷密切相關的胸部CT圖像的佈局。在篩查檢測和隨訪期間,目前的日常工作流程中仍存在五個問題。

1、成像報告標準化缺乏:由於沒有標準化、科學驗證的方法評估結節,試驗放射科醫師制定了診斷隨訪的指南,但沒有強制要求評估方法(圖1)。

2、缺失結節:如果幹激光膠片用作成像信息載體,則無法顯示與報告中的描述相對應的結節(圖2),這是一個常見問題。

3、缺少關鍵圖像:在從CT掃描儀獲取圖像之後,大量圖像不加選擇地輸入到PACS中。此外,許多臨床醫生對成像知識相對不熟悉,需要花費大量時間和精力來瀏覽這些缺乏關鍵信息的複雜圖像,更不用說使用智能手機或平板電腦來檢查這些圖像。而且,許多無效圖像經常出現在一系列圖像中(圖2)。因此,治療過程極其低效。

4、訪問來自其他醫院的圖像困難:如果患者需要他或她自己的圖像,圖像通常在光盤(CD)上刻錄或通過便攜式硬盤驅動器傳輸。然而,許多現代計算機沒有配備CD驅動器或醫院禁止使用計算機的通用串行總線(USB)接口。因此,患者在不同醫院都要進行掃描成像。

5、 缺乏對臨床醫生和患者需求的考慮(圖2):作為放射科醫師,幫助他人更容易閱讀和理解成像結果的機會尚未得到充分利用。因此,迫切需要具有關鍵圖像的電子報告和可視化結構化報告來解決這些問題。

當前,AI的應用似乎忽略了兩個事實。首先,高質量的標準化圖像是人工智能開發的基礎,其次,AI可以接管簡單和重複的工作。

在這項研究中,我們尋求開發基於人工智能技術和自適應佈局工具融合的智能成像排版系統(IILS),以建立日常工作的新流程,併為放射科醫生和臨床醫生提供標準化圖像和報告。同時,我們從三個方面評估IILS的綜合實力,包括i)IILS與臨床專家之間結節診斷效率的比較; ii)IILS可以優化臨床工作流程的程度;iii)IILS的交叉製造適用性(cross-manufacture applicability)。

總之,我們認為AI技術可以通過串聯連接集成到放射學工作流中,而不是基於簡單的並行關係來遵循傳統的工作流程。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖2.當前的手工選片過程和日常工作中的相關問題。例如,成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。相應報告不能與排版結果100%匹配,特別是當肺結節的直徑小於1cm時。 以GE的CT掃描方法為例,在日常工作中使用手動圖像排版時,通常會忽略6(層)×1·25 mm(厚度)= 7·5 mm範圍內的肺組織。因此,當醫生獲得最終的圖像時會遇到以下問題:缺乏成像報告標準化、缺失結節、缺乏關鍵圖像以及缺乏對臨床醫生和患者需求的考慮。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖3. IILS的組成以及如何將其整合到當前的成像過程中。新的IILS包括以下部分:一個是AI肺結節檢測和分類,另一個是自適應排版工具,包括我們團隊發明的自動排版和可視化結構化報告生成。為了確保圖像質量和結果,我們有一位放射科醫生,他通常負責編寫報告,仔細檢查自動生成的結構化報告和圖像排版結果。成像部門日常工作的整個過程包括以下關鍵步驟:i)獲取:從不同臨床科室的患者收集圖像信息; ii)排版:包括日常工作的手動排版和圖像管理; iii)診斷:放射科醫師的圖像診斷,預測和評估。新型智能系統的應用通過串聯而非並聯連接集成到放射工作流中。

2、材料與方法

2.1 實驗軟件和硬件

本文中的模型均在DGX1平臺上進行訓練。(NVIDIA DGX1 system, 8× Tesla V100 GPUs, 128 GB total system GPUMemory, dual 20-core Intel Xeon E5–2698 CPU v4 2.2 GHz, SantaClara, California, USA)

2.2 實驗模型和項目細節

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖4:數據流圖顯示了我們檢測結節和分類良性或惡性病例的方法。本研究採用的數據是從2016年10月到2018年11月,從五個主要的不同CT製造商處獲得的11205名患者、共3527048張胸部CT掃描圖像。

訓練過程分為兩部分,分別由兩個訓練隊列組成。通過卷積神經網絡(CNN)獲得兩個模型,通過5折交叉驗證進行性能評估,然後合併形成IILS的第一層,即用於檢測結節和分類病例的篩選部分。我們將最終的兩個模型部署到包含1965個病例的獨立隊列中,通過六位臨床專家對結節數量的一致性分析,以顯示我們IILS的可信度。

八名有3到25年胸部CT經驗的專家作為檢查員參加了會議。為了在臨床專家的背景下評估我們的卷積神經網絡,我們使用1965名患者的獨立測試集來比較我們的網絡決策和人類專家的決策。隨機選擇作為受試者的1965名患者進行讀者間和讀者間再現性研究。

所有肺結節的數量的確定、良性和惡性結節的判斷由六位專家檢查兩次,間隔為1個月,以最小化記憶偏差。所有決策均由六位專家做出,用於讀者間的再現性分析。加權誤差評分用於反映假陰性結果(未做出決定)比假陽性結果更有害。使用這些加權懲罰點、計算模型和每個人類專家的錯誤率。

即使患者有較大的病變,我們也僅包括小於30 mm的結節,其大小相當於約30 mm的平均直徑,因為肺結節的定義是直徑小於3cm的病變。我們納入了疑似轉移的結節以及可能具有良性組織學特徵的結節。然而,排除了粟粒性結核、間質病變、結節病和重症肺炎。

以下參數用於評估結節特徵和圖像質量對觀察者一致性的影響:總結節大小(最大直徑,毫米)、結節類型、良性或惡性以及肺實質內結節的密度。從數據庫中提取參數結節大小、良性或惡性和類型。結節的密度由沒有參與閱讀過程的專家(H.Y 和H.W)測量。將兩個約1cm的感興趣區域放置在結節中的兩個均勻區域中,並且兩次測量中平均的Hounsfield units標準偏差是密度的度量。

2.3 病人分類

訓練過程中的用例隨機分為訓練集80%和驗證集20%(圖4)。訓練集用於訓練算法,驗證集用於模型選擇,測試集用於評估最終選擇的模型。在確定百分比分割時,目標是為算法保留足夠的數據以進行訓練,但是具有足夠的驗證和測試用例以保持模型準確性的合理置信區間。 該數據集代表了在參與診所提供和接受治療的最常見的實性、鈣化或磨玻璃結節患者。

2.4 圖像標註

在訓練之前,每個圖像都經過分層分級系統,該系統由多級訓練有素的評分者組成,他們具有逐級遞增的專業知識,可用於圖像標籤的驗證和校正。導入數據庫的每個圖像都與患者最近診斷的標籤相匹配。第一級評分員包括具有呼吸系統和成像基礎知識的成員。這一級評分員進行了初步的質量控制,並排除了包含嚴重偽影或顯著降低圖像分辨率的胸部CT圖像。第二級評分員由兩位專家組成,他們對通過第一級的每張圖像進行獨立評分。記錄胸部CT圖像上是否存在實性,鈣化或磨玻璃結節和其他可見的病變。最後,第二層由兩名高級呼吸和成像專家組成,每位專家擁有超過15年的臨床呼吸和成像經驗,獨立驗證每張圖像的真實標籤。所有圖像的驗證子集由兩名專家分別評分,不一致的臨床標籤由由高級專家仲裁,以解釋評分中的人為錯誤。

2.5 軟件支持

軟件系統的開發在Linux Ubuntu 18.04環境下進行。Pycharm 和 VS Code用作開發的IDE。Chrome調試器用於測試和調試UI / UX。 軟件的實現細節是保密的,以下部分主要描述了實現的設計和邏輯。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖5:排版示例加上可視化結構報告以及與傳統排版和報告的比較。

(a)使用IILS選擇後的新圖像排版。新的排版圖像被分為三個部分(兩個紅框的區域,代表關鍵圖像所在的區域)。顯然,與(c)相比沒有無效圖像(標有橙色下劃線)。排版第一部分開頭的五個小框依次顯示:1)肺窗條件下結節的最大橫截面切片的圖像(WW:1500; WL:-500),2)具有長徑和短徑測量數據的圖像,3)縱隔窗口條件下的結節圖像(WW:350,WL:50),4)結節的冠狀圖像重建,5)結節的矢狀圖像重建。第二部分是在縱隔窗口條件下每層間隔的一組圖像。最後一部分是一組薄層肺組織圖像,大約分為六層。另一個便利是,片子上任一單元格中的每個圖像都可以通過其切片ID進行跟蹤,並通過雙擊它來重定向到圖像集中的原始位置。還自動生成與片子相關的可視化結構報告。有關詳細信息,請參見視頻2。

(b):如果患者沒有肺結節,IILS給出的排版和報告將與傳統系統給出的相似。

(c):使用傳統的手工排版形式,表格分為兩部分。 前部包括縱隔組織圖像,後部是肺組織圖像。 傳統排版格式的主要問題是缺少關鍵圖像,各種無效圖像(一些帶橙色下劃線的圖像),以及缺少鏈接功能。 相關報告填充了文本,沒有生成結構化報告。

2.6 自動排版

通過將固定輸出過程分成以下子任務來執行自動排版:1,驗證; 2,輸出。在驗證任務中,我們的程序首先處理最重要的結節,生成五個放大的輸出圖像,聚焦在結節上,同時突出顯示矩形,標明肺窗形式的結節位置,長徑測量,縱隔窗 和兩個方向透視。 五個輸出圖像放置在第一行,然後是30個縱隔窗口圖像,其餘的為肺窗口。 具體而言,第一部分五個網格是單個結節的自動排版,具有最高的惡性概率風險,這可由AI預測。 五張圖片也可以由放射科醫師驗證和覆蓋。 自適應排版工具的輸出包括兩個電子排片和一個由四組圖像組成的結構化報告。

與傳統報告的比較,IILS提供了以下信息:i)基本信息顯示:患者信息,檢查信息,放射科醫師信息等。ii)結果(來自AI預測和放射科醫師的雙重確認):標準化描述肺結節圖像,包括結節位置,形態和密度,圖像信息的層數,結節長徑,體積,平均CT值,以及結節的惡性概率。此外,我們為放射科醫師預留了足夠的空間,可以為其他病變編寫定期報告。 iii)診斷感想:由放射科醫師撰寫的診斷建議。肺部全部範圍的適應性是主要關注點,其意味著五個圖像是否附在第一組,即 一組顯示結節的五種形式圖像具有最高的AI預測得分為惡性,符合我們的預設的將受到高度重視。驗證後,可以將排片導出為可打印格式,以便為放射科醫師和患者提供可視化信息,同時自動生成結構報告。

我們還推斷一個好的排版系統主要包括以下三個主要內容:1)任何可靠,客觀的測量數據的所有關鍵圖像; 2)顯示腫瘤特徵的一系列圖像,包括形狀,數量,密度,大小,增強,多角度觀察和後續比較; 3)胸部縱隔窗和肺窗圖像連續顯示(圖5a-b)。 此外,我們手工顯示當前排版形式的圖片,這在日常工作中作為比較非常普遍(圖5c)。

2.7 結構化報告

結構化報告生成程序旨在完成常見CT掃描場景中的完整工作流程(補充圖S2)。與傳統報告的比較,我們計劃為放射科醫師和患者提供圖像和結果的可視化。該計劃主要通過以下三個步驟進行:1,收集資源;2,渲染圖像;3,輸出。我們現在將詳細描述每個步驟。為了收集資源,我們需要在我們的程序中加載多個資源,包括DICOM圖像集、AI預測結節、患者/醫院信息,以及捕獲放射科醫師的結果和診斷感想。收集必要的資源後,我們繼續進行渲染部分。該程序將首先根據其重要性對結節進行排序(由AI定義,但可以由操作員覆蓋),然後在相應的圖像上使用矩形框渲染每個結節。該程序還放大了圖像並設置其中心,重點放在結節本身。渲染和轉換後,將觸發特殊事件偵聽器以通知程序捕獲渲染數據。最後,程序生成預定義的可打印輸出。

2.8 定量和統計分析

ROC曲線繪製了真陽性率(TPR,靈敏度)與假陽性率(1- 特異度)的關係曲線。通過將正確標記的惡性結節的總數和正確標記的良性結節的總數分別除以測試圖像的結節總數來確定靈敏度和特異度。連續變量被描述為平均值±標準誤差(SEM),並且分類變量被表示為諸如良性/惡性(B / M)的特徵。將傳統圖像排版組與智能系統組和正常對照組之間的臨床特徵通過Mann-Whitney U檢驗,卡方檢驗或Fisher精確檢驗進行比較。使用雙樣本Mann-Whitney U檢驗比較傳統排版組與智能佈局組和正常對照組之間的差異。Kappa統計用於衡量兩個評估者之間的一致性程度,即AI和人類專家。kappa值至少為0.75表示良好的一致性。 然而,我們認為較大的kappa值,例如0.90,是優選的。雙尾P值<0.05被認為具有統計學意義。

3、結果

3.1患者和圖像特徵

具有四種不同結節大小的病例及其特徵和演變表明隨訪的重要性(圖6a)。表1總結了用於訓練、驗證和獨立測試數據集的患者和結節的特徵。根據文獻,結節類型分為實性結節、鈣化結節和磨砂玻璃結節。工作流程圖的總體實驗設計如圖6b所示。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖6:應用人工智能技術對不同大小肺結節的檢測過程進行了演示,並給出了整個實驗設計的流程圖。

3.2 模型設計和性能評估

IILS系統的核心設計是深度學習模型,該模型分為兩個部分,Faster RCNN和ResNet。Faster RCNN主要負責肺結節的檢測和定位。Faster RCNN 還有助於將肺結節分為以下幾類:0-3 mm、3-6mm、6-0mm、10-30mm肺結節,實性結節、鈣化結節和磨砂玻璃結節(GGNs)。第二部分是ResNet,主要負責肺結節良惡性的分類。在第一部分中,關於特徵提取,我們使用了ResNet-50 中的層conv4_x作為輸出。在我們的嘗試中,ResNet-50中的層conv4_x在檢測中表現出最佳性能。在區域建議網絡(RPN)中,採用二元交叉熵作為分類損失函數,選取smooth L1損失函數作為迴歸損失函數。模型的訓練過程完善,曲線均達到收斂。該模型的訓練過程是完美的,所有曲線均達到收斂。RPN的訓練過程如圖7a-b所示,所有曲線收斂為零。這也表明我們的模型能夠很好地區分前景和背景,並提供了一個精確的前景邊界框。圖7c曲線也收斂到零,該曲線的收斂性表明,該模型能夠很好地區分7類肺結節。第二部分,我們用ResNet對結節良惡性進行了分類。為了獲得更準確的模型並避免梯度分散等問題,我們選擇了ResNet。在IILS系統中,ResNet顯現出了優異的分類性能。曲線的收斂代表了我們分類工作的成功;在模型精度方面,訓練和驗證曲線均接近100%(訓練過程為100%,驗證過程為97%)。在損失函數部分,曲線也顯示該模型在良惡性結節的分類上表現良好。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖7:檢測結節的訓練過程的性能。

3.3 IILS與人類專家對結節診斷效率的比較

我們評估了我們的模型檢測和分類最常見的肺結節。該模型檢測並分類具有不同等級良性和惡性腫瘤結節的圖像作為“原發性結節”。這些情況需要相對緊急的轉診到相關的呼吸內科醫生或胸外科醫生那裡進行最終治療。該系統將具有良性肺或假陽性結節的圖像分類,其具有成為惡性腫瘤的可能性低,“僅在可視化結構化報告中顯示”。在臨床工作中非常常見的微觀結節不適用於惡性腫瘤;因此,轉診給相關專家進行治療的緊迫性較小。

在這裡,我們試圖解釋人工智能與人類專家相比在檢測肺結節方面的優勢。在本研究中,我們採用了一種簡單直觀的方法,即對檢測到的結節與金標準篩選到的結節的一致性程度進行評估。以病理金標準為參照,分別採用Kappa一致性係數和Mann-Whitney U檢驗進行一致性分析。引人注目的是,除了AI之外,在所有成對比較中存在差異(AI為p=0.138,其他比較為p<0.001)。與人類專家相比,AI也可以與金標準檢測到的肺結節顯著一致,AI由於其最高的一致性係數而脫穎而出(AI kappa=0.94,其他比較p<0.001)。我們進一步比較了不同尺寸範圍內檢測到的結節的一致性,並證明無論結核大小範圍如何,AI都顯示出超出人類專家的金標準更有利的一致性。

"思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

在AI技術準確檢出肺部結節病灶的前提下,團隊開發了一套胸部CT排版系統,適合全自動或者半自動的影像學圖像的排版問題,可以將以往人工診斷到排版花費約2小時的工作時間,降低到約100秒完成。

作者 | 李雨晨

過去幾年,AI在醫學影像方面取得了諸多成果。在影像學科的臨床工作流程中,肺部病變的良、惡性鑑別診斷,已經成為AI創業公司爭先恐後湧入的賽道。但是,多數創業公司基本上是停留在後端的疾病診斷層面,在此之前的圖像採集、圖像呈現階段,其實都有文章可做。

近日,南京鼓樓醫院醫學影像科張冰團隊,在柳葉刀子刊EBiomedicine發表了一則AI醫療的新成果,直面影像科醫生工作流程前端的痛點問題。

該團隊選擇了一個全新的切入點——從臨床影像工作全流程角度出發,提出了一種基於深度學習的智能成像排版系統(IILS),系統包括AI肺結節檢測和分類和自適應排版工具,用於結節識別的成像報告標準化和工作流程優化。

成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。特別是當肺結節的直徑小於1 cm時,相應報告不能與排版結果100%匹配。

據瞭解,團隊提出的胸部CT排版工具,使用來自11205名患者的CT成像數據,可以適應全自動或者半自動的影像學圖像的排版問題。以往人工診斷到排版需要花費約2小時的時間,在這個工具的幫助下,時間可以降低到約100秒。

以下為論文詳細內容,由AI掘金志學術組編譯。關注AI掘金志公眾號,在對話框回覆關鍵詞“南京鼓樓”,即可獲取原文PDF下載鏈接。

1、引言

臨床任務的一個典型例子是,分類並生成與肺結節的診斷密切相關的胸部CT圖像的佈局。在篩查檢測和隨訪期間,目前的日常工作流程中仍存在五個問題。

1、成像報告標準化缺乏:由於沒有標準化、科學驗證的方法評估結節,試驗放射科醫師制定了診斷隨訪的指南,但沒有強制要求評估方法(圖1)。

2、缺失結節:如果幹激光膠片用作成像信息載體,則無法顯示與報告中的描述相對應的結節(圖2),這是一個常見問題。

3、缺少關鍵圖像:在從CT掃描儀獲取圖像之後,大量圖像不加選擇地輸入到PACS中。此外,許多臨床醫生對成像知識相對不熟悉,需要花費大量時間和精力來瀏覽這些缺乏關鍵信息的複雜圖像,更不用說使用智能手機或平板電腦來檢查這些圖像。而且,許多無效圖像經常出現在一系列圖像中(圖2)。因此,治療過程極其低效。

4、訪問來自其他醫院的圖像困難:如果患者需要他或她自己的圖像,圖像通常在光盤(CD)上刻錄或通過便攜式硬盤驅動器傳輸。然而,許多現代計算機沒有配備CD驅動器或醫院禁止使用計算機的通用串行總線(USB)接口。因此,患者在不同醫院都要進行掃描成像。

5、 缺乏對臨床醫生和患者需求的考慮(圖2):作為放射科醫師,幫助他人更容易閱讀和理解成像結果的機會尚未得到充分利用。因此,迫切需要具有關鍵圖像的電子報告和可視化結構化報告來解決這些問題。

當前,AI的應用似乎忽略了兩個事實。首先,高質量的標準化圖像是人工智能開發的基礎,其次,AI可以接管簡單和重複的工作。

在這項研究中,我們尋求開發基於人工智能技術和自適應佈局工具融合的智能成像排版系統(IILS),以建立日常工作的新流程,併為放射科醫生和臨床醫生提供標準化圖像和報告。同時,我們從三個方面評估IILS的綜合實力,包括i)IILS與臨床專家之間結節診斷效率的比較; ii)IILS可以優化臨床工作流程的程度;iii)IILS的交叉製造適用性(cross-manufacture applicability)。

總之,我們認為AI技術可以通過串聯連接集成到放射學工作流中,而不是基於簡單的並行關係來遵循傳統的工作流程。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖2.當前的手工選片過程和日常工作中的相關問題。例如,成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。相應報告不能與排版結果100%匹配,特別是當肺結節的直徑小於1cm時。 以GE的CT掃描方法為例,在日常工作中使用手動圖像排版時,通常會忽略6(層)×1·25 mm(厚度)= 7·5 mm範圍內的肺組織。因此,當醫生獲得最終的圖像時會遇到以下問題:缺乏成像報告標準化、缺失結節、缺乏關鍵圖像以及缺乏對臨床醫生和患者需求的考慮。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖3. IILS的組成以及如何將其整合到當前的成像過程中。新的IILS包括以下部分:一個是AI肺結節檢測和分類,另一個是自適應排版工具,包括我們團隊發明的自動排版和可視化結構化報告生成。為了確保圖像質量和結果,我們有一位放射科醫生,他通常負責編寫報告,仔細檢查自動生成的結構化報告和圖像排版結果。成像部門日常工作的整個過程包括以下關鍵步驟:i)獲取:從不同臨床科室的患者收集圖像信息; ii)排版:包括日常工作的手動排版和圖像管理; iii)診斷:放射科醫師的圖像診斷,預測和評估。新型智能系統的應用通過串聯而非並聯連接集成到放射工作流中。

2、材料與方法

2.1 實驗軟件和硬件

本文中的模型均在DGX1平臺上進行訓練。(NVIDIA DGX1 system, 8× Tesla V100 GPUs, 128 GB total system GPUMemory, dual 20-core Intel Xeon E5–2698 CPU v4 2.2 GHz, SantaClara, California, USA)

2.2 實驗模型和項目細節

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖4:數據流圖顯示了我們檢測結節和分類良性或惡性病例的方法。本研究採用的數據是從2016年10月到2018年11月,從五個主要的不同CT製造商處獲得的11205名患者、共3527048張胸部CT掃描圖像。

訓練過程分為兩部分,分別由兩個訓練隊列組成。通過卷積神經網絡(CNN)獲得兩個模型,通過5折交叉驗證進行性能評估,然後合併形成IILS的第一層,即用於檢測結節和分類病例的篩選部分。我們將最終的兩個模型部署到包含1965個病例的獨立隊列中,通過六位臨床專家對結節數量的一致性分析,以顯示我們IILS的可信度。

八名有3到25年胸部CT經驗的專家作為檢查員參加了會議。為了在臨床專家的背景下評估我們的卷積神經網絡,我們使用1965名患者的獨立測試集來比較我們的網絡決策和人類專家的決策。隨機選擇作為受試者的1965名患者進行讀者間和讀者間再現性研究。

所有肺結節的數量的確定、良性和惡性結節的判斷由六位專家檢查兩次,間隔為1個月,以最小化記憶偏差。所有決策均由六位專家做出,用於讀者間的再現性分析。加權誤差評分用於反映假陰性結果(未做出決定)比假陽性結果更有害。使用這些加權懲罰點、計算模型和每個人類專家的錯誤率。

即使患者有較大的病變,我們也僅包括小於30 mm的結節,其大小相當於約30 mm的平均直徑,因為肺結節的定義是直徑小於3cm的病變。我們納入了疑似轉移的結節以及可能具有良性組織學特徵的結節。然而,排除了粟粒性結核、間質病變、結節病和重症肺炎。

以下參數用於評估結節特徵和圖像質量對觀察者一致性的影響:總結節大小(最大直徑,毫米)、結節類型、良性或惡性以及肺實質內結節的密度。從數據庫中提取參數結節大小、良性或惡性和類型。結節的密度由沒有參與閱讀過程的專家(H.Y 和H.W)測量。將兩個約1cm的感興趣區域放置在結節中的兩個均勻區域中,並且兩次測量中平均的Hounsfield units標準偏差是密度的度量。

2.3 病人分類

訓練過程中的用例隨機分為訓練集80%和驗證集20%(圖4)。訓練集用於訓練算法,驗證集用於模型選擇,測試集用於評估最終選擇的模型。在確定百分比分割時,目標是為算法保留足夠的數據以進行訓練,但是具有足夠的驗證和測試用例以保持模型準確性的合理置信區間。 該數據集代表了在參與診所提供和接受治療的最常見的實性、鈣化或磨玻璃結節患者。

2.4 圖像標註

在訓練之前,每個圖像都經過分層分級系統,該系統由多級訓練有素的評分者組成,他們具有逐級遞增的專業知識,可用於圖像標籤的驗證和校正。導入數據庫的每個圖像都與患者最近診斷的標籤相匹配。第一級評分員包括具有呼吸系統和成像基礎知識的成員。這一級評分員進行了初步的質量控制,並排除了包含嚴重偽影或顯著降低圖像分辨率的胸部CT圖像。第二級評分員由兩位專家組成,他們對通過第一級的每張圖像進行獨立評分。記錄胸部CT圖像上是否存在實性,鈣化或磨玻璃結節和其他可見的病變。最後,第二層由兩名高級呼吸和成像專家組成,每位專家擁有超過15年的臨床呼吸和成像經驗,獨立驗證每張圖像的真實標籤。所有圖像的驗證子集由兩名專家分別評分,不一致的臨床標籤由由高級專家仲裁,以解釋評分中的人為錯誤。

2.5 軟件支持

軟件系統的開發在Linux Ubuntu 18.04環境下進行。Pycharm 和 VS Code用作開發的IDE。Chrome調試器用於測試和調試UI / UX。 軟件的實現細節是保密的,以下部分主要描述了實現的設計和邏輯。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖5:排版示例加上可視化結構報告以及與傳統排版和報告的比較。

(a)使用IILS選擇後的新圖像排版。新的排版圖像被分為三個部分(兩個紅框的區域,代表關鍵圖像所在的區域)。顯然,與(c)相比沒有無效圖像(標有橙色下劃線)。排版第一部分開頭的五個小框依次顯示:1)肺窗條件下結節的最大橫截面切片的圖像(WW:1500; WL:-500),2)具有長徑和短徑測量數據的圖像,3)縱隔窗口條件下的結節圖像(WW:350,WL:50),4)結節的冠狀圖像重建,5)結節的矢狀圖像重建。第二部分是在縱隔窗口條件下每層間隔的一組圖像。最後一部分是一組薄層肺組織圖像,大約分為六層。另一個便利是,片子上任一單元格中的每個圖像都可以通過其切片ID進行跟蹤,並通過雙擊它來重定向到圖像集中的原始位置。還自動生成與片子相關的可視化結構報告。有關詳細信息,請參見視頻2。

(b):如果患者沒有肺結節,IILS給出的排版和報告將與傳統系統給出的相似。

(c):使用傳統的手工排版形式,表格分為兩部分。 前部包括縱隔組織圖像,後部是肺組織圖像。 傳統排版格式的主要問題是缺少關鍵圖像,各種無效圖像(一些帶橙色下劃線的圖像),以及缺少鏈接功能。 相關報告填充了文本,沒有生成結構化報告。

2.6 自動排版

通過將固定輸出過程分成以下子任務來執行自動排版:1,驗證; 2,輸出。在驗證任務中,我們的程序首先處理最重要的結節,生成五個放大的輸出圖像,聚焦在結節上,同時突出顯示矩形,標明肺窗形式的結節位置,長徑測量,縱隔窗 和兩個方向透視。 五個輸出圖像放置在第一行,然後是30個縱隔窗口圖像,其餘的為肺窗口。 具體而言,第一部分五個網格是單個結節的自動排版,具有最高的惡性概率風險,這可由AI預測。 五張圖片也可以由放射科醫師驗證和覆蓋。 自適應排版工具的輸出包括兩個電子排片和一個由四組圖像組成的結構化報告。

與傳統報告的比較,IILS提供了以下信息:i)基本信息顯示:患者信息,檢查信息,放射科醫師信息等。ii)結果(來自AI預測和放射科醫師的雙重確認):標準化描述肺結節圖像,包括結節位置,形態和密度,圖像信息的層數,結節長徑,體積,平均CT值,以及結節的惡性概率。此外,我們為放射科醫師預留了足夠的空間,可以為其他病變編寫定期報告。 iii)診斷感想:由放射科醫師撰寫的診斷建議。肺部全部範圍的適應性是主要關注點,其意味著五個圖像是否附在第一組,即 一組顯示結節的五種形式圖像具有最高的AI預測得分為惡性,符合我們的預設的將受到高度重視。驗證後,可以將排片導出為可打印格式,以便為放射科醫師和患者提供可視化信息,同時自動生成結構報告。

我們還推斷一個好的排版系統主要包括以下三個主要內容:1)任何可靠,客觀的測量數據的所有關鍵圖像; 2)顯示腫瘤特徵的一系列圖像,包括形狀,數量,密度,大小,增強,多角度觀察和後續比較; 3)胸部縱隔窗和肺窗圖像連續顯示(圖5a-b)。 此外,我們手工顯示當前排版形式的圖片,這在日常工作中作為比較非常普遍(圖5c)。

2.7 結構化報告

結構化報告生成程序旨在完成常見CT掃描場景中的完整工作流程(補充圖S2)。與傳統報告的比較,我們計劃為放射科醫師和患者提供圖像和結果的可視化。該計劃主要通過以下三個步驟進行:1,收集資源;2,渲染圖像;3,輸出。我們現在將詳細描述每個步驟。為了收集資源,我們需要在我們的程序中加載多個資源,包括DICOM圖像集、AI預測結節、患者/醫院信息,以及捕獲放射科醫師的結果和診斷感想。收集必要的資源後,我們繼續進行渲染部分。該程序將首先根據其重要性對結節進行排序(由AI定義,但可以由操作員覆蓋),然後在相應的圖像上使用矩形框渲染每個結節。該程序還放大了圖像並設置其中心,重點放在結節本身。渲染和轉換後,將觸發特殊事件偵聽器以通知程序捕獲渲染數據。最後,程序生成預定義的可打印輸出。

2.8 定量和統計分析

ROC曲線繪製了真陽性率(TPR,靈敏度)與假陽性率(1- 特異度)的關係曲線。通過將正確標記的惡性結節的總數和正確標記的良性結節的總數分別除以測試圖像的結節總數來確定靈敏度和特異度。連續變量被描述為平均值±標準誤差(SEM),並且分類變量被表示為諸如良性/惡性(B / M)的特徵。將傳統圖像排版組與智能系統組和正常對照組之間的臨床特徵通過Mann-Whitney U檢驗,卡方檢驗或Fisher精確檢驗進行比較。使用雙樣本Mann-Whitney U檢驗比較傳統排版組與智能佈局組和正常對照組之間的差異。Kappa統計用於衡量兩個評估者之間的一致性程度,即AI和人類專家。kappa值至少為0.75表示良好的一致性。 然而,我們認為較大的kappa值,例如0.90,是優選的。雙尾P值<0.05被認為具有統計學意義。

3、結果

3.1患者和圖像特徵

具有四種不同結節大小的病例及其特徵和演變表明隨訪的重要性(圖6a)。表1總結了用於訓練、驗證和獨立測試數據集的患者和結節的特徵。根據文獻,結節類型分為實性結節、鈣化結節和磨砂玻璃結節。工作流程圖的總體實驗設計如圖6b所示。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖6:應用人工智能技術對不同大小肺結節的檢測過程進行了演示,並給出了整個實驗設計的流程圖。

3.2 模型設計和性能評估

IILS系統的核心設計是深度學習模型,該模型分為兩個部分,Faster RCNN和ResNet。Faster RCNN主要負責肺結節的檢測和定位。Faster RCNN 還有助於將肺結節分為以下幾類:0-3 mm、3-6mm、6-0mm、10-30mm肺結節,實性結節、鈣化結節和磨砂玻璃結節(GGNs)。第二部分是ResNet,主要負責肺結節良惡性的分類。在第一部分中,關於特徵提取,我們使用了ResNet-50 中的層conv4_x作為輸出。在我們的嘗試中,ResNet-50中的層conv4_x在檢測中表現出最佳性能。在區域建議網絡(RPN)中,採用二元交叉熵作為分類損失函數,選取smooth L1損失函數作為迴歸損失函數。模型的訓練過程完善,曲線均達到收斂。該模型的訓練過程是完美的,所有曲線均達到收斂。RPN的訓練過程如圖7a-b所示,所有曲線收斂為零。這也表明我們的模型能夠很好地區分前景和背景,並提供了一個精確的前景邊界框。圖7c曲線也收斂到零,該曲線的收斂性表明,該模型能夠很好地區分7類肺結節。第二部分,我們用ResNet對結節良惡性進行了分類。為了獲得更準確的模型並避免梯度分散等問題,我們選擇了ResNet。在IILS系統中,ResNet顯現出了優異的分類性能。曲線的收斂代表了我們分類工作的成功;在模型精度方面,訓練和驗證曲線均接近100%(訓練過程為100%,驗證過程為97%)。在損失函數部分,曲線也顯示該模型在良惡性結節的分類上表現良好。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖7:檢測結節的訓練過程的性能。

3.3 IILS與人類專家對結節診斷效率的比較

我們評估了我們的模型檢測和分類最常見的肺結節。該模型檢測並分類具有不同等級良性和惡性腫瘤結節的圖像作為“原發性結節”。這些情況需要相對緊急的轉診到相關的呼吸內科醫生或胸外科醫生那裡進行最終治療。該系統將具有良性肺或假陽性結節的圖像分類,其具有成為惡性腫瘤的可能性低,“僅在可視化結構化報告中顯示”。在臨床工作中非常常見的微觀結節不適用於惡性腫瘤;因此,轉診給相關專家進行治療的緊迫性較小。

在這裡,我們試圖解釋人工智能與人類專家相比在檢測肺結節方面的優勢。在本研究中,我們採用了一種簡單直觀的方法,即對檢測到的結節與金標準篩選到的結節的一致性程度進行評估。以病理金標準為參照,分別採用Kappa一致性係數和Mann-Whitney U檢驗進行一致性分析。引人注目的是,除了AI之外,在所有成對比較中存在差異(AI為p=0.138,其他比較為p<0.001)。與人類專家相比,AI也可以與金標準檢測到的肺結節顯著一致,AI由於其最高的一致性係數而脫穎而出(AI kappa=0.94,其他比較p<0.001)。我們進一步比較了不同尺寸範圍內檢測到的結節的一致性,並證明無論結核大小範圍如何,AI都顯示出超出人類專家的金標準更有利的一致性。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖10:應用於五個不同製造商的成像設備時,AI在肺結節診斷一致性方面的表現。

3.4 IILS的交叉-設備適用性

既然AI已被證實在檢測結節方面優於人類專家,無論大小如何,有必要從另一個角度來判斷AI的適用性。基本上,AI的診斷取決於現有製造商生產的圖像;因此,評估不同製造商的圖像輸出對AI檢測到的結節的影響是合理的。為了在參考黃金標準的條件下探索AI對不同成像製造商的適應性,通過Mann-Whitney U檢驗和kappa一致性分析,進一步評價AI與金標準診斷不同廠家不同大小結節的一致性。總體而言,AI在五家制造商上配置良好,與黃金標準相比沒有差異(通用為p=0.576,飛利浦為p=0.472,西門子為p=0.988,東芝為p=0.376,聯影(UI)為p=0.343)。此外,實現了高一致性,kappa係數為0.87到0.99之間(圖10)。

"思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

在AI技術準確檢出肺部結節病灶的前提下,團隊開發了一套胸部CT排版系統,適合全自動或者半自動的影像學圖像的排版問題,可以將以往人工診斷到排版花費約2小時的工作時間,降低到約100秒完成。

作者 | 李雨晨

過去幾年,AI在醫學影像方面取得了諸多成果。在影像學科的臨床工作流程中,肺部病變的良、惡性鑑別診斷,已經成為AI創業公司爭先恐後湧入的賽道。但是,多數創業公司基本上是停留在後端的疾病診斷層面,在此之前的圖像採集、圖像呈現階段,其實都有文章可做。

近日,南京鼓樓醫院醫學影像科張冰團隊,在柳葉刀子刊EBiomedicine發表了一則AI醫療的新成果,直面影像科醫生工作流程前端的痛點問題。

該團隊選擇了一個全新的切入點——從臨床影像工作全流程角度出發,提出了一種基於深度學習的智能成像排版系統(IILS),系統包括AI肺結節檢測和分類和自適應排版工具,用於結節識別的成像報告標準化和工作流程優化。

成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。特別是當肺結節的直徑小於1 cm時,相應報告不能與排版結果100%匹配。

據瞭解,團隊提出的胸部CT排版工具,使用來自11205名患者的CT成像數據,可以適應全自動或者半自動的影像學圖像的排版問題。以往人工診斷到排版需要花費約2小時的時間,在這個工具的幫助下,時間可以降低到約100秒。

以下為論文詳細內容,由AI掘金志學術組編譯。關注AI掘金志公眾號,在對話框回覆關鍵詞“南京鼓樓”,即可獲取原文PDF下載鏈接。

1、引言

臨床任務的一個典型例子是,分類並生成與肺結節的診斷密切相關的胸部CT圖像的佈局。在篩查檢測和隨訪期間,目前的日常工作流程中仍存在五個問題。

1、成像報告標準化缺乏:由於沒有標準化、科學驗證的方法評估結節,試驗放射科醫師制定了診斷隨訪的指南,但沒有強制要求評估方法(圖1)。

2、缺失結節:如果幹激光膠片用作成像信息載體,則無法顯示與報告中的描述相對應的結節(圖2),這是一個常見問題。

3、缺少關鍵圖像:在從CT掃描儀獲取圖像之後,大量圖像不加選擇地輸入到PACS中。此外,許多臨床醫生對成像知識相對不熟悉,需要花費大量時間和精力來瀏覽這些缺乏關鍵信息的複雜圖像,更不用說使用智能手機或平板電腦來檢查這些圖像。而且,許多無效圖像經常出現在一系列圖像中(圖2)。因此,治療過程極其低效。

4、訪問來自其他醫院的圖像困難:如果患者需要他或她自己的圖像,圖像通常在光盤(CD)上刻錄或通過便攜式硬盤驅動器傳輸。然而,許多現代計算機沒有配備CD驅動器或醫院禁止使用計算機的通用串行總線(USB)接口。因此,患者在不同醫院都要進行掃描成像。

5、 缺乏對臨床醫生和患者需求的考慮(圖2):作為放射科醫師,幫助他人更容易閱讀和理解成像結果的機會尚未得到充分利用。因此,迫切需要具有關鍵圖像的電子報告和可視化結構化報告來解決這些問題。

當前,AI的應用似乎忽略了兩個事實。首先,高質量的標準化圖像是人工智能開發的基礎,其次,AI可以接管簡單和重複的工作。

在這項研究中,我們尋求開發基於人工智能技術和自適應佈局工具融合的智能成像排版系統(IILS),以建立日常工作的新流程,併為放射科醫生和臨床醫生提供標準化圖像和報告。同時,我們從三個方面評估IILS的綜合實力,包括i)IILS與臨床專家之間結節診斷效率的比較; ii)IILS可以優化臨床工作流程的程度;iii)IILS的交叉製造適用性(cross-manufacture applicability)。

總之,我們認為AI技術可以通過串聯連接集成到放射學工作流中,而不是基於簡單的並行關係來遵循傳統的工作流程。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖2.當前的手工選片過程和日常工作中的相關問題。例如,成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。相應報告不能與排版結果100%匹配,特別是當肺結節的直徑小於1cm時。 以GE的CT掃描方法為例,在日常工作中使用手動圖像排版時,通常會忽略6(層)×1·25 mm(厚度)= 7·5 mm範圍內的肺組織。因此,當醫生獲得最終的圖像時會遇到以下問題:缺乏成像報告標準化、缺失結節、缺乏關鍵圖像以及缺乏對臨床醫生和患者需求的考慮。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖3. IILS的組成以及如何將其整合到當前的成像過程中。新的IILS包括以下部分:一個是AI肺結節檢測和分類,另一個是自適應排版工具,包括我們團隊發明的自動排版和可視化結構化報告生成。為了確保圖像質量和結果,我們有一位放射科醫生,他通常負責編寫報告,仔細檢查自動生成的結構化報告和圖像排版結果。成像部門日常工作的整個過程包括以下關鍵步驟:i)獲取:從不同臨床科室的患者收集圖像信息; ii)排版:包括日常工作的手動排版和圖像管理; iii)診斷:放射科醫師的圖像診斷,預測和評估。新型智能系統的應用通過串聯而非並聯連接集成到放射工作流中。

2、材料與方法

2.1 實驗軟件和硬件

本文中的模型均在DGX1平臺上進行訓練。(NVIDIA DGX1 system, 8× Tesla V100 GPUs, 128 GB total system GPUMemory, dual 20-core Intel Xeon E5–2698 CPU v4 2.2 GHz, SantaClara, California, USA)

2.2 實驗模型和項目細節

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖4:數據流圖顯示了我們檢測結節和分類良性或惡性病例的方法。本研究採用的數據是從2016年10月到2018年11月,從五個主要的不同CT製造商處獲得的11205名患者、共3527048張胸部CT掃描圖像。

訓練過程分為兩部分,分別由兩個訓練隊列組成。通過卷積神經網絡(CNN)獲得兩個模型,通過5折交叉驗證進行性能評估,然後合併形成IILS的第一層,即用於檢測結節和分類病例的篩選部分。我們將最終的兩個模型部署到包含1965個病例的獨立隊列中,通過六位臨床專家對結節數量的一致性分析,以顯示我們IILS的可信度。

八名有3到25年胸部CT經驗的專家作為檢查員參加了會議。為了在臨床專家的背景下評估我們的卷積神經網絡,我們使用1965名患者的獨立測試集來比較我們的網絡決策和人類專家的決策。隨機選擇作為受試者的1965名患者進行讀者間和讀者間再現性研究。

所有肺結節的數量的確定、良性和惡性結節的判斷由六位專家檢查兩次,間隔為1個月,以最小化記憶偏差。所有決策均由六位專家做出,用於讀者間的再現性分析。加權誤差評分用於反映假陰性結果(未做出決定)比假陽性結果更有害。使用這些加權懲罰點、計算模型和每個人類專家的錯誤率。

即使患者有較大的病變,我們也僅包括小於30 mm的結節,其大小相當於約30 mm的平均直徑,因為肺結節的定義是直徑小於3cm的病變。我們納入了疑似轉移的結節以及可能具有良性組織學特徵的結節。然而,排除了粟粒性結核、間質病變、結節病和重症肺炎。

以下參數用於評估結節特徵和圖像質量對觀察者一致性的影響:總結節大小(最大直徑,毫米)、結節類型、良性或惡性以及肺實質內結節的密度。從數據庫中提取參數結節大小、良性或惡性和類型。結節的密度由沒有參與閱讀過程的專家(H.Y 和H.W)測量。將兩個約1cm的感興趣區域放置在結節中的兩個均勻區域中,並且兩次測量中平均的Hounsfield units標準偏差是密度的度量。

2.3 病人分類

訓練過程中的用例隨機分為訓練集80%和驗證集20%(圖4)。訓練集用於訓練算法,驗證集用於模型選擇,測試集用於評估最終選擇的模型。在確定百分比分割時,目標是為算法保留足夠的數據以進行訓練,但是具有足夠的驗證和測試用例以保持模型準確性的合理置信區間。 該數據集代表了在參與診所提供和接受治療的最常見的實性、鈣化或磨玻璃結節患者。

2.4 圖像標註

在訓練之前,每個圖像都經過分層分級系統,該系統由多級訓練有素的評分者組成,他們具有逐級遞增的專業知識,可用於圖像標籤的驗證和校正。導入數據庫的每個圖像都與患者最近診斷的標籤相匹配。第一級評分員包括具有呼吸系統和成像基礎知識的成員。這一級評分員進行了初步的質量控制,並排除了包含嚴重偽影或顯著降低圖像分辨率的胸部CT圖像。第二級評分員由兩位專家組成,他們對通過第一級的每張圖像進行獨立評分。記錄胸部CT圖像上是否存在實性,鈣化或磨玻璃結節和其他可見的病變。最後,第二層由兩名高級呼吸和成像專家組成,每位專家擁有超過15年的臨床呼吸和成像經驗,獨立驗證每張圖像的真實標籤。所有圖像的驗證子集由兩名專家分別評分,不一致的臨床標籤由由高級專家仲裁,以解釋評分中的人為錯誤。

2.5 軟件支持

軟件系統的開發在Linux Ubuntu 18.04環境下進行。Pycharm 和 VS Code用作開發的IDE。Chrome調試器用於測試和調試UI / UX。 軟件的實現細節是保密的,以下部分主要描述了實現的設計和邏輯。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖5:排版示例加上可視化結構報告以及與傳統排版和報告的比較。

(a)使用IILS選擇後的新圖像排版。新的排版圖像被分為三個部分(兩個紅框的區域,代表關鍵圖像所在的區域)。顯然,與(c)相比沒有無效圖像(標有橙色下劃線)。排版第一部分開頭的五個小框依次顯示:1)肺窗條件下結節的最大橫截面切片的圖像(WW:1500; WL:-500),2)具有長徑和短徑測量數據的圖像,3)縱隔窗口條件下的結節圖像(WW:350,WL:50),4)結節的冠狀圖像重建,5)結節的矢狀圖像重建。第二部分是在縱隔窗口條件下每層間隔的一組圖像。最後一部分是一組薄層肺組織圖像,大約分為六層。另一個便利是,片子上任一單元格中的每個圖像都可以通過其切片ID進行跟蹤,並通過雙擊它來重定向到圖像集中的原始位置。還自動生成與片子相關的可視化結構報告。有關詳細信息,請參見視頻2。

(b):如果患者沒有肺結節,IILS給出的排版和報告將與傳統系統給出的相似。

(c):使用傳統的手工排版形式,表格分為兩部分。 前部包括縱隔組織圖像,後部是肺組織圖像。 傳統排版格式的主要問題是缺少關鍵圖像,各種無效圖像(一些帶橙色下劃線的圖像),以及缺少鏈接功能。 相關報告填充了文本,沒有生成結構化報告。

2.6 自動排版

通過將固定輸出過程分成以下子任務來執行自動排版:1,驗證; 2,輸出。在驗證任務中,我們的程序首先處理最重要的結節,生成五個放大的輸出圖像,聚焦在結節上,同時突出顯示矩形,標明肺窗形式的結節位置,長徑測量,縱隔窗 和兩個方向透視。 五個輸出圖像放置在第一行,然後是30個縱隔窗口圖像,其餘的為肺窗口。 具體而言,第一部分五個網格是單個結節的自動排版,具有最高的惡性概率風險,這可由AI預測。 五張圖片也可以由放射科醫師驗證和覆蓋。 自適應排版工具的輸出包括兩個電子排片和一個由四組圖像組成的結構化報告。

與傳統報告的比較,IILS提供了以下信息:i)基本信息顯示:患者信息,檢查信息,放射科醫師信息等。ii)結果(來自AI預測和放射科醫師的雙重確認):標準化描述肺結節圖像,包括結節位置,形態和密度,圖像信息的層數,結節長徑,體積,平均CT值,以及結節的惡性概率。此外,我們為放射科醫師預留了足夠的空間,可以為其他病變編寫定期報告。 iii)診斷感想:由放射科醫師撰寫的診斷建議。肺部全部範圍的適應性是主要關注點,其意味著五個圖像是否附在第一組,即 一組顯示結節的五種形式圖像具有最高的AI預測得分為惡性,符合我們的預設的將受到高度重視。驗證後,可以將排片導出為可打印格式,以便為放射科醫師和患者提供可視化信息,同時自動生成結構報告。

我們還推斷一個好的排版系統主要包括以下三個主要內容:1)任何可靠,客觀的測量數據的所有關鍵圖像; 2)顯示腫瘤特徵的一系列圖像,包括形狀,數量,密度,大小,增強,多角度觀察和後續比較; 3)胸部縱隔窗和肺窗圖像連續顯示(圖5a-b)。 此外,我們手工顯示當前排版形式的圖片,這在日常工作中作為比較非常普遍(圖5c)。

2.7 結構化報告

結構化報告生成程序旨在完成常見CT掃描場景中的完整工作流程(補充圖S2)。與傳統報告的比較,我們計劃為放射科醫師和患者提供圖像和結果的可視化。該計劃主要通過以下三個步驟進行:1,收集資源;2,渲染圖像;3,輸出。我們現在將詳細描述每個步驟。為了收集資源,我們需要在我們的程序中加載多個資源,包括DICOM圖像集、AI預測結節、患者/醫院信息,以及捕獲放射科醫師的結果和診斷感想。收集必要的資源後,我們繼續進行渲染部分。該程序將首先根據其重要性對結節進行排序(由AI定義,但可以由操作員覆蓋),然後在相應的圖像上使用矩形框渲染每個結節。該程序還放大了圖像並設置其中心,重點放在結節本身。渲染和轉換後,將觸發特殊事件偵聽器以通知程序捕獲渲染數據。最後,程序生成預定義的可打印輸出。

2.8 定量和統計分析

ROC曲線繪製了真陽性率(TPR,靈敏度)與假陽性率(1- 特異度)的關係曲線。通過將正確標記的惡性結節的總數和正確標記的良性結節的總數分別除以測試圖像的結節總數來確定靈敏度和特異度。連續變量被描述為平均值±標準誤差(SEM),並且分類變量被表示為諸如良性/惡性(B / M)的特徵。將傳統圖像排版組與智能系統組和正常對照組之間的臨床特徵通過Mann-Whitney U檢驗,卡方檢驗或Fisher精確檢驗進行比較。使用雙樣本Mann-Whitney U檢驗比較傳統排版組與智能佈局組和正常對照組之間的差異。Kappa統計用於衡量兩個評估者之間的一致性程度,即AI和人類專家。kappa值至少為0.75表示良好的一致性。 然而,我們認為較大的kappa值,例如0.90,是優選的。雙尾P值<0.05被認為具有統計學意義。

3、結果

3.1患者和圖像特徵

具有四種不同結節大小的病例及其特徵和演變表明隨訪的重要性(圖6a)。表1總結了用於訓練、驗證和獨立測試數據集的患者和結節的特徵。根據文獻,結節類型分為實性結節、鈣化結節和磨砂玻璃結節。工作流程圖的總體實驗設計如圖6b所示。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖6:應用人工智能技術對不同大小肺結節的檢測過程進行了演示,並給出了整個實驗設計的流程圖。

3.2 模型設計和性能評估

IILS系統的核心設計是深度學習模型,該模型分為兩個部分,Faster RCNN和ResNet。Faster RCNN主要負責肺結節的檢測和定位。Faster RCNN 還有助於將肺結節分為以下幾類:0-3 mm、3-6mm、6-0mm、10-30mm肺結節,實性結節、鈣化結節和磨砂玻璃結節(GGNs)。第二部分是ResNet,主要負責肺結節良惡性的分類。在第一部分中,關於特徵提取,我們使用了ResNet-50 中的層conv4_x作為輸出。在我們的嘗試中,ResNet-50中的層conv4_x在檢測中表現出最佳性能。在區域建議網絡(RPN)中,採用二元交叉熵作為分類損失函數,選取smooth L1損失函數作為迴歸損失函數。模型的訓練過程完善,曲線均達到收斂。該模型的訓練過程是完美的,所有曲線均達到收斂。RPN的訓練過程如圖7a-b所示,所有曲線收斂為零。這也表明我們的模型能夠很好地區分前景和背景,並提供了一個精確的前景邊界框。圖7c曲線也收斂到零,該曲線的收斂性表明,該模型能夠很好地區分7類肺結節。第二部分,我們用ResNet對結節良惡性進行了分類。為了獲得更準確的模型並避免梯度分散等問題,我們選擇了ResNet。在IILS系統中,ResNet顯現出了優異的分類性能。曲線的收斂代表了我們分類工作的成功;在模型精度方面,訓練和驗證曲線均接近100%(訓練過程為100%,驗證過程為97%)。在損失函數部分,曲線也顯示該模型在良惡性結節的分類上表現良好。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖7:檢測結節的訓練過程的性能。

3.3 IILS與人類專家對結節診斷效率的比較

我們評估了我們的模型檢測和分類最常見的肺結節。該模型檢測並分類具有不同等級良性和惡性腫瘤結節的圖像作為“原發性結節”。這些情況需要相對緊急的轉診到相關的呼吸內科醫生或胸外科醫生那裡進行最終治療。該系統將具有良性肺或假陽性結節的圖像分類,其具有成為惡性腫瘤的可能性低,“僅在可視化結構化報告中顯示”。在臨床工作中非常常見的微觀結節不適用於惡性腫瘤;因此,轉診給相關專家進行治療的緊迫性較小。

在這裡,我們試圖解釋人工智能與人類專家相比在檢測肺結節方面的優勢。在本研究中,我們採用了一種簡單直觀的方法,即對檢測到的結節與金標準篩選到的結節的一致性程度進行評估。以病理金標準為參照,分別採用Kappa一致性係數和Mann-Whitney U檢驗進行一致性分析。引人注目的是,除了AI之外,在所有成對比較中存在差異(AI為p=0.138,其他比較為p<0.001)。與人類專家相比,AI也可以與金標準檢測到的肺結節顯著一致,AI由於其最高的一致性係數而脫穎而出(AI kappa=0.94,其他比較p<0.001)。我們進一步比較了不同尺寸範圍內檢測到的結節的一致性,並證明無論結核大小範圍如何,AI都顯示出超出人類專家的金標準更有利的一致性。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖10:應用於五個不同製造商的成像設備時,AI在肺結節診斷一致性方面的表現。

3.4 IILS的交叉-設備適用性

既然AI已被證實在檢測結節方面優於人類專家,無論大小如何,有必要從另一個角度來判斷AI的適用性。基本上,AI的診斷取決於現有製造商生產的圖像;因此,評估不同製造商的圖像輸出對AI檢測到的結節的影響是合理的。為了在參考黃金標準的條件下探索AI對不同成像製造商的適應性,通過Mann-Whitney U檢驗和kappa一致性分析,進一步評價AI與金標準診斷不同廠家不同大小結節的一致性。總體而言,AI在五家制造商上配置良好,與黃金標準相比沒有差異(通用為p=0.576,飛利浦為p=0.472,西門子為p=0.988,東芝為p=0.376,聯影(UI)為p=0.343)。此外,實現了高一致性,kappa係數為0.87到0.99之間(圖10)。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖11 評估AI在識別良性或惡性病變中的表現

3.5 通過獨立數據驗證IILS在診斷方面優於人類專家的表現

使用284例病理結果患者的獨立數據進行比較,使用相同的數據集比較惡性肺結節和良性結節,以確定模型性能的準確性。我們推斷,我們最初的預測模型完全適用於臨床,因為其ROC下面積對於惡性肺結節相對於良性肺結節高達90.6%(圖11a)。在0.5的評分截斷下,124例預測為真陽性,1479例為真陰性。約有38例被標記為假陽性,181例為假陰性。敏感性76.5%,特異性89.1%(圖11b)。在另一組284例病理金標準患者中,模型和人類專家的預測性能在曲線上進行了比較,得出結論:人工智能在敏感性和特異性方面優於其他6名專家。此外,與人類專家相比,人工智能顯示出最高的準確性;正確預測248例(87.3%,預測為真陽性或真陰性的人數除以284),錯誤預測最少,36例(12.7%)。

3.6 自動自適應佈局工具的設計與評估

根據2018年NCCN指南的要求,我們與六位專家(三位放射科醫生和三位臨床醫生)進行了討論後,就良好的圖像佈局形式達成了最終共識。為了模擬醫學成像部門胸部CT掃描後的日常工作結果,我們設計了一種自動自適應佈局工具,可以生成“自動膠片佈局和肺結節結構報告”,以連接到CNN網絡的輸出。自動自適應佈局工具可以導出關鍵肺結節圖像(具有增加的惡性風險的結節)的膠片佈局並生成結構化報告。兩種膠片佈局都以固定格式使用(一部膠片上有5×8網格)。將180名患者的胸部CT圖像混合並連續輸入到IILS,以模擬來自不同製造商的圖像在日常工作中進入工作站的情況。評估了自適應佈局工具的特性以及是否可以成功布局。這180名患者的圖像總數為60660,包括縱隔12240例窗口圖像和48420張肺窗圖像。使用5點量表方法來最終判斷電子膠片的佈局。

"思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

在AI技術準確檢出肺部結節病灶的前提下,團隊開發了一套胸部CT排版系統,適合全自動或者半自動的影像學圖像的排版問題,可以將以往人工診斷到排版花費約2小時的工作時間,降低到約100秒完成。

作者 | 李雨晨

過去幾年,AI在醫學影像方面取得了諸多成果。在影像學科的臨床工作流程中,肺部病變的良、惡性鑑別診斷,已經成為AI創業公司爭先恐後湧入的賽道。但是,多數創業公司基本上是停留在後端的疾病診斷層面,在此之前的圖像採集、圖像呈現階段,其實都有文章可做。

近日,南京鼓樓醫院醫學影像科張冰團隊,在柳葉刀子刊EBiomedicine發表了一則AI醫療的新成果,直面影像科醫生工作流程前端的痛點問題。

該團隊選擇了一個全新的切入點——從臨床影像工作全流程角度出發,提出了一種基於深度學習的智能成像排版系統(IILS),系統包括AI肺結節檢測和分類和自適應排版工具,用於結節識別的成像報告標準化和工作流程優化。

成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。特別是當肺結節的直徑小於1 cm時,相應報告不能與排版結果100%匹配。

據瞭解,團隊提出的胸部CT排版工具,使用來自11205名患者的CT成像數據,可以適應全自動或者半自動的影像學圖像的排版問題。以往人工診斷到排版需要花費約2小時的時間,在這個工具的幫助下,時間可以降低到約100秒。

以下為論文詳細內容,由AI掘金志學術組編譯。關注AI掘金志公眾號,在對話框回覆關鍵詞“南京鼓樓”,即可獲取原文PDF下載鏈接。

1、引言

臨床任務的一個典型例子是,分類並生成與肺結節的診斷密切相關的胸部CT圖像的佈局。在篩查檢測和隨訪期間,目前的日常工作流程中仍存在五個問題。

1、成像報告標準化缺乏:由於沒有標準化、科學驗證的方法評估結節,試驗放射科醫師制定了診斷隨訪的指南,但沒有強制要求評估方法(圖1)。

2、缺失結節:如果幹激光膠片用作成像信息載體,則無法顯示與報告中的描述相對應的結節(圖2),這是一個常見問題。

3、缺少關鍵圖像:在從CT掃描儀獲取圖像之後,大量圖像不加選擇地輸入到PACS中。此外,許多臨床醫生對成像知識相對不熟悉,需要花費大量時間和精力來瀏覽這些缺乏關鍵信息的複雜圖像,更不用說使用智能手機或平板電腦來檢查這些圖像。而且,許多無效圖像經常出現在一系列圖像中(圖2)。因此,治療過程極其低效。

4、訪問來自其他醫院的圖像困難:如果患者需要他或她自己的圖像,圖像通常在光盤(CD)上刻錄或通過便攜式硬盤驅動器傳輸。然而,許多現代計算機沒有配備CD驅動器或醫院禁止使用計算機的通用串行總線(USB)接口。因此,患者在不同醫院都要進行掃描成像。

5、 缺乏對臨床醫生和患者需求的考慮(圖2):作為放射科醫師,幫助他人更容易閱讀和理解成像結果的機會尚未得到充分利用。因此,迫切需要具有關鍵圖像的電子報告和可視化結構化報告來解決這些問題。

當前,AI的應用似乎忽略了兩個事實。首先,高質量的標準化圖像是人工智能開發的基礎,其次,AI可以接管簡單和重複的工作。

在這項研究中,我們尋求開發基於人工智能技術和自適應佈局工具融合的智能成像排版系統(IILS),以建立日常工作的新流程,併為放射科醫生和臨床醫生提供標準化圖像和報告。同時,我們從三個方面評估IILS的綜合實力,包括i)IILS與臨床專家之間結節診斷效率的比較; ii)IILS可以優化臨床工作流程的程度;iii)IILS的交叉製造適用性(cross-manufacture applicability)。

總之,我們認為AI技術可以通過串聯連接集成到放射學工作流中,而不是基於簡單的並行關係來遵循傳統的工作流程。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖2.當前的手工選片過程和日常工作中的相關問題。例如,成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。相應報告不能與排版結果100%匹配,特別是當肺結節的直徑小於1cm時。 以GE的CT掃描方法為例,在日常工作中使用手動圖像排版時,通常會忽略6(層)×1·25 mm(厚度)= 7·5 mm範圍內的肺組織。因此,當醫生獲得最終的圖像時會遇到以下問題:缺乏成像報告標準化、缺失結節、缺乏關鍵圖像以及缺乏對臨床醫生和患者需求的考慮。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖3. IILS的組成以及如何將其整合到當前的成像過程中。新的IILS包括以下部分:一個是AI肺結節檢測和分類,另一個是自適應排版工具,包括我們團隊發明的自動排版和可視化結構化報告生成。為了確保圖像質量和結果,我們有一位放射科醫生,他通常負責編寫報告,仔細檢查自動生成的結構化報告和圖像排版結果。成像部門日常工作的整個過程包括以下關鍵步驟:i)獲取:從不同臨床科室的患者收集圖像信息; ii)排版:包括日常工作的手動排版和圖像管理; iii)診斷:放射科醫師的圖像診斷,預測和評估。新型智能系統的應用通過串聯而非並聯連接集成到放射工作流中。

2、材料與方法

2.1 實驗軟件和硬件

本文中的模型均在DGX1平臺上進行訓練。(NVIDIA DGX1 system, 8× Tesla V100 GPUs, 128 GB total system GPUMemory, dual 20-core Intel Xeon E5–2698 CPU v4 2.2 GHz, SantaClara, California, USA)

2.2 實驗模型和項目細節

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖4:數據流圖顯示了我們檢測結節和分類良性或惡性病例的方法。本研究採用的數據是從2016年10月到2018年11月,從五個主要的不同CT製造商處獲得的11205名患者、共3527048張胸部CT掃描圖像。

訓練過程分為兩部分,分別由兩個訓練隊列組成。通過卷積神經網絡(CNN)獲得兩個模型,通過5折交叉驗證進行性能評估,然後合併形成IILS的第一層,即用於檢測結節和分類病例的篩選部分。我們將最終的兩個模型部署到包含1965個病例的獨立隊列中,通過六位臨床專家對結節數量的一致性分析,以顯示我們IILS的可信度。

八名有3到25年胸部CT經驗的專家作為檢查員參加了會議。為了在臨床專家的背景下評估我們的卷積神經網絡,我們使用1965名患者的獨立測試集來比較我們的網絡決策和人類專家的決策。隨機選擇作為受試者的1965名患者進行讀者間和讀者間再現性研究。

所有肺結節的數量的確定、良性和惡性結節的判斷由六位專家檢查兩次,間隔為1個月,以最小化記憶偏差。所有決策均由六位專家做出,用於讀者間的再現性分析。加權誤差評分用於反映假陰性結果(未做出決定)比假陽性結果更有害。使用這些加權懲罰點、計算模型和每個人類專家的錯誤率。

即使患者有較大的病變,我們也僅包括小於30 mm的結節,其大小相當於約30 mm的平均直徑,因為肺結節的定義是直徑小於3cm的病變。我們納入了疑似轉移的結節以及可能具有良性組織學特徵的結節。然而,排除了粟粒性結核、間質病變、結節病和重症肺炎。

以下參數用於評估結節特徵和圖像質量對觀察者一致性的影響:總結節大小(最大直徑,毫米)、結節類型、良性或惡性以及肺實質內結節的密度。從數據庫中提取參數結節大小、良性或惡性和類型。結節的密度由沒有參與閱讀過程的專家(H.Y 和H.W)測量。將兩個約1cm的感興趣區域放置在結節中的兩個均勻區域中,並且兩次測量中平均的Hounsfield units標準偏差是密度的度量。

2.3 病人分類

訓練過程中的用例隨機分為訓練集80%和驗證集20%(圖4)。訓練集用於訓練算法,驗證集用於模型選擇,測試集用於評估最終選擇的模型。在確定百分比分割時,目標是為算法保留足夠的數據以進行訓練,但是具有足夠的驗證和測試用例以保持模型準確性的合理置信區間。 該數據集代表了在參與診所提供和接受治療的最常見的實性、鈣化或磨玻璃結節患者。

2.4 圖像標註

在訓練之前,每個圖像都經過分層分級系統,該系統由多級訓練有素的評分者組成,他們具有逐級遞增的專業知識,可用於圖像標籤的驗證和校正。導入數據庫的每個圖像都與患者最近診斷的標籤相匹配。第一級評分員包括具有呼吸系統和成像基礎知識的成員。這一級評分員進行了初步的質量控制,並排除了包含嚴重偽影或顯著降低圖像分辨率的胸部CT圖像。第二級評分員由兩位專家組成,他們對通過第一級的每張圖像進行獨立評分。記錄胸部CT圖像上是否存在實性,鈣化或磨玻璃結節和其他可見的病變。最後,第二層由兩名高級呼吸和成像專家組成,每位專家擁有超過15年的臨床呼吸和成像經驗,獨立驗證每張圖像的真實標籤。所有圖像的驗證子集由兩名專家分別評分,不一致的臨床標籤由由高級專家仲裁,以解釋評分中的人為錯誤。

2.5 軟件支持

軟件系統的開發在Linux Ubuntu 18.04環境下進行。Pycharm 和 VS Code用作開發的IDE。Chrome調試器用於測試和調試UI / UX。 軟件的實現細節是保密的,以下部分主要描述了實現的設計和邏輯。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖5:排版示例加上可視化結構報告以及與傳統排版和報告的比較。

(a)使用IILS選擇後的新圖像排版。新的排版圖像被分為三個部分(兩個紅框的區域,代表關鍵圖像所在的區域)。顯然,與(c)相比沒有無效圖像(標有橙色下劃線)。排版第一部分開頭的五個小框依次顯示:1)肺窗條件下結節的最大橫截面切片的圖像(WW:1500; WL:-500),2)具有長徑和短徑測量數據的圖像,3)縱隔窗口條件下的結節圖像(WW:350,WL:50),4)結節的冠狀圖像重建,5)結節的矢狀圖像重建。第二部分是在縱隔窗口條件下每層間隔的一組圖像。最後一部分是一組薄層肺組織圖像,大約分為六層。另一個便利是,片子上任一單元格中的每個圖像都可以通過其切片ID進行跟蹤,並通過雙擊它來重定向到圖像集中的原始位置。還自動生成與片子相關的可視化結構報告。有關詳細信息,請參見視頻2。

(b):如果患者沒有肺結節,IILS給出的排版和報告將與傳統系統給出的相似。

(c):使用傳統的手工排版形式,表格分為兩部分。 前部包括縱隔組織圖像,後部是肺組織圖像。 傳統排版格式的主要問題是缺少關鍵圖像,各種無效圖像(一些帶橙色下劃線的圖像),以及缺少鏈接功能。 相關報告填充了文本,沒有生成結構化報告。

2.6 自動排版

通過將固定輸出過程分成以下子任務來執行自動排版:1,驗證; 2,輸出。在驗證任務中,我們的程序首先處理最重要的結節,生成五個放大的輸出圖像,聚焦在結節上,同時突出顯示矩形,標明肺窗形式的結節位置,長徑測量,縱隔窗 和兩個方向透視。 五個輸出圖像放置在第一行,然後是30個縱隔窗口圖像,其餘的為肺窗口。 具體而言,第一部分五個網格是單個結節的自動排版,具有最高的惡性概率風險,這可由AI預測。 五張圖片也可以由放射科醫師驗證和覆蓋。 自適應排版工具的輸出包括兩個電子排片和一個由四組圖像組成的結構化報告。

與傳統報告的比較,IILS提供了以下信息:i)基本信息顯示:患者信息,檢查信息,放射科醫師信息等。ii)結果(來自AI預測和放射科醫師的雙重確認):標準化描述肺結節圖像,包括結節位置,形態和密度,圖像信息的層數,結節長徑,體積,平均CT值,以及結節的惡性概率。此外,我們為放射科醫師預留了足夠的空間,可以為其他病變編寫定期報告。 iii)診斷感想:由放射科醫師撰寫的診斷建議。肺部全部範圍的適應性是主要關注點,其意味著五個圖像是否附在第一組,即 一組顯示結節的五種形式圖像具有最高的AI預測得分為惡性,符合我們的預設的將受到高度重視。驗證後,可以將排片導出為可打印格式,以便為放射科醫師和患者提供可視化信息,同時自動生成結構報告。

我們還推斷一個好的排版系統主要包括以下三個主要內容:1)任何可靠,客觀的測量數據的所有關鍵圖像; 2)顯示腫瘤特徵的一系列圖像,包括形狀,數量,密度,大小,增強,多角度觀察和後續比較; 3)胸部縱隔窗和肺窗圖像連續顯示(圖5a-b)。 此外,我們手工顯示當前排版形式的圖片,這在日常工作中作為比較非常普遍(圖5c)。

2.7 結構化報告

結構化報告生成程序旨在完成常見CT掃描場景中的完整工作流程(補充圖S2)。與傳統報告的比較,我們計劃為放射科醫師和患者提供圖像和結果的可視化。該計劃主要通過以下三個步驟進行:1,收集資源;2,渲染圖像;3,輸出。我們現在將詳細描述每個步驟。為了收集資源,我們需要在我們的程序中加載多個資源,包括DICOM圖像集、AI預測結節、患者/醫院信息,以及捕獲放射科醫師的結果和診斷感想。收集必要的資源後,我們繼續進行渲染部分。該程序將首先根據其重要性對結節進行排序(由AI定義,但可以由操作員覆蓋),然後在相應的圖像上使用矩形框渲染每個結節。該程序還放大了圖像並設置其中心,重點放在結節本身。渲染和轉換後,將觸發特殊事件偵聽器以通知程序捕獲渲染數據。最後,程序生成預定義的可打印輸出。

2.8 定量和統計分析

ROC曲線繪製了真陽性率(TPR,靈敏度)與假陽性率(1- 特異度)的關係曲線。通過將正確標記的惡性結節的總數和正確標記的良性結節的總數分別除以測試圖像的結節總數來確定靈敏度和特異度。連續變量被描述為平均值±標準誤差(SEM),並且分類變量被表示為諸如良性/惡性(B / M)的特徵。將傳統圖像排版組與智能系統組和正常對照組之間的臨床特徵通過Mann-Whitney U檢驗,卡方檢驗或Fisher精確檢驗進行比較。使用雙樣本Mann-Whitney U檢驗比較傳統排版組與智能佈局組和正常對照組之間的差異。Kappa統計用於衡量兩個評估者之間的一致性程度,即AI和人類專家。kappa值至少為0.75表示良好的一致性。 然而,我們認為較大的kappa值,例如0.90,是優選的。雙尾P值<0.05被認為具有統計學意義。

3、結果

3.1患者和圖像特徵

具有四種不同結節大小的病例及其特徵和演變表明隨訪的重要性(圖6a)。表1總結了用於訓練、驗證和獨立測試數據集的患者和結節的特徵。根據文獻,結節類型分為實性結節、鈣化結節和磨砂玻璃結節。工作流程圖的總體實驗設計如圖6b所示。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖6:應用人工智能技術對不同大小肺結節的檢測過程進行了演示,並給出了整個實驗設計的流程圖。

3.2 模型設計和性能評估

IILS系統的核心設計是深度學習模型,該模型分為兩個部分,Faster RCNN和ResNet。Faster RCNN主要負責肺結節的檢測和定位。Faster RCNN 還有助於將肺結節分為以下幾類:0-3 mm、3-6mm、6-0mm、10-30mm肺結節,實性結節、鈣化結節和磨砂玻璃結節(GGNs)。第二部分是ResNet,主要負責肺結節良惡性的分類。在第一部分中,關於特徵提取,我們使用了ResNet-50 中的層conv4_x作為輸出。在我們的嘗試中,ResNet-50中的層conv4_x在檢測中表現出最佳性能。在區域建議網絡(RPN)中,採用二元交叉熵作為分類損失函數,選取smooth L1損失函數作為迴歸損失函數。模型的訓練過程完善,曲線均達到收斂。該模型的訓練過程是完美的,所有曲線均達到收斂。RPN的訓練過程如圖7a-b所示,所有曲線收斂為零。這也表明我們的模型能夠很好地區分前景和背景,並提供了一個精確的前景邊界框。圖7c曲線也收斂到零,該曲線的收斂性表明,該模型能夠很好地區分7類肺結節。第二部分,我們用ResNet對結節良惡性進行了分類。為了獲得更準確的模型並避免梯度分散等問題,我們選擇了ResNet。在IILS系統中,ResNet顯現出了優異的分類性能。曲線的收斂代表了我們分類工作的成功;在模型精度方面,訓練和驗證曲線均接近100%(訓練過程為100%,驗證過程為97%)。在損失函數部分,曲線也顯示該模型在良惡性結節的分類上表現良好。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖7:檢測結節的訓練過程的性能。

3.3 IILS與人類專家對結節診斷效率的比較

我們評估了我們的模型檢測和分類最常見的肺結節。該模型檢測並分類具有不同等級良性和惡性腫瘤結節的圖像作為“原發性結節”。這些情況需要相對緊急的轉診到相關的呼吸內科醫生或胸外科醫生那裡進行最終治療。該系統將具有良性肺或假陽性結節的圖像分類,其具有成為惡性腫瘤的可能性低,“僅在可視化結構化報告中顯示”。在臨床工作中非常常見的微觀結節不適用於惡性腫瘤;因此,轉診給相關專家進行治療的緊迫性較小。

在這裡,我們試圖解釋人工智能與人類專家相比在檢測肺結節方面的優勢。在本研究中,我們採用了一種簡單直觀的方法,即對檢測到的結節與金標準篩選到的結節的一致性程度進行評估。以病理金標準為參照,分別採用Kappa一致性係數和Mann-Whitney U檢驗進行一致性分析。引人注目的是,除了AI之外,在所有成對比較中存在差異(AI為p=0.138,其他比較為p<0.001)。與人類專家相比,AI也可以與金標準檢測到的肺結節顯著一致,AI由於其最高的一致性係數而脫穎而出(AI kappa=0.94,其他比較p<0.001)。我們進一步比較了不同尺寸範圍內檢測到的結節的一致性,並證明無論結核大小範圍如何,AI都顯示出超出人類專家的金標準更有利的一致性。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖10:應用於五個不同製造商的成像設備時,AI在肺結節診斷一致性方面的表現。

3.4 IILS的交叉-設備適用性

既然AI已被證實在檢測結節方面優於人類專家,無論大小如何,有必要從另一個角度來判斷AI的適用性。基本上,AI的診斷取決於現有製造商生產的圖像;因此,評估不同製造商的圖像輸出對AI檢測到的結節的影響是合理的。為了在參考黃金標準的條件下探索AI對不同成像製造商的適應性,通過Mann-Whitney U檢驗和kappa一致性分析,進一步評價AI與金標準診斷不同廠家不同大小結節的一致性。總體而言,AI在五家制造商上配置良好,與黃金標準相比沒有差異(通用為p=0.576,飛利浦為p=0.472,西門子為p=0.988,東芝為p=0.376,聯影(UI)為p=0.343)。此外,實現了高一致性,kappa係數為0.87到0.99之間(圖10)。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖11 評估AI在識別良性或惡性病變中的表現

3.5 通過獨立數據驗證IILS在診斷方面優於人類專家的表現

使用284例病理結果患者的獨立數據進行比較,使用相同的數據集比較惡性肺結節和良性結節,以確定模型性能的準確性。我們推斷,我們最初的預測模型完全適用於臨床,因為其ROC下面積對於惡性肺結節相對於良性肺結節高達90.6%(圖11a)。在0.5的評分截斷下,124例預測為真陽性,1479例為真陰性。約有38例被標記為假陽性,181例為假陰性。敏感性76.5%,特異性89.1%(圖11b)。在另一組284例病理金標準患者中,模型和人類專家的預測性能在曲線上進行了比較,得出結論:人工智能在敏感性和特異性方面優於其他6名專家。此外,與人類專家相比,人工智能顯示出最高的準確性;正確預測248例(87.3%,預測為真陽性或真陰性的人數除以284),錯誤預測最少,36例(12.7%)。

3.6 自動自適應佈局工具的設計與評估

根據2018年NCCN指南的要求,我們與六位專家(三位放射科醫生和三位臨床醫生)進行了討論後,就良好的圖像佈局形式達成了最終共識。為了模擬醫學成像部門胸部CT掃描後的日常工作結果,我們設計了一種自動自適應佈局工具,可以生成“自動膠片佈局和肺結節結構報告”,以連接到CNN網絡的輸出。自動自適應佈局工具可以導出關鍵肺結節圖像(具有增加的惡性風險的結節)的膠片佈局並生成結構化報告。兩種膠片佈局都以固定格式使用(一部膠片上有5×8網格)。將180名患者的胸部CT圖像混合並連續輸入到IILS,以模擬來自不同製造商的圖像在日常工作中進入工作站的情況。評估了自適應佈局工具的特性以及是否可以成功布局。這180名患者的圖像總數為60660,包括縱隔12240例窗口圖像和48420張肺窗圖像。使用5點量表方法來最終判斷電子膠片的佈局。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

表2:用於評估佈局一致性和準確性的五點量表。

"思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

在AI技術準確檢出肺部結節病灶的前提下,團隊開發了一套胸部CT排版系統,適合全自動或者半自動的影像學圖像的排版問題,可以將以往人工診斷到排版花費約2小時的工作時間,降低到約100秒完成。

作者 | 李雨晨

過去幾年,AI在醫學影像方面取得了諸多成果。在影像學科的臨床工作流程中,肺部病變的良、惡性鑑別診斷,已經成為AI創業公司爭先恐後湧入的賽道。但是,多數創業公司基本上是停留在後端的疾病診斷層面,在此之前的圖像採集、圖像呈現階段,其實都有文章可做。

近日,南京鼓樓醫院醫學影像科張冰團隊,在柳葉刀子刊EBiomedicine發表了一則AI醫療的新成果,直面影像科醫生工作流程前端的痛點問題。

該團隊選擇了一個全新的切入點——從臨床影像工作全流程角度出發,提出了一種基於深度學習的智能成像排版系統(IILS),系統包括AI肺結節檢測和分類和自適應排版工具,用於結節識別的成像報告標準化和工作流程優化。

成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。特別是當肺結節的直徑小於1 cm時,相應報告不能與排版結果100%匹配。

據瞭解,團隊提出的胸部CT排版工具,使用來自11205名患者的CT成像數據,可以適應全自動或者半自動的影像學圖像的排版問題。以往人工診斷到排版需要花費約2小時的時間,在這個工具的幫助下,時間可以降低到約100秒。

以下為論文詳細內容,由AI掘金志學術組編譯。關注AI掘金志公眾號,在對話框回覆關鍵詞“南京鼓樓”,即可獲取原文PDF下載鏈接。

1、引言

臨床任務的一個典型例子是,分類並生成與肺結節的診斷密切相關的胸部CT圖像的佈局。在篩查檢測和隨訪期間,目前的日常工作流程中仍存在五個問題。

1、成像報告標準化缺乏:由於沒有標準化、科學驗證的方法評估結節,試驗放射科醫師制定了診斷隨訪的指南,但沒有強制要求評估方法(圖1)。

2、缺失結節:如果幹激光膠片用作成像信息載體,則無法顯示與報告中的描述相對應的結節(圖2),這是一個常見問題。

3、缺少關鍵圖像:在從CT掃描儀獲取圖像之後,大量圖像不加選擇地輸入到PACS中。此外,許多臨床醫生對成像知識相對不熟悉,需要花費大量時間和精力來瀏覽這些缺乏關鍵信息的複雜圖像,更不用說使用智能手機或平板電腦來檢查這些圖像。而且,許多無效圖像經常出現在一系列圖像中(圖2)。因此,治療過程極其低效。

4、訪問來自其他醫院的圖像困難:如果患者需要他或她自己的圖像,圖像通常在光盤(CD)上刻錄或通過便攜式硬盤驅動器傳輸。然而,許多現代計算機沒有配備CD驅動器或醫院禁止使用計算機的通用串行總線(USB)接口。因此,患者在不同醫院都要進行掃描成像。

5、 缺乏對臨床醫生和患者需求的考慮(圖2):作為放射科醫師,幫助他人更容易閱讀和理解成像結果的機會尚未得到充分利用。因此,迫切需要具有關鍵圖像的電子報告和可視化結構化報告來解決這些問題。

當前,AI的應用似乎忽略了兩個事實。首先,高質量的標準化圖像是人工智能開發的基礎,其次,AI可以接管簡單和重複的工作。

在這項研究中,我們尋求開發基於人工智能技術和自適應佈局工具融合的智能成像排版系統(IILS),以建立日常工作的新流程,併為放射科醫生和臨床醫生提供標準化圖像和報告。同時,我們從三個方面評估IILS的綜合實力,包括i)IILS與臨床專家之間結節診斷效率的比較; ii)IILS可以優化臨床工作流程的程度;iii)IILS的交叉製造適用性(cross-manufacture applicability)。

總之,我們認為AI技術可以通過串聯連接集成到放射學工作流中,而不是基於簡單的並行關係來遵循傳統的工作流程。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖2.當前的手工選片過程和日常工作中的相關問題。例如,成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。相應報告不能與排版結果100%匹配,特別是當肺結節的直徑小於1cm時。 以GE的CT掃描方法為例,在日常工作中使用手動圖像排版時,通常會忽略6(層)×1·25 mm(厚度)= 7·5 mm範圍內的肺組織。因此,當醫生獲得最終的圖像時會遇到以下問題:缺乏成像報告標準化、缺失結節、缺乏關鍵圖像以及缺乏對臨床醫生和患者需求的考慮。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖3. IILS的組成以及如何將其整合到當前的成像過程中。新的IILS包括以下部分:一個是AI肺結節檢測和分類,另一個是自適應排版工具,包括我們團隊發明的自動排版和可視化結構化報告生成。為了確保圖像質量和結果,我們有一位放射科醫生,他通常負責編寫報告,仔細檢查自動生成的結構化報告和圖像排版結果。成像部門日常工作的整個過程包括以下關鍵步驟:i)獲取:從不同臨床科室的患者收集圖像信息; ii)排版:包括日常工作的手動排版和圖像管理; iii)診斷:放射科醫師的圖像診斷,預測和評估。新型智能系統的應用通過串聯而非並聯連接集成到放射工作流中。

2、材料與方法

2.1 實驗軟件和硬件

本文中的模型均在DGX1平臺上進行訓練。(NVIDIA DGX1 system, 8× Tesla V100 GPUs, 128 GB total system GPUMemory, dual 20-core Intel Xeon E5–2698 CPU v4 2.2 GHz, SantaClara, California, USA)

2.2 實驗模型和項目細節

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖4:數據流圖顯示了我們檢測結節和分類良性或惡性病例的方法。本研究採用的數據是從2016年10月到2018年11月,從五個主要的不同CT製造商處獲得的11205名患者、共3527048張胸部CT掃描圖像。

訓練過程分為兩部分,分別由兩個訓練隊列組成。通過卷積神經網絡(CNN)獲得兩個模型,通過5折交叉驗證進行性能評估,然後合併形成IILS的第一層,即用於檢測結節和分類病例的篩選部分。我們將最終的兩個模型部署到包含1965個病例的獨立隊列中,通過六位臨床專家對結節數量的一致性分析,以顯示我們IILS的可信度。

八名有3到25年胸部CT經驗的專家作為檢查員參加了會議。為了在臨床專家的背景下評估我們的卷積神經網絡,我們使用1965名患者的獨立測試集來比較我們的網絡決策和人類專家的決策。隨機選擇作為受試者的1965名患者進行讀者間和讀者間再現性研究。

所有肺結節的數量的確定、良性和惡性結節的判斷由六位專家檢查兩次,間隔為1個月,以最小化記憶偏差。所有決策均由六位專家做出,用於讀者間的再現性分析。加權誤差評分用於反映假陰性結果(未做出決定)比假陽性結果更有害。使用這些加權懲罰點、計算模型和每個人類專家的錯誤率。

即使患者有較大的病變,我們也僅包括小於30 mm的結節,其大小相當於約30 mm的平均直徑,因為肺結節的定義是直徑小於3cm的病變。我們納入了疑似轉移的結節以及可能具有良性組織學特徵的結節。然而,排除了粟粒性結核、間質病變、結節病和重症肺炎。

以下參數用於評估結節特徵和圖像質量對觀察者一致性的影響:總結節大小(最大直徑,毫米)、結節類型、良性或惡性以及肺實質內結節的密度。從數據庫中提取參數結節大小、良性或惡性和類型。結節的密度由沒有參與閱讀過程的專家(H.Y 和H.W)測量。將兩個約1cm的感興趣區域放置在結節中的兩個均勻區域中,並且兩次測量中平均的Hounsfield units標準偏差是密度的度量。

2.3 病人分類

訓練過程中的用例隨機分為訓練集80%和驗證集20%(圖4)。訓練集用於訓練算法,驗證集用於模型選擇,測試集用於評估最終選擇的模型。在確定百分比分割時,目標是為算法保留足夠的數據以進行訓練,但是具有足夠的驗證和測試用例以保持模型準確性的合理置信區間。 該數據集代表了在參與診所提供和接受治療的最常見的實性、鈣化或磨玻璃結節患者。

2.4 圖像標註

在訓練之前,每個圖像都經過分層分級系統,該系統由多級訓練有素的評分者組成,他們具有逐級遞增的專業知識,可用於圖像標籤的驗證和校正。導入數據庫的每個圖像都與患者最近診斷的標籤相匹配。第一級評分員包括具有呼吸系統和成像基礎知識的成員。這一級評分員進行了初步的質量控制,並排除了包含嚴重偽影或顯著降低圖像分辨率的胸部CT圖像。第二級評分員由兩位專家組成,他們對通過第一級的每張圖像進行獨立評分。記錄胸部CT圖像上是否存在實性,鈣化或磨玻璃結節和其他可見的病變。最後,第二層由兩名高級呼吸和成像專家組成,每位專家擁有超過15年的臨床呼吸和成像經驗,獨立驗證每張圖像的真實標籤。所有圖像的驗證子集由兩名專家分別評分,不一致的臨床標籤由由高級專家仲裁,以解釋評分中的人為錯誤。

2.5 軟件支持

軟件系統的開發在Linux Ubuntu 18.04環境下進行。Pycharm 和 VS Code用作開發的IDE。Chrome調試器用於測試和調試UI / UX。 軟件的實現細節是保密的,以下部分主要描述了實現的設計和邏輯。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖5:排版示例加上可視化結構報告以及與傳統排版和報告的比較。

(a)使用IILS選擇後的新圖像排版。新的排版圖像被分為三個部分(兩個紅框的區域,代表關鍵圖像所在的區域)。顯然,與(c)相比沒有無效圖像(標有橙色下劃線)。排版第一部分開頭的五個小框依次顯示:1)肺窗條件下結節的最大橫截面切片的圖像(WW:1500; WL:-500),2)具有長徑和短徑測量數據的圖像,3)縱隔窗口條件下的結節圖像(WW:350,WL:50),4)結節的冠狀圖像重建,5)結節的矢狀圖像重建。第二部分是在縱隔窗口條件下每層間隔的一組圖像。最後一部分是一組薄層肺組織圖像,大約分為六層。另一個便利是,片子上任一單元格中的每個圖像都可以通過其切片ID進行跟蹤,並通過雙擊它來重定向到圖像集中的原始位置。還自動生成與片子相關的可視化結構報告。有關詳細信息,請參見視頻2。

(b):如果患者沒有肺結節,IILS給出的排版和報告將與傳統系統給出的相似。

(c):使用傳統的手工排版形式,表格分為兩部分。 前部包括縱隔組織圖像,後部是肺組織圖像。 傳統排版格式的主要問題是缺少關鍵圖像,各種無效圖像(一些帶橙色下劃線的圖像),以及缺少鏈接功能。 相關報告填充了文本,沒有生成結構化報告。

2.6 自動排版

通過將固定輸出過程分成以下子任務來執行自動排版:1,驗證; 2,輸出。在驗證任務中,我們的程序首先處理最重要的結節,生成五個放大的輸出圖像,聚焦在結節上,同時突出顯示矩形,標明肺窗形式的結節位置,長徑測量,縱隔窗 和兩個方向透視。 五個輸出圖像放置在第一行,然後是30個縱隔窗口圖像,其餘的為肺窗口。 具體而言,第一部分五個網格是單個結節的自動排版,具有最高的惡性概率風險,這可由AI預測。 五張圖片也可以由放射科醫師驗證和覆蓋。 自適應排版工具的輸出包括兩個電子排片和一個由四組圖像組成的結構化報告。

與傳統報告的比較,IILS提供了以下信息:i)基本信息顯示:患者信息,檢查信息,放射科醫師信息等。ii)結果(來自AI預測和放射科醫師的雙重確認):標準化描述肺結節圖像,包括結節位置,形態和密度,圖像信息的層數,結節長徑,體積,平均CT值,以及結節的惡性概率。此外,我們為放射科醫師預留了足夠的空間,可以為其他病變編寫定期報告。 iii)診斷感想:由放射科醫師撰寫的診斷建議。肺部全部範圍的適應性是主要關注點,其意味著五個圖像是否附在第一組,即 一組顯示結節的五種形式圖像具有最高的AI預測得分為惡性,符合我們的預設的將受到高度重視。驗證後,可以將排片導出為可打印格式,以便為放射科醫師和患者提供可視化信息,同時自動生成結構報告。

我們還推斷一個好的排版系統主要包括以下三個主要內容:1)任何可靠,客觀的測量數據的所有關鍵圖像; 2)顯示腫瘤特徵的一系列圖像,包括形狀,數量,密度,大小,增強,多角度觀察和後續比較; 3)胸部縱隔窗和肺窗圖像連續顯示(圖5a-b)。 此外,我們手工顯示當前排版形式的圖片,這在日常工作中作為比較非常普遍(圖5c)。

2.7 結構化報告

結構化報告生成程序旨在完成常見CT掃描場景中的完整工作流程(補充圖S2)。與傳統報告的比較,我們計劃為放射科醫師和患者提供圖像和結果的可視化。該計劃主要通過以下三個步驟進行:1,收集資源;2,渲染圖像;3,輸出。我們現在將詳細描述每個步驟。為了收集資源,我們需要在我們的程序中加載多個資源,包括DICOM圖像集、AI預測結節、患者/醫院信息,以及捕獲放射科醫師的結果和診斷感想。收集必要的資源後,我們繼續進行渲染部分。該程序將首先根據其重要性對結節進行排序(由AI定義,但可以由操作員覆蓋),然後在相應的圖像上使用矩形框渲染每個結節。該程序還放大了圖像並設置其中心,重點放在結節本身。渲染和轉換後,將觸發特殊事件偵聽器以通知程序捕獲渲染數據。最後,程序生成預定義的可打印輸出。

2.8 定量和統計分析

ROC曲線繪製了真陽性率(TPR,靈敏度)與假陽性率(1- 特異度)的關係曲線。通過將正確標記的惡性結節的總數和正確標記的良性結節的總數分別除以測試圖像的結節總數來確定靈敏度和特異度。連續變量被描述為平均值±標準誤差(SEM),並且分類變量被表示為諸如良性/惡性(B / M)的特徵。將傳統圖像排版組與智能系統組和正常對照組之間的臨床特徵通過Mann-Whitney U檢驗,卡方檢驗或Fisher精確檢驗進行比較。使用雙樣本Mann-Whitney U檢驗比較傳統排版組與智能佈局組和正常對照組之間的差異。Kappa統計用於衡量兩個評估者之間的一致性程度,即AI和人類專家。kappa值至少為0.75表示良好的一致性。 然而,我們認為較大的kappa值,例如0.90,是優選的。雙尾P值<0.05被認為具有統計學意義。

3、結果

3.1患者和圖像特徵

具有四種不同結節大小的病例及其特徵和演變表明隨訪的重要性(圖6a)。表1總結了用於訓練、驗證和獨立測試數據集的患者和結節的特徵。根據文獻,結節類型分為實性結節、鈣化結節和磨砂玻璃結節。工作流程圖的總體實驗設計如圖6b所示。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖6:應用人工智能技術對不同大小肺結節的檢測過程進行了演示,並給出了整個實驗設計的流程圖。

3.2 模型設計和性能評估

IILS系統的核心設計是深度學習模型,該模型分為兩個部分,Faster RCNN和ResNet。Faster RCNN主要負責肺結節的檢測和定位。Faster RCNN 還有助於將肺結節分為以下幾類:0-3 mm、3-6mm、6-0mm、10-30mm肺結節,實性結節、鈣化結節和磨砂玻璃結節(GGNs)。第二部分是ResNet,主要負責肺結節良惡性的分類。在第一部分中,關於特徵提取,我們使用了ResNet-50 中的層conv4_x作為輸出。在我們的嘗試中,ResNet-50中的層conv4_x在檢測中表現出最佳性能。在區域建議網絡(RPN)中,採用二元交叉熵作為分類損失函數,選取smooth L1損失函數作為迴歸損失函數。模型的訓練過程完善,曲線均達到收斂。該模型的訓練過程是完美的,所有曲線均達到收斂。RPN的訓練過程如圖7a-b所示,所有曲線收斂為零。這也表明我們的模型能夠很好地區分前景和背景,並提供了一個精確的前景邊界框。圖7c曲線也收斂到零,該曲線的收斂性表明,該模型能夠很好地區分7類肺結節。第二部分,我們用ResNet對結節良惡性進行了分類。為了獲得更準確的模型並避免梯度分散等問題,我們選擇了ResNet。在IILS系統中,ResNet顯現出了優異的分類性能。曲線的收斂代表了我們分類工作的成功;在模型精度方面,訓練和驗證曲線均接近100%(訓練過程為100%,驗證過程為97%)。在損失函數部分,曲線也顯示該模型在良惡性結節的分類上表現良好。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖7:檢測結節的訓練過程的性能。

3.3 IILS與人類專家對結節診斷效率的比較

我們評估了我們的模型檢測和分類最常見的肺結節。該模型檢測並分類具有不同等級良性和惡性腫瘤結節的圖像作為“原發性結節”。這些情況需要相對緊急的轉診到相關的呼吸內科醫生或胸外科醫生那裡進行最終治療。該系統將具有良性肺或假陽性結節的圖像分類,其具有成為惡性腫瘤的可能性低,“僅在可視化結構化報告中顯示”。在臨床工作中非常常見的微觀結節不適用於惡性腫瘤;因此,轉診給相關專家進行治療的緊迫性較小。

在這裡,我們試圖解釋人工智能與人類專家相比在檢測肺結節方面的優勢。在本研究中,我們採用了一種簡單直觀的方法,即對檢測到的結節與金標準篩選到的結節的一致性程度進行評估。以病理金標準為參照,分別採用Kappa一致性係數和Mann-Whitney U檢驗進行一致性分析。引人注目的是,除了AI之外,在所有成對比較中存在差異(AI為p=0.138,其他比較為p<0.001)。與人類專家相比,AI也可以與金標準檢測到的肺結節顯著一致,AI由於其最高的一致性係數而脫穎而出(AI kappa=0.94,其他比較p<0.001)。我們進一步比較了不同尺寸範圍內檢測到的結節的一致性,並證明無論結核大小範圍如何,AI都顯示出超出人類專家的金標準更有利的一致性。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖10:應用於五個不同製造商的成像設備時,AI在肺結節診斷一致性方面的表現。

3.4 IILS的交叉-設備適用性

既然AI已被證實在檢測結節方面優於人類專家,無論大小如何,有必要從另一個角度來判斷AI的適用性。基本上,AI的診斷取決於現有製造商生產的圖像;因此,評估不同製造商的圖像輸出對AI檢測到的結節的影響是合理的。為了在參考黃金標準的條件下探索AI對不同成像製造商的適應性,通過Mann-Whitney U檢驗和kappa一致性分析,進一步評價AI與金標準診斷不同廠家不同大小結節的一致性。總體而言,AI在五家制造商上配置良好,與黃金標準相比沒有差異(通用為p=0.576,飛利浦為p=0.472,西門子為p=0.988,東芝為p=0.376,聯影(UI)為p=0.343)。此外,實現了高一致性,kappa係數為0.87到0.99之間(圖10)。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖11 評估AI在識別良性或惡性病變中的表現

3.5 通過獨立數據驗證IILS在診斷方面優於人類專家的表現

使用284例病理結果患者的獨立數據進行比較,使用相同的數據集比較惡性肺結節和良性結節,以確定模型性能的準確性。我們推斷,我們最初的預測模型完全適用於臨床,因為其ROC下面積對於惡性肺結節相對於良性肺結節高達90.6%(圖11a)。在0.5的評分截斷下,124例預測為真陽性,1479例為真陰性。約有38例被標記為假陽性,181例為假陰性。敏感性76.5%,特異性89.1%(圖11b)。在另一組284例病理金標準患者中,模型和人類專家的預測性能在曲線上進行了比較,得出結論:人工智能在敏感性和特異性方面優於其他6名專家。此外,與人類專家相比,人工智能顯示出最高的準確性;正確預測248例(87.3%,預測為真陽性或真陰性的人數除以284),錯誤預測最少,36例(12.7%)。

3.6 自動自適應佈局工具的設計與評估

根據2018年NCCN指南的要求,我們與六位專家(三位放射科醫生和三位臨床醫生)進行了討論後,就良好的圖像佈局形式達成了最終共識。為了模擬醫學成像部門胸部CT掃描後的日常工作結果,我們設計了一種自動自適應佈局工具,可以生成“自動膠片佈局和肺結節結構報告”,以連接到CNN網絡的輸出。自動自適應佈局工具可以導出關鍵肺結節圖像(具有增加的惡性風險的結節)的膠片佈局並生成結構化報告。兩種膠片佈局都以固定格式使用(一部膠片上有5×8網格)。將180名患者的胸部CT圖像混合並連續輸入到IILS,以模擬來自不同製造商的圖像在日常工作中進入工作站的情況。評估了自適應佈局工具的特性以及是否可以成功布局。這180名患者的圖像總數為60660,包括縱隔12240例窗口圖像和48420張肺窗圖像。使用5點量表方法來最終判斷電子膠片的佈局。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

表2:用於評估佈局一致性和準確性的五點量表。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖12 五家制造商的IILS部署量化。

3.7 五點量表評估高質量的IILS

我們利用五點量表(表2)來評估IILS的質量。在所有類型的製造商中,只有少數幾個分數無法達到第四等級(圖12a)。正常佈局情況下沒有發現遺漏,然而,與正常對照組相比(p=0.04)(圖12b),患者在第四區的幾個病例中出現了漏診。我們還比較了從每個量表得分中得出的總分,總的來說,西門子在使用IILS時效果最好。總分顯示,與結節患者相比,IILS更適合無結節者(p=0.04)(圖12d)。

3.8 IILS與傳統工作站相比的優點:更少的時間,沒有無效的圖像和零遺漏

考慮到需要點擊時間,五個主要廠商設備佈局的平均點擊次數為14.45±0.34次。其中GE平均點擊量為14.37±0.89次,飛利浦為14.70±0.86次,西門子為14.57±0.87次,東芝為15.77±0.95次,UI為13.67±0.79次,IILS為2次(p<0.04)(圖13a)。在使用傳統工作站時,無論是患者還是無結節正常人,都需要比IILS更多的點擊量。IILS和傳統制造商在患者和正常人的圖像佈局沒有顯著差異。通過不同廠家工作站的250例患者(每個廠家50例)的佈局圖像,每個廠家50例患者所需時間分別為8分鐘(GE)、7.42分鐘(飛利浦)、8.87分鐘(西門子)、8.17分鐘(東芝)和8.63分鐘(UI)。傳統CT工作站的平均佈局時間為16.87秒/患者。相比之下,IILS需要大約6.92秒/患者。與使用其他製造商工作站的患者和無結節相比,使用IILS的時間顯著減少。正如我們所料,IILS在患者和正常病例中比傳統工作站更有效。有趣的是,IILS在無結節病例上花費的時間更少,而傳統工作站需要更長的時間。

另外,對於兩種佈局,我們比較了來自兩個不同佈局系統的無效圖像。我們隨機收集了來自三個製造商工作站的50個佈局結果,總共150個結果。在傳統的人工佈局下,GE、Philips、UI患者的無效圖像分別為8.10±0·42、6.92±0·39、6.15±0·41,IILS患者為0。我們評估了膠片每個網格中的肺區域是否適合每個尺寸。所有的專家都主觀地認為存在著顯著的差異。我們進一步研究兩種佈置方法和工作流程是否會導致肺結節檢測的遺漏。兩名放射科醫生被要求指出兩個胸部CT片和不同平臺上報告的結節的位置。根據報告的描述,我們共發現318個不匹配的結節,46.8%的患者未發現結節,約為0.97/例。此外,327例患者中63例漏診為GGN。

3.9 IILS完全可重現,防止人類測量的不穩定性

我們從幾個方面比較瞭如何正確顯示結節的結果。由於金標準的缺乏,我們評估了哪種標準更穩定或重現性更好。在這方面,總共選擇了8個肺結節,即4個不同尺寸的2個結節(尺寸<3mm,3-6mm,6-10mm,10-3cm)。隨後,兩名放射學家被要求通過工作站,在不同時期10次反覆測量這8個結節的大小和密度;IILS 的測量結果是100%可重複的,在多次測量中表現出完全的一致性,而由專家評估的測量則顯示出不同程度的波動。

3.10 人機耦合操作需要適應過程

我們模擬了放射科醫師的正常工作場景,其中要求兩名放射科醫師在兩小時內對284名患者中的儘可能多的患者做出判斷,使用傳統診斷或基於AI判斷的重新診斷,間隔時間為一個月。在使用AI判斷作為先驗信息後,在消耗時間、效率和絕對不匹配的結節方面有了顯著的改善(p<0.05)。具體來說,基於人工智能已有的判斷,兩位專家不僅減少了同一幅圖像的診斷時間,而且提高了單位時間內的診斷效率。檢測誤差也明顯減小。使用AI後,兩位專家的檢測靈敏度都得到了提高,但專家2的特異性從99.2%下降到60%。

"思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

在AI技術準確檢出肺部結節病灶的前提下,團隊開發了一套胸部CT排版系統,適合全自動或者半自動的影像學圖像的排版問題,可以將以往人工診斷到排版花費約2小時的工作時間,降低到約100秒完成。

作者 | 李雨晨

過去幾年,AI在醫學影像方面取得了諸多成果。在影像學科的臨床工作流程中,肺部病變的良、惡性鑑別診斷,已經成為AI創業公司爭先恐後湧入的賽道。但是,多數創業公司基本上是停留在後端的疾病診斷層面,在此之前的圖像採集、圖像呈現階段,其實都有文章可做。

近日,南京鼓樓醫院醫學影像科張冰團隊,在柳葉刀子刊EBiomedicine發表了一則AI醫療的新成果,直面影像科醫生工作流程前端的痛點問題。

該團隊選擇了一個全新的切入點——從臨床影像工作全流程角度出發,提出了一種基於深度學習的智能成像排版系統(IILS),系統包括AI肺結節檢測和分類和自適應排版工具,用於結節識別的成像報告標準化和工作流程優化。

成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。特別是當肺結節的直徑小於1 cm時,相應報告不能與排版結果100%匹配。

據瞭解,團隊提出的胸部CT排版工具,使用來自11205名患者的CT成像數據,可以適應全自動或者半自動的影像學圖像的排版問題。以往人工診斷到排版需要花費約2小時的時間,在這個工具的幫助下,時間可以降低到約100秒。

以下為論文詳細內容,由AI掘金志學術組編譯。關注AI掘金志公眾號,在對話框回覆關鍵詞“南京鼓樓”,即可獲取原文PDF下載鏈接。

1、引言

臨床任務的一個典型例子是,分類並生成與肺結節的診斷密切相關的胸部CT圖像的佈局。在篩查檢測和隨訪期間,目前的日常工作流程中仍存在五個問題。

1、成像報告標準化缺乏:由於沒有標準化、科學驗證的方法評估結節,試驗放射科醫師制定了診斷隨訪的指南,但沒有強制要求評估方法(圖1)。

2、缺失結節:如果幹激光膠片用作成像信息載體,則無法顯示與報告中的描述相對應的結節(圖2),這是一個常見問題。

3、缺少關鍵圖像:在從CT掃描儀獲取圖像之後,大量圖像不加選擇地輸入到PACS中。此外,許多臨床醫生對成像知識相對不熟悉,需要花費大量時間和精力來瀏覽這些缺乏關鍵信息的複雜圖像,更不用說使用智能手機或平板電腦來檢查這些圖像。而且,許多無效圖像經常出現在一系列圖像中(圖2)。因此,治療過程極其低效。

4、訪問來自其他醫院的圖像困難:如果患者需要他或她自己的圖像,圖像通常在光盤(CD)上刻錄或通過便攜式硬盤驅動器傳輸。然而,許多現代計算機沒有配備CD驅動器或醫院禁止使用計算機的通用串行總線(USB)接口。因此,患者在不同醫院都要進行掃描成像。

5、 缺乏對臨床醫生和患者需求的考慮(圖2):作為放射科醫師,幫助他人更容易閱讀和理解成像結果的機會尚未得到充分利用。因此,迫切需要具有關鍵圖像的電子報告和可視化結構化報告來解決這些問題。

當前,AI的應用似乎忽略了兩個事實。首先,高質量的標準化圖像是人工智能開發的基礎,其次,AI可以接管簡單和重複的工作。

在這項研究中,我們尋求開發基於人工智能技術和自適應佈局工具融合的智能成像排版系統(IILS),以建立日常工作的新流程,併為放射科醫生和臨床醫生提供標準化圖像和報告。同時,我們從三個方面評估IILS的綜合實力,包括i)IILS與臨床專家之間結節診斷效率的比較; ii)IILS可以優化臨床工作流程的程度;iii)IILS的交叉製造適用性(cross-manufacture applicability)。

總之,我們認為AI技術可以通過串聯連接集成到放射學工作流中,而不是基於簡單的並行關係來遵循傳統的工作流程。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖2.當前的手工選片過程和日常工作中的相關問題。例如,成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。相應報告不能與排版結果100%匹配,特別是當肺結節的直徑小於1cm時。 以GE的CT掃描方法為例,在日常工作中使用手動圖像排版時,通常會忽略6(層)×1·25 mm(厚度)= 7·5 mm範圍內的肺組織。因此,當醫生獲得最終的圖像時會遇到以下問題:缺乏成像報告標準化、缺失結節、缺乏關鍵圖像以及缺乏對臨床醫生和患者需求的考慮。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖3. IILS的組成以及如何將其整合到當前的成像過程中。新的IILS包括以下部分:一個是AI肺結節檢測和分類,另一個是自適應排版工具,包括我們團隊發明的自動排版和可視化結構化報告生成。為了確保圖像質量和結果,我們有一位放射科醫生,他通常負責編寫報告,仔細檢查自動生成的結構化報告和圖像排版結果。成像部門日常工作的整個過程包括以下關鍵步驟:i)獲取:從不同臨床科室的患者收集圖像信息; ii)排版:包括日常工作的手動排版和圖像管理; iii)診斷:放射科醫師的圖像診斷,預測和評估。新型智能系統的應用通過串聯而非並聯連接集成到放射工作流中。

2、材料與方法

2.1 實驗軟件和硬件

本文中的模型均在DGX1平臺上進行訓練。(NVIDIA DGX1 system, 8× Tesla V100 GPUs, 128 GB total system GPUMemory, dual 20-core Intel Xeon E5–2698 CPU v4 2.2 GHz, SantaClara, California, USA)

2.2 實驗模型和項目細節

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖4:數據流圖顯示了我們檢測結節和分類良性或惡性病例的方法。本研究採用的數據是從2016年10月到2018年11月,從五個主要的不同CT製造商處獲得的11205名患者、共3527048張胸部CT掃描圖像。

訓練過程分為兩部分,分別由兩個訓練隊列組成。通過卷積神經網絡(CNN)獲得兩個模型,通過5折交叉驗證進行性能評估,然後合併形成IILS的第一層,即用於檢測結節和分類病例的篩選部分。我們將最終的兩個模型部署到包含1965個病例的獨立隊列中,通過六位臨床專家對結節數量的一致性分析,以顯示我們IILS的可信度。

八名有3到25年胸部CT經驗的專家作為檢查員參加了會議。為了在臨床專家的背景下評估我們的卷積神經網絡,我們使用1965名患者的獨立測試集來比較我們的網絡決策和人類專家的決策。隨機選擇作為受試者的1965名患者進行讀者間和讀者間再現性研究。

所有肺結節的數量的確定、良性和惡性結節的判斷由六位專家檢查兩次,間隔為1個月,以最小化記憶偏差。所有決策均由六位專家做出,用於讀者間的再現性分析。加權誤差評分用於反映假陰性結果(未做出決定)比假陽性結果更有害。使用這些加權懲罰點、計算模型和每個人類專家的錯誤率。

即使患者有較大的病變,我們也僅包括小於30 mm的結節,其大小相當於約30 mm的平均直徑,因為肺結節的定義是直徑小於3cm的病變。我們納入了疑似轉移的結節以及可能具有良性組織學特徵的結節。然而,排除了粟粒性結核、間質病變、結節病和重症肺炎。

以下參數用於評估結節特徵和圖像質量對觀察者一致性的影響:總結節大小(最大直徑,毫米)、結節類型、良性或惡性以及肺實質內結節的密度。從數據庫中提取參數結節大小、良性或惡性和類型。結節的密度由沒有參與閱讀過程的專家(H.Y 和H.W)測量。將兩個約1cm的感興趣區域放置在結節中的兩個均勻區域中,並且兩次測量中平均的Hounsfield units標準偏差是密度的度量。

2.3 病人分類

訓練過程中的用例隨機分為訓練集80%和驗證集20%(圖4)。訓練集用於訓練算法,驗證集用於模型選擇,測試集用於評估最終選擇的模型。在確定百分比分割時,目標是為算法保留足夠的數據以進行訓練,但是具有足夠的驗證和測試用例以保持模型準確性的合理置信區間。 該數據集代表了在參與診所提供和接受治療的最常見的實性、鈣化或磨玻璃結節患者。

2.4 圖像標註

在訓練之前,每個圖像都經過分層分級系統,該系統由多級訓練有素的評分者組成,他們具有逐級遞增的專業知識,可用於圖像標籤的驗證和校正。導入數據庫的每個圖像都與患者最近診斷的標籤相匹配。第一級評分員包括具有呼吸系統和成像基礎知識的成員。這一級評分員進行了初步的質量控制,並排除了包含嚴重偽影或顯著降低圖像分辨率的胸部CT圖像。第二級評分員由兩位專家組成,他們對通過第一級的每張圖像進行獨立評分。記錄胸部CT圖像上是否存在實性,鈣化或磨玻璃結節和其他可見的病變。最後,第二層由兩名高級呼吸和成像專家組成,每位專家擁有超過15年的臨床呼吸和成像經驗,獨立驗證每張圖像的真實標籤。所有圖像的驗證子集由兩名專家分別評分,不一致的臨床標籤由由高級專家仲裁,以解釋評分中的人為錯誤。

2.5 軟件支持

軟件系統的開發在Linux Ubuntu 18.04環境下進行。Pycharm 和 VS Code用作開發的IDE。Chrome調試器用於測試和調試UI / UX。 軟件的實現細節是保密的,以下部分主要描述了實現的設計和邏輯。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖5:排版示例加上可視化結構報告以及與傳統排版和報告的比較。

(a)使用IILS選擇後的新圖像排版。新的排版圖像被分為三個部分(兩個紅框的區域,代表關鍵圖像所在的區域)。顯然,與(c)相比沒有無效圖像(標有橙色下劃線)。排版第一部分開頭的五個小框依次顯示:1)肺窗條件下結節的最大橫截面切片的圖像(WW:1500; WL:-500),2)具有長徑和短徑測量數據的圖像,3)縱隔窗口條件下的結節圖像(WW:350,WL:50),4)結節的冠狀圖像重建,5)結節的矢狀圖像重建。第二部分是在縱隔窗口條件下每層間隔的一組圖像。最後一部分是一組薄層肺組織圖像,大約分為六層。另一個便利是,片子上任一單元格中的每個圖像都可以通過其切片ID進行跟蹤,並通過雙擊它來重定向到圖像集中的原始位置。還自動生成與片子相關的可視化結構報告。有關詳細信息,請參見視頻2。

(b):如果患者沒有肺結節,IILS給出的排版和報告將與傳統系統給出的相似。

(c):使用傳統的手工排版形式,表格分為兩部分。 前部包括縱隔組織圖像,後部是肺組織圖像。 傳統排版格式的主要問題是缺少關鍵圖像,各種無效圖像(一些帶橙色下劃線的圖像),以及缺少鏈接功能。 相關報告填充了文本,沒有生成結構化報告。

2.6 自動排版

通過將固定輸出過程分成以下子任務來執行自動排版:1,驗證; 2,輸出。在驗證任務中,我們的程序首先處理最重要的結節,生成五個放大的輸出圖像,聚焦在結節上,同時突出顯示矩形,標明肺窗形式的結節位置,長徑測量,縱隔窗 和兩個方向透視。 五個輸出圖像放置在第一行,然後是30個縱隔窗口圖像,其餘的為肺窗口。 具體而言,第一部分五個網格是單個結節的自動排版,具有最高的惡性概率風險,這可由AI預測。 五張圖片也可以由放射科醫師驗證和覆蓋。 自適應排版工具的輸出包括兩個電子排片和一個由四組圖像組成的結構化報告。

與傳統報告的比較,IILS提供了以下信息:i)基本信息顯示:患者信息,檢查信息,放射科醫師信息等。ii)結果(來自AI預測和放射科醫師的雙重確認):標準化描述肺結節圖像,包括結節位置,形態和密度,圖像信息的層數,結節長徑,體積,平均CT值,以及結節的惡性概率。此外,我們為放射科醫師預留了足夠的空間,可以為其他病變編寫定期報告。 iii)診斷感想:由放射科醫師撰寫的診斷建議。肺部全部範圍的適應性是主要關注點,其意味著五個圖像是否附在第一組,即 一組顯示結節的五種形式圖像具有最高的AI預測得分為惡性,符合我們的預設的將受到高度重視。驗證後,可以將排片導出為可打印格式,以便為放射科醫師和患者提供可視化信息,同時自動生成結構報告。

我們還推斷一個好的排版系統主要包括以下三個主要內容:1)任何可靠,客觀的測量數據的所有關鍵圖像; 2)顯示腫瘤特徵的一系列圖像,包括形狀,數量,密度,大小,增強,多角度觀察和後續比較; 3)胸部縱隔窗和肺窗圖像連續顯示(圖5a-b)。 此外,我們手工顯示當前排版形式的圖片,這在日常工作中作為比較非常普遍(圖5c)。

2.7 結構化報告

結構化報告生成程序旨在完成常見CT掃描場景中的完整工作流程(補充圖S2)。與傳統報告的比較,我們計劃為放射科醫師和患者提供圖像和結果的可視化。該計劃主要通過以下三個步驟進行:1,收集資源;2,渲染圖像;3,輸出。我們現在將詳細描述每個步驟。為了收集資源,我們需要在我們的程序中加載多個資源,包括DICOM圖像集、AI預測結節、患者/醫院信息,以及捕獲放射科醫師的結果和診斷感想。收集必要的資源後,我們繼續進行渲染部分。該程序將首先根據其重要性對結節進行排序(由AI定義,但可以由操作員覆蓋),然後在相應的圖像上使用矩形框渲染每個結節。該程序還放大了圖像並設置其中心,重點放在結節本身。渲染和轉換後,將觸發特殊事件偵聽器以通知程序捕獲渲染數據。最後,程序生成預定義的可打印輸出。

2.8 定量和統計分析

ROC曲線繪製了真陽性率(TPR,靈敏度)與假陽性率(1- 特異度)的關係曲線。通過將正確標記的惡性結節的總數和正確標記的良性結節的總數分別除以測試圖像的結節總數來確定靈敏度和特異度。連續變量被描述為平均值±標準誤差(SEM),並且分類變量被表示為諸如良性/惡性(B / M)的特徵。將傳統圖像排版組與智能系統組和正常對照組之間的臨床特徵通過Mann-Whitney U檢驗,卡方檢驗或Fisher精確檢驗進行比較。使用雙樣本Mann-Whitney U檢驗比較傳統排版組與智能佈局組和正常對照組之間的差異。Kappa統計用於衡量兩個評估者之間的一致性程度,即AI和人類專家。kappa值至少為0.75表示良好的一致性。 然而,我們認為較大的kappa值,例如0.90,是優選的。雙尾P值<0.05被認為具有統計學意義。

3、結果

3.1患者和圖像特徵

具有四種不同結節大小的病例及其特徵和演變表明隨訪的重要性(圖6a)。表1總結了用於訓練、驗證和獨立測試數據集的患者和結節的特徵。根據文獻,結節類型分為實性結節、鈣化結節和磨砂玻璃結節。工作流程圖的總體實驗設計如圖6b所示。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖6:應用人工智能技術對不同大小肺結節的檢測過程進行了演示,並給出了整個實驗設計的流程圖。

3.2 模型設計和性能評估

IILS系統的核心設計是深度學習模型,該模型分為兩個部分,Faster RCNN和ResNet。Faster RCNN主要負責肺結節的檢測和定位。Faster RCNN 還有助於將肺結節分為以下幾類:0-3 mm、3-6mm、6-0mm、10-30mm肺結節,實性結節、鈣化結節和磨砂玻璃結節(GGNs)。第二部分是ResNet,主要負責肺結節良惡性的分類。在第一部分中,關於特徵提取,我們使用了ResNet-50 中的層conv4_x作為輸出。在我們的嘗試中,ResNet-50中的層conv4_x在檢測中表現出最佳性能。在區域建議網絡(RPN)中,採用二元交叉熵作為分類損失函數,選取smooth L1損失函數作為迴歸損失函數。模型的訓練過程完善,曲線均達到收斂。該模型的訓練過程是完美的,所有曲線均達到收斂。RPN的訓練過程如圖7a-b所示,所有曲線收斂為零。這也表明我們的模型能夠很好地區分前景和背景,並提供了一個精確的前景邊界框。圖7c曲線也收斂到零,該曲線的收斂性表明,該模型能夠很好地區分7類肺結節。第二部分,我們用ResNet對結節良惡性進行了分類。為了獲得更準確的模型並避免梯度分散等問題,我們選擇了ResNet。在IILS系統中,ResNet顯現出了優異的分類性能。曲線的收斂代表了我們分類工作的成功;在模型精度方面,訓練和驗證曲線均接近100%(訓練過程為100%,驗證過程為97%)。在損失函數部分,曲線也顯示該模型在良惡性結節的分類上表現良好。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖7:檢測結節的訓練過程的性能。

3.3 IILS與人類專家對結節診斷效率的比較

我們評估了我們的模型檢測和分類最常見的肺結節。該模型檢測並分類具有不同等級良性和惡性腫瘤結節的圖像作為“原發性結節”。這些情況需要相對緊急的轉診到相關的呼吸內科醫生或胸外科醫生那裡進行最終治療。該系統將具有良性肺或假陽性結節的圖像分類,其具有成為惡性腫瘤的可能性低,“僅在可視化結構化報告中顯示”。在臨床工作中非常常見的微觀結節不適用於惡性腫瘤;因此,轉診給相關專家進行治療的緊迫性較小。

在這裡,我們試圖解釋人工智能與人類專家相比在檢測肺結節方面的優勢。在本研究中,我們採用了一種簡單直觀的方法,即對檢測到的結節與金標準篩選到的結節的一致性程度進行評估。以病理金標準為參照,分別採用Kappa一致性係數和Mann-Whitney U檢驗進行一致性分析。引人注目的是,除了AI之外,在所有成對比較中存在差異(AI為p=0.138,其他比較為p<0.001)。與人類專家相比,AI也可以與金標準檢測到的肺結節顯著一致,AI由於其最高的一致性係數而脫穎而出(AI kappa=0.94,其他比較p<0.001)。我們進一步比較了不同尺寸範圍內檢測到的結節的一致性,並證明無論結核大小範圍如何,AI都顯示出超出人類專家的金標準更有利的一致性。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖10:應用於五個不同製造商的成像設備時,AI在肺結節診斷一致性方面的表現。

3.4 IILS的交叉-設備適用性

既然AI已被證實在檢測結節方面優於人類專家,無論大小如何,有必要從另一個角度來判斷AI的適用性。基本上,AI的診斷取決於現有製造商生產的圖像;因此,評估不同製造商的圖像輸出對AI檢測到的結節的影響是合理的。為了在參考黃金標準的條件下探索AI對不同成像製造商的適應性,通過Mann-Whitney U檢驗和kappa一致性分析,進一步評價AI與金標準診斷不同廠家不同大小結節的一致性。總體而言,AI在五家制造商上配置良好,與黃金標準相比沒有差異(通用為p=0.576,飛利浦為p=0.472,西門子為p=0.988,東芝為p=0.376,聯影(UI)為p=0.343)。此外,實現了高一致性,kappa係數為0.87到0.99之間(圖10)。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖11 評估AI在識別良性或惡性病變中的表現

3.5 通過獨立數據驗證IILS在診斷方面優於人類專家的表現

使用284例病理結果患者的獨立數據進行比較,使用相同的數據集比較惡性肺結節和良性結節,以確定模型性能的準確性。我們推斷,我們最初的預測模型完全適用於臨床,因為其ROC下面積對於惡性肺結節相對於良性肺結節高達90.6%(圖11a)。在0.5的評分截斷下,124例預測為真陽性,1479例為真陰性。約有38例被標記為假陽性,181例為假陰性。敏感性76.5%,特異性89.1%(圖11b)。在另一組284例病理金標準患者中,模型和人類專家的預測性能在曲線上進行了比較,得出結論:人工智能在敏感性和特異性方面優於其他6名專家。此外,與人類專家相比,人工智能顯示出最高的準確性;正確預測248例(87.3%,預測為真陽性或真陰性的人數除以284),錯誤預測最少,36例(12.7%)。

3.6 自動自適應佈局工具的設計與評估

根據2018年NCCN指南的要求,我們與六位專家(三位放射科醫生和三位臨床醫生)進行了討論後,就良好的圖像佈局形式達成了最終共識。為了模擬醫學成像部門胸部CT掃描後的日常工作結果,我們設計了一種自動自適應佈局工具,可以生成“自動膠片佈局和肺結節結構報告”,以連接到CNN網絡的輸出。自動自適應佈局工具可以導出關鍵肺結節圖像(具有增加的惡性風險的結節)的膠片佈局並生成結構化報告。兩種膠片佈局都以固定格式使用(一部膠片上有5×8網格)。將180名患者的胸部CT圖像混合並連續輸入到IILS,以模擬來自不同製造商的圖像在日常工作中進入工作站的情況。評估了自適應佈局工具的特性以及是否可以成功布局。這180名患者的圖像總數為60660,包括縱隔12240例窗口圖像和48420張肺窗圖像。使用5點量表方法來最終判斷電子膠片的佈局。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

表2:用於評估佈局一致性和準確性的五點量表。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖12 五家制造商的IILS部署量化。

3.7 五點量表評估高質量的IILS

我們利用五點量表(表2)來評估IILS的質量。在所有類型的製造商中,只有少數幾個分數無法達到第四等級(圖12a)。正常佈局情況下沒有發現遺漏,然而,與正常對照組相比(p=0.04)(圖12b),患者在第四區的幾個病例中出現了漏診。我們還比較了從每個量表得分中得出的總分,總的來說,西門子在使用IILS時效果最好。總分顯示,與結節患者相比,IILS更適合無結節者(p=0.04)(圖12d)。

3.8 IILS與傳統工作站相比的優點:更少的時間,沒有無效的圖像和零遺漏

考慮到需要點擊時間,五個主要廠商設備佈局的平均點擊次數為14.45±0.34次。其中GE平均點擊量為14.37±0.89次,飛利浦為14.70±0.86次,西門子為14.57±0.87次,東芝為15.77±0.95次,UI為13.67±0.79次,IILS為2次(p<0.04)(圖13a)。在使用傳統工作站時,無論是患者還是無結節正常人,都需要比IILS更多的點擊量。IILS和傳統制造商在患者和正常人的圖像佈局沒有顯著差異。通過不同廠家工作站的250例患者(每個廠家50例)的佈局圖像,每個廠家50例患者所需時間分別為8分鐘(GE)、7.42分鐘(飛利浦)、8.87分鐘(西門子)、8.17分鐘(東芝)和8.63分鐘(UI)。傳統CT工作站的平均佈局時間為16.87秒/患者。相比之下,IILS需要大約6.92秒/患者。與使用其他製造商工作站的患者和無結節相比,使用IILS的時間顯著減少。正如我們所料,IILS在患者和正常病例中比傳統工作站更有效。有趣的是,IILS在無結節病例上花費的時間更少,而傳統工作站需要更長的時間。

另外,對於兩種佈局,我們比較了來自兩個不同佈局系統的無效圖像。我們隨機收集了來自三個製造商工作站的50個佈局結果,總共150個結果。在傳統的人工佈局下,GE、Philips、UI患者的無效圖像分別為8.10±0·42、6.92±0·39、6.15±0·41,IILS患者為0。我們評估了膠片每個網格中的肺區域是否適合每個尺寸。所有的專家都主觀地認為存在著顯著的差異。我們進一步研究兩種佈置方法和工作流程是否會導致肺結節檢測的遺漏。兩名放射科醫生被要求指出兩個胸部CT片和不同平臺上報告的結節的位置。根據報告的描述,我們共發現318個不匹配的結節,46.8%的患者未發現結節,約為0.97/例。此外,327例患者中63例漏診為GGN。

3.9 IILS完全可重現,防止人類測量的不穩定性

我們從幾個方面比較瞭如何正確顯示結節的結果。由於金標準的缺乏,我們評估了哪種標準更穩定或重現性更好。在這方面,總共選擇了8個肺結節,即4個不同尺寸的2個結節(尺寸<3mm,3-6mm,6-10mm,10-3cm)。隨後,兩名放射學家被要求通過工作站,在不同時期10次反覆測量這8個結節的大小和密度;IILS 的測量結果是100%可重複的,在多次測量中表現出完全的一致性,而由專家評估的測量則顯示出不同程度的波動。

3.10 人機耦合操作需要適應過程

我們模擬了放射科醫師的正常工作場景,其中要求兩名放射科醫師在兩小時內對284名患者中的儘可能多的患者做出判斷,使用傳統診斷或基於AI判斷的重新診斷,間隔時間為一個月。在使用AI判斷作為先驗信息後,在消耗時間、效率和絕對不匹配的結節方面有了顯著的改善(p<0.05)。具體來說,基於人工智能已有的判斷,兩位專家不僅減少了同一幅圖像的診斷時間,而且提高了單位時間內的診斷效率。檢測誤差也明顯減小。使用AI後,兩位專家的檢測靈敏度都得到了提高,但專家2的特異性從99.2%下降到60%。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

表3:用於評定不同類型圖像佈局組合的五點標度。

3.11 專家和患者的滿意度都顯示出IILS的友好性

六位對原先結果不知情的專家評估了傳統系統和IILS的結果。我們建立了一個5點評分機制,用於評估由兩種不同佈局系統生成的佈局電子膠片和報告(表3)。專家對IILS進行了明顯更好的評價,所有5點中的3到4點高於傳統方法(p=7.674e-23)。相比之下,患者評分更加極端,表明報告的友好性非常重要(p=8.164e-25)。

3.12 IILS在LUNA16和LIDC/IDRI基準上的性能評價

IILS的性能在兩個基準數據庫上進行了評估,即LUNA16和LIDC/IDRI。Luna16(https://luna16.grand-challenge.org/)共888次CT掃描,最終得分為0.696(排名18)。我們在LIDC / IDRI 數據庫上進一步測試了我們的IILS ( https://wiki.CurraseIfgIsActuv.NET/DISPLAY/PARIS/LIDC-IDRI )有1018次CT 掃描,其包含更多的切片厚度類型並且更類似於真實的臨床環境。對於大於3mm的結節,模型的召回率為88.75%,每例掃描的假陽性率為5.22。

4、討論

在本研究中,通過創建和部署深度神經網絡算法,在有限的人類干涉下,我們的IILS模型展示了胸部CT圖像分析的競爭性性能。此外,機器學習技術用於圖像分析的功效可能超出了胸部CT圖像的範圍—原則上,通過AI和佈局學習的技術可能潛在地用於多個學科的各種醫學圖像。

IILS的一個主要特點是幾乎實時地檢測肺部結節。這種實時性能是由於系統中的Faster RCNN模型。IILS的性能在很大程度上取決於通過訓練模型檢測和分類結節的準確性。雖然與金標準達成了很高的一致性,將AI應用於UI在檢測小結節方面仍存在顯著差異,這可能是由於參加模型訓練的樣本量小(結節數量,n=1119)造成的。

經證實,在檢出結節數量和判斷良惡性方面,IILS優於6名專家。根據目前構建的模型,獲得的ROC曲線下面積達90.6%,具有一定的臨床應用價值。經過嚴格的統計檢驗,在結節檢出量和良惡性判斷方面,IILS優於6名人類專家。補充表S6顯示了一些相關工作和比較結果。相比之下,實驗數據和CNN結構的結果都取得了一定的進展,使我們對IILS的模型性能穩定、可靠和高效充滿了希望。

IILS旨在用於日常實際工作中準確檢測和分類結節,並標準化胸部CT圖像和報告。這種佈局的優點是簡化了醫生仔細翻看圖像,找到有關鍵圖像的肺結節的過程。為優化IILS,我們評估了其在佈局部件中的性能。憑藉AI接近100%的成功率,整個多平面重建程序設計可以自動完成。多平面重建對臨床醫生從多個角度觀察肺結節,做出最終診斷,評估和跟蹤肺結節至關重要。

IILS與傳統佈局系統之間存在十四個差異。其中,內容分為三個部分。第一部分側重於使運營商受益。IILS可能有機會降低成本,包括提高CT利用效率,替代低成本資源甚至取代某些業務。第二部分包括第四至第十一點的內容,這些差異主要集中在最終產出的差異,兩種電子膠片加上兩種不同系統產生的一種相應的報告。儘管IILS製作的電子膠片佈局是從傳統方式的兩個部分演變為三個部分,其中前五個小網格僅用於顯示在不同呈現形式下具有最高惡性風險的一個結節,這將有助於IILS比傳統方法更經常地獲得有效圖像,從而提高了效率。

此外,還出現了一個有趣的現象。驗證在我們的自適應工具的表現中,我們從臨床醫學報告的結果中隨機選擇了來自對照組的327例病例,這些病例報道沒有肺結節。然而,在重新測試的過程中,我們發現在153例(46.8%)中實際錯過了318個結節。錯過的結節主要集中在3-6毫米而不是<3毫米的,主要類型的缺失結節是鈣化結節而不是磨砂玻璃結節。這個問題的可能原因是,在傳統的母語中,鈣化結節可能被“舊病變”所取代,而“磨玻璃結節”則沒有同義詞。

第六點為多維結節;根據基線和隨訪CT的結節直徑和時間間隔的差異可以觀察和估計結節的大小在這兩種掃描之間,腫瘤呈均勻的三維生長。然而,由於繁重的體力勞動,無法對關鍵的肺結節進行三維重建。因此,我們增加了一種自動多維觀察方法,以最大限度地減少誤診率。

第三部分包括第十二至第十四點的內容,比較了IILS和傳統工作站對所有醫生和病人的影響。我們的研究結果表明,所有醫生和患者對IILS的輸出感到滿意。然而,在以經驗為導向的閱讀習慣方面,人工智能在人類專家中的有效性仍然存在差異。在我們的研究中,一名資深放射科醫生(專家1)似乎對人工智能預測肺結節的信心較低,即使IILS做出了判斷,也會仔細遵循閱讀習慣瀏覽圖像。應用人工智能前後,在效率、消耗時間、結節絕對不匹配等方面均有顯著差異。有趣的是,在敏感性和特異性方面沒有發現明顯的改善。相比之下,初級放射科醫生(專家2)似乎在很大程度上信任人工智能。我們推測,人機耦合操作可能仍然需要一個適應過程。

雖然結果很有希望,但我們的研究有一些侷限性。在這項試驗研究中,脊柱側凸患者、原發性或繼發性胸部畸形患者和接受胸外科手術的患者的圖像不包括在訓練和測試集中。因此,需要進一步的臨床收集和測試來評估各種形式的胸腔的臨床準確性。由於胸廓畸形的發生率相對較低,這種影響不會影響我們的總體結論。臨床試驗研究在兩年內進行,IILS正常運作六個月。但是,需要對新系統進行進一步評估,以評估長期準確性和穩定性。

此外,IILS僅限於解決成人肺結節的CT圖像問題,而不是嬰兒,由於嬰兒很少出現肺結節。在各種環境條件下還需要進行更多測試,例如,在極冷,炎熱,乾燥和潮溼的環境中進行測試。還需要測試具有一些噪聲的圖像以評估系統的穩健性。事實上,圖像不完整的患者被納入系統,最終導致異常。因此,在處理特殊圖像,例如不完整圖像,空白圖像或不正確圖像時,當前系統仍有改進的空間,可以引入諸如完整性掃描和灰度確認之類的算法。另外,目前,IILS只能在胸部進行。未來的工作可能包括將設備應用於身體其他部位的圖像。

總之,IILS的性能優於傳統系統,並提供了一種比現有技術更經濟、設計更合適的替代方法,以優化肺部結節的CT佈局,節省費用和提高效率。由於基於自動AI的標準化電子膠片和可視化結構化報告生成,可能會在日常工作流程中建立一個新的標準和一個新的放射學工作流程,並且不需要一些相關的操作員。

為了提供一個可以引用的基準,我們在兩個基準數據庫上評估了我們的IILS的性能。正如預期的那樣,我們得到了相對較高水平的假陽性,特別是LUNA16,因為在預測中,小尺寸的結節被視為假陽性。我們認為,設計的最優診斷模型通常是針對特定群體的,因為我們採用的所有訓練圖像都來自中國,而LUNA16數據庫收集的數據集僅從美國中收集,且沒有任何<3mm結節的標籤。

綜合而言,IILS提供了一種簡單、準確的方法來檢測、分類和佈局肺結節的CT圖像,以提高對中國人群的診斷。因此,IILS為人工智能的臨床應用打開了新的窗口,可能是改善全球醫療質量不平衡的有效途徑。

"思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

在AI技術準確檢出肺部結節病灶的前提下,團隊開發了一套胸部CT排版系統,適合全自動或者半自動的影像學圖像的排版問題,可以將以往人工診斷到排版花費約2小時的工作時間,降低到約100秒完成。

作者 | 李雨晨

過去幾年,AI在醫學影像方面取得了諸多成果。在影像學科的臨床工作流程中,肺部病變的良、惡性鑑別診斷,已經成為AI創業公司爭先恐後湧入的賽道。但是,多數創業公司基本上是停留在後端的疾病診斷層面,在此之前的圖像採集、圖像呈現階段,其實都有文章可做。

近日,南京鼓樓醫院醫學影像科張冰團隊,在柳葉刀子刊EBiomedicine發表了一則AI醫療的新成果,直面影像科醫生工作流程前端的痛點問題。

該團隊選擇了一個全新的切入點——從臨床影像工作全流程角度出發,提出了一種基於深度學習的智能成像排版系統(IILS),系統包括AI肺結節檢測和分類和自適應排版工具,用於結節識別的成像報告標準化和工作流程優化。

成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。特別是當肺結節的直徑小於1 cm時,相應報告不能與排版結果100%匹配。

據瞭解,團隊提出的胸部CT排版工具,使用來自11205名患者的CT成像數據,可以適應全自動或者半自動的影像學圖像的排版問題。以往人工診斷到排版需要花費約2小時的時間,在這個工具的幫助下,時間可以降低到約100秒。

以下為論文詳細內容,由AI掘金志學術組編譯。關注AI掘金志公眾號,在對話框回覆關鍵詞“南京鼓樓”,即可獲取原文PDF下載鏈接。

1、引言

臨床任務的一個典型例子是,分類並生成與肺結節的診斷密切相關的胸部CT圖像的佈局。在篩查檢測和隨訪期間,目前的日常工作流程中仍存在五個問題。

1、成像報告標準化缺乏:由於沒有標準化、科學驗證的方法評估結節,試驗放射科醫師制定了診斷隨訪的指南,但沒有強制要求評估方法(圖1)。

2、缺失結節:如果幹激光膠片用作成像信息載體,則無法顯示與報告中的描述相對應的結節(圖2),這是一個常見問題。

3、缺少關鍵圖像:在從CT掃描儀獲取圖像之後,大量圖像不加選擇地輸入到PACS中。此外,許多臨床醫生對成像知識相對不熟悉,需要花費大量時間和精力來瀏覽這些缺乏關鍵信息的複雜圖像,更不用說使用智能手機或平板電腦來檢查這些圖像。而且,許多無效圖像經常出現在一系列圖像中(圖2)。因此,治療過程極其低效。

4、訪問來自其他醫院的圖像困難:如果患者需要他或她自己的圖像,圖像通常在光盤(CD)上刻錄或通過便攜式硬盤驅動器傳輸。然而,許多現代計算機沒有配備CD驅動器或醫院禁止使用計算機的通用串行總線(USB)接口。因此,患者在不同醫院都要進行掃描成像。

5、 缺乏對臨床醫生和患者需求的考慮(圖2):作為放射科醫師,幫助他人更容易閱讀和理解成像結果的機會尚未得到充分利用。因此,迫切需要具有關鍵圖像的電子報告和可視化結構化報告來解決這些問題。

當前,AI的應用似乎忽略了兩個事實。首先,高質量的標準化圖像是人工智能開發的基礎,其次,AI可以接管簡單和重複的工作。

在這項研究中,我們尋求開發基於人工智能技術和自適應佈局工具融合的智能成像排版系統(IILS),以建立日常工作的新流程,併為放射科醫生和臨床醫生提供標準化圖像和報告。同時,我們從三個方面評估IILS的綜合實力,包括i)IILS與臨床專家之間結節診斷效率的比較; ii)IILS可以優化臨床工作流程的程度;iii)IILS的交叉製造適用性(cross-manufacture applicability)。

總之,我們認為AI技術可以通過串聯連接集成到放射學工作流中,而不是基於簡單的並行關係來遵循傳統的工作流程。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖2.當前的手工選片過程和日常工作中的相關問題。例如,成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。相應報告不能與排版結果100%匹配,特別是當肺結節的直徑小於1cm時。 以GE的CT掃描方法為例,在日常工作中使用手動圖像排版時,通常會忽略6(層)×1·25 mm(厚度)= 7·5 mm範圍內的肺組織。因此,當醫生獲得最終的圖像時會遇到以下問題:缺乏成像報告標準化、缺失結節、缺乏關鍵圖像以及缺乏對臨床醫生和患者需求的考慮。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖3. IILS的組成以及如何將其整合到當前的成像過程中。新的IILS包括以下部分:一個是AI肺結節檢測和分類,另一個是自適應排版工具,包括我們團隊發明的自動排版和可視化結構化報告生成。為了確保圖像質量和結果,我們有一位放射科醫生,他通常負責編寫報告,仔細檢查自動生成的結構化報告和圖像排版結果。成像部門日常工作的整個過程包括以下關鍵步驟:i)獲取:從不同臨床科室的患者收集圖像信息; ii)排版:包括日常工作的手動排版和圖像管理; iii)診斷:放射科醫師的圖像診斷,預測和評估。新型智能系統的應用通過串聯而非並聯連接集成到放射工作流中。

2、材料與方法

2.1 實驗軟件和硬件

本文中的模型均在DGX1平臺上進行訓練。(NVIDIA DGX1 system, 8× Tesla V100 GPUs, 128 GB total system GPUMemory, dual 20-core Intel Xeon E5–2698 CPU v4 2.2 GHz, SantaClara, California, USA)

2.2 實驗模型和項目細節

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖4:數據流圖顯示了我們檢測結節和分類良性或惡性病例的方法。本研究採用的數據是從2016年10月到2018年11月,從五個主要的不同CT製造商處獲得的11205名患者、共3527048張胸部CT掃描圖像。

訓練過程分為兩部分,分別由兩個訓練隊列組成。通過卷積神經網絡(CNN)獲得兩個模型,通過5折交叉驗證進行性能評估,然後合併形成IILS的第一層,即用於檢測結節和分類病例的篩選部分。我們將最終的兩個模型部署到包含1965個病例的獨立隊列中,通過六位臨床專家對結節數量的一致性分析,以顯示我們IILS的可信度。

八名有3到25年胸部CT經驗的專家作為檢查員參加了會議。為了在臨床專家的背景下評估我們的卷積神經網絡,我們使用1965名患者的獨立測試集來比較我們的網絡決策和人類專家的決策。隨機選擇作為受試者的1965名患者進行讀者間和讀者間再現性研究。

所有肺結節的數量的確定、良性和惡性結節的判斷由六位專家檢查兩次,間隔為1個月,以最小化記憶偏差。所有決策均由六位專家做出,用於讀者間的再現性分析。加權誤差評分用於反映假陰性結果(未做出決定)比假陽性結果更有害。使用這些加權懲罰點、計算模型和每個人類專家的錯誤率。

即使患者有較大的病變,我們也僅包括小於30 mm的結節,其大小相當於約30 mm的平均直徑,因為肺結節的定義是直徑小於3cm的病變。我們納入了疑似轉移的結節以及可能具有良性組織學特徵的結節。然而,排除了粟粒性結核、間質病變、結節病和重症肺炎。

以下參數用於評估結節特徵和圖像質量對觀察者一致性的影響:總結節大小(最大直徑,毫米)、結節類型、良性或惡性以及肺實質內結節的密度。從數據庫中提取參數結節大小、良性或惡性和類型。結節的密度由沒有參與閱讀過程的專家(H.Y 和H.W)測量。將兩個約1cm的感興趣區域放置在結節中的兩個均勻區域中,並且兩次測量中平均的Hounsfield units標準偏差是密度的度量。

2.3 病人分類

訓練過程中的用例隨機分為訓練集80%和驗證集20%(圖4)。訓練集用於訓練算法,驗證集用於模型選擇,測試集用於評估最終選擇的模型。在確定百分比分割時,目標是為算法保留足夠的數據以進行訓練,但是具有足夠的驗證和測試用例以保持模型準確性的合理置信區間。 該數據集代表了在參與診所提供和接受治療的最常見的實性、鈣化或磨玻璃結節患者。

2.4 圖像標註

在訓練之前,每個圖像都經過分層分級系統,該系統由多級訓練有素的評分者組成,他們具有逐級遞增的專業知識,可用於圖像標籤的驗證和校正。導入數據庫的每個圖像都與患者最近診斷的標籤相匹配。第一級評分員包括具有呼吸系統和成像基礎知識的成員。這一級評分員進行了初步的質量控制,並排除了包含嚴重偽影或顯著降低圖像分辨率的胸部CT圖像。第二級評分員由兩位專家組成,他們對通過第一級的每張圖像進行獨立評分。記錄胸部CT圖像上是否存在實性,鈣化或磨玻璃結節和其他可見的病變。最後,第二層由兩名高級呼吸和成像專家組成,每位專家擁有超過15年的臨床呼吸和成像經驗,獨立驗證每張圖像的真實標籤。所有圖像的驗證子集由兩名專家分別評分,不一致的臨床標籤由由高級專家仲裁,以解釋評分中的人為錯誤。

2.5 軟件支持

軟件系統的開發在Linux Ubuntu 18.04環境下進行。Pycharm 和 VS Code用作開發的IDE。Chrome調試器用於測試和調試UI / UX。 軟件的實現細節是保密的,以下部分主要描述了實現的設計和邏輯。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖5:排版示例加上可視化結構報告以及與傳統排版和報告的比較。

(a)使用IILS選擇後的新圖像排版。新的排版圖像被分為三個部分(兩個紅框的區域,代表關鍵圖像所在的區域)。顯然,與(c)相比沒有無效圖像(標有橙色下劃線)。排版第一部分開頭的五個小框依次顯示:1)肺窗條件下結節的最大橫截面切片的圖像(WW:1500; WL:-500),2)具有長徑和短徑測量數據的圖像,3)縱隔窗口條件下的結節圖像(WW:350,WL:50),4)結節的冠狀圖像重建,5)結節的矢狀圖像重建。第二部分是在縱隔窗口條件下每層間隔的一組圖像。最後一部分是一組薄層肺組織圖像,大約分為六層。另一個便利是,片子上任一單元格中的每個圖像都可以通過其切片ID進行跟蹤,並通過雙擊它來重定向到圖像集中的原始位置。還自動生成與片子相關的可視化結構報告。有關詳細信息,請參見視頻2。

(b):如果患者沒有肺結節,IILS給出的排版和報告將與傳統系統給出的相似。

(c):使用傳統的手工排版形式,表格分為兩部分。 前部包括縱隔組織圖像,後部是肺組織圖像。 傳統排版格式的主要問題是缺少關鍵圖像,各種無效圖像(一些帶橙色下劃線的圖像),以及缺少鏈接功能。 相關報告填充了文本,沒有生成結構化報告。

2.6 自動排版

通過將固定輸出過程分成以下子任務來執行自動排版:1,驗證; 2,輸出。在驗證任務中,我們的程序首先處理最重要的結節,生成五個放大的輸出圖像,聚焦在結節上,同時突出顯示矩形,標明肺窗形式的結節位置,長徑測量,縱隔窗 和兩個方向透視。 五個輸出圖像放置在第一行,然後是30個縱隔窗口圖像,其餘的為肺窗口。 具體而言,第一部分五個網格是單個結節的自動排版,具有最高的惡性概率風險,這可由AI預測。 五張圖片也可以由放射科醫師驗證和覆蓋。 自適應排版工具的輸出包括兩個電子排片和一個由四組圖像組成的結構化報告。

與傳統報告的比較,IILS提供了以下信息:i)基本信息顯示:患者信息,檢查信息,放射科醫師信息等。ii)結果(來自AI預測和放射科醫師的雙重確認):標準化描述肺結節圖像,包括結節位置,形態和密度,圖像信息的層數,結節長徑,體積,平均CT值,以及結節的惡性概率。此外,我們為放射科醫師預留了足夠的空間,可以為其他病變編寫定期報告。 iii)診斷感想:由放射科醫師撰寫的診斷建議。肺部全部範圍的適應性是主要關注點,其意味著五個圖像是否附在第一組,即 一組顯示結節的五種形式圖像具有最高的AI預測得分為惡性,符合我們的預設的將受到高度重視。驗證後,可以將排片導出為可打印格式,以便為放射科醫師和患者提供可視化信息,同時自動生成結構報告。

我們還推斷一個好的排版系統主要包括以下三個主要內容:1)任何可靠,客觀的測量數據的所有關鍵圖像; 2)顯示腫瘤特徵的一系列圖像,包括形狀,數量,密度,大小,增強,多角度觀察和後續比較; 3)胸部縱隔窗和肺窗圖像連續顯示(圖5a-b)。 此外,我們手工顯示當前排版形式的圖片,這在日常工作中作為比較非常普遍(圖5c)。

2.7 結構化報告

結構化報告生成程序旨在完成常見CT掃描場景中的完整工作流程(補充圖S2)。與傳統報告的比較,我們計劃為放射科醫師和患者提供圖像和結果的可視化。該計劃主要通過以下三個步驟進行:1,收集資源;2,渲染圖像;3,輸出。我們現在將詳細描述每個步驟。為了收集資源,我們需要在我們的程序中加載多個資源,包括DICOM圖像集、AI預測結節、患者/醫院信息,以及捕獲放射科醫師的結果和診斷感想。收集必要的資源後,我們繼續進行渲染部分。該程序將首先根據其重要性對結節進行排序(由AI定義,但可以由操作員覆蓋),然後在相應的圖像上使用矩形框渲染每個結節。該程序還放大了圖像並設置其中心,重點放在結節本身。渲染和轉換後,將觸發特殊事件偵聽器以通知程序捕獲渲染數據。最後,程序生成預定義的可打印輸出。

2.8 定量和統計分析

ROC曲線繪製了真陽性率(TPR,靈敏度)與假陽性率(1- 特異度)的關係曲線。通過將正確標記的惡性結節的總數和正確標記的良性結節的總數分別除以測試圖像的結節總數來確定靈敏度和特異度。連續變量被描述為平均值±標準誤差(SEM),並且分類變量被表示為諸如良性/惡性(B / M)的特徵。將傳統圖像排版組與智能系統組和正常對照組之間的臨床特徵通過Mann-Whitney U檢驗,卡方檢驗或Fisher精確檢驗進行比較。使用雙樣本Mann-Whitney U檢驗比較傳統排版組與智能佈局組和正常對照組之間的差異。Kappa統計用於衡量兩個評估者之間的一致性程度,即AI和人類專家。kappa值至少為0.75表示良好的一致性。 然而,我們認為較大的kappa值,例如0.90,是優選的。雙尾P值<0.05被認為具有統計學意義。

3、結果

3.1患者和圖像特徵

具有四種不同結節大小的病例及其特徵和演變表明隨訪的重要性(圖6a)。表1總結了用於訓練、驗證和獨立測試數據集的患者和結節的特徵。根據文獻,結節類型分為實性結節、鈣化結節和磨砂玻璃結節。工作流程圖的總體實驗設計如圖6b所示。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖6:應用人工智能技術對不同大小肺結節的檢測過程進行了演示,並給出了整個實驗設計的流程圖。

3.2 模型設計和性能評估

IILS系統的核心設計是深度學習模型,該模型分為兩個部分,Faster RCNN和ResNet。Faster RCNN主要負責肺結節的檢測和定位。Faster RCNN 還有助於將肺結節分為以下幾類:0-3 mm、3-6mm、6-0mm、10-30mm肺結節,實性結節、鈣化結節和磨砂玻璃結節(GGNs)。第二部分是ResNet,主要負責肺結節良惡性的分類。在第一部分中,關於特徵提取,我們使用了ResNet-50 中的層conv4_x作為輸出。在我們的嘗試中,ResNet-50中的層conv4_x在檢測中表現出最佳性能。在區域建議網絡(RPN)中,採用二元交叉熵作為分類損失函數,選取smooth L1損失函數作為迴歸損失函數。模型的訓練過程完善,曲線均達到收斂。該模型的訓練過程是完美的,所有曲線均達到收斂。RPN的訓練過程如圖7a-b所示,所有曲線收斂為零。這也表明我們的模型能夠很好地區分前景和背景,並提供了一個精確的前景邊界框。圖7c曲線也收斂到零,該曲線的收斂性表明,該模型能夠很好地區分7類肺結節。第二部分,我們用ResNet對結節良惡性進行了分類。為了獲得更準確的模型並避免梯度分散等問題,我們選擇了ResNet。在IILS系統中,ResNet顯現出了優異的分類性能。曲線的收斂代表了我們分類工作的成功;在模型精度方面,訓練和驗證曲線均接近100%(訓練過程為100%,驗證過程為97%)。在損失函數部分,曲線也顯示該模型在良惡性結節的分類上表現良好。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖7:檢測結節的訓練過程的性能。

3.3 IILS與人類專家對結節診斷效率的比較

我們評估了我們的模型檢測和分類最常見的肺結節。該模型檢測並分類具有不同等級良性和惡性腫瘤結節的圖像作為“原發性結節”。這些情況需要相對緊急的轉診到相關的呼吸內科醫生或胸外科醫生那裡進行最終治療。該系統將具有良性肺或假陽性結節的圖像分類,其具有成為惡性腫瘤的可能性低,“僅在可視化結構化報告中顯示”。在臨床工作中非常常見的微觀結節不適用於惡性腫瘤;因此,轉診給相關專家進行治療的緊迫性較小。

在這裡,我們試圖解釋人工智能與人類專家相比在檢測肺結節方面的優勢。在本研究中,我們採用了一種簡單直觀的方法,即對檢測到的結節與金標準篩選到的結節的一致性程度進行評估。以病理金標準為參照,分別採用Kappa一致性係數和Mann-Whitney U檢驗進行一致性分析。引人注目的是,除了AI之外,在所有成對比較中存在差異(AI為p=0.138,其他比較為p<0.001)。與人類專家相比,AI也可以與金標準檢測到的肺結節顯著一致,AI由於其最高的一致性係數而脫穎而出(AI kappa=0.94,其他比較p<0.001)。我們進一步比較了不同尺寸範圍內檢測到的結節的一致性,並證明無論結核大小範圍如何,AI都顯示出超出人類專家的金標準更有利的一致性。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖10:應用於五個不同製造商的成像設備時,AI在肺結節診斷一致性方面的表現。

3.4 IILS的交叉-設備適用性

既然AI已被證實在檢測結節方面優於人類專家,無論大小如何,有必要從另一個角度來判斷AI的適用性。基本上,AI的診斷取決於現有製造商生產的圖像;因此,評估不同製造商的圖像輸出對AI檢測到的結節的影響是合理的。為了在參考黃金標準的條件下探索AI對不同成像製造商的適應性,通過Mann-Whitney U檢驗和kappa一致性分析,進一步評價AI與金標準診斷不同廠家不同大小結節的一致性。總體而言,AI在五家制造商上配置良好,與黃金標準相比沒有差異(通用為p=0.576,飛利浦為p=0.472,西門子為p=0.988,東芝為p=0.376,聯影(UI)為p=0.343)。此外,實現了高一致性,kappa係數為0.87到0.99之間(圖10)。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖11 評估AI在識別良性或惡性病變中的表現

3.5 通過獨立數據驗證IILS在診斷方面優於人類專家的表現

使用284例病理結果患者的獨立數據進行比較,使用相同的數據集比較惡性肺結節和良性結節,以確定模型性能的準確性。我們推斷,我們最初的預測模型完全適用於臨床,因為其ROC下面積對於惡性肺結節相對於良性肺結節高達90.6%(圖11a)。在0.5的評分截斷下,124例預測為真陽性,1479例為真陰性。約有38例被標記為假陽性,181例為假陰性。敏感性76.5%,特異性89.1%(圖11b)。在另一組284例病理金標準患者中,模型和人類專家的預測性能在曲線上進行了比較,得出結論:人工智能在敏感性和特異性方面優於其他6名專家。此外,與人類專家相比,人工智能顯示出最高的準確性;正確預測248例(87.3%,預測為真陽性或真陰性的人數除以284),錯誤預測最少,36例(12.7%)。

3.6 自動自適應佈局工具的設計與評估

根據2018年NCCN指南的要求,我們與六位專家(三位放射科醫生和三位臨床醫生)進行了討論後,就良好的圖像佈局形式達成了最終共識。為了模擬醫學成像部門胸部CT掃描後的日常工作結果,我們設計了一種自動自適應佈局工具,可以生成“自動膠片佈局和肺結節結構報告”,以連接到CNN網絡的輸出。自動自適應佈局工具可以導出關鍵肺結節圖像(具有增加的惡性風險的結節)的膠片佈局並生成結構化報告。兩種膠片佈局都以固定格式使用(一部膠片上有5×8網格)。將180名患者的胸部CT圖像混合並連續輸入到IILS,以模擬來自不同製造商的圖像在日常工作中進入工作站的情況。評估了自適應佈局工具的特性以及是否可以成功布局。這180名患者的圖像總數為60660,包括縱隔12240例窗口圖像和48420張肺窗圖像。使用5點量表方法來最終判斷電子膠片的佈局。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

表2:用於評估佈局一致性和準確性的五點量表。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖12 五家制造商的IILS部署量化。

3.7 五點量表評估高質量的IILS

我們利用五點量表(表2)來評估IILS的質量。在所有類型的製造商中,只有少數幾個分數無法達到第四等級(圖12a)。正常佈局情況下沒有發現遺漏,然而,與正常對照組相比(p=0.04)(圖12b),患者在第四區的幾個病例中出現了漏診。我們還比較了從每個量表得分中得出的總分,總的來說,西門子在使用IILS時效果最好。總分顯示,與結節患者相比,IILS更適合無結節者(p=0.04)(圖12d)。

3.8 IILS與傳統工作站相比的優點:更少的時間,沒有無效的圖像和零遺漏

考慮到需要點擊時間,五個主要廠商設備佈局的平均點擊次數為14.45±0.34次。其中GE平均點擊量為14.37±0.89次,飛利浦為14.70±0.86次,西門子為14.57±0.87次,東芝為15.77±0.95次,UI為13.67±0.79次,IILS為2次(p<0.04)(圖13a)。在使用傳統工作站時,無論是患者還是無結節正常人,都需要比IILS更多的點擊量。IILS和傳統制造商在患者和正常人的圖像佈局沒有顯著差異。通過不同廠家工作站的250例患者(每個廠家50例)的佈局圖像,每個廠家50例患者所需時間分別為8分鐘(GE)、7.42分鐘(飛利浦)、8.87分鐘(西門子)、8.17分鐘(東芝)和8.63分鐘(UI)。傳統CT工作站的平均佈局時間為16.87秒/患者。相比之下,IILS需要大約6.92秒/患者。與使用其他製造商工作站的患者和無結節相比,使用IILS的時間顯著減少。正如我們所料,IILS在患者和正常病例中比傳統工作站更有效。有趣的是,IILS在無結節病例上花費的時間更少,而傳統工作站需要更長的時間。

另外,對於兩種佈局,我們比較了來自兩個不同佈局系統的無效圖像。我們隨機收集了來自三個製造商工作站的50個佈局結果,總共150個結果。在傳統的人工佈局下,GE、Philips、UI患者的無效圖像分別為8.10±0·42、6.92±0·39、6.15±0·41,IILS患者為0。我們評估了膠片每個網格中的肺區域是否適合每個尺寸。所有的專家都主觀地認為存在著顯著的差異。我們進一步研究兩種佈置方法和工作流程是否會導致肺結節檢測的遺漏。兩名放射科醫生被要求指出兩個胸部CT片和不同平臺上報告的結節的位置。根據報告的描述,我們共發現318個不匹配的結節,46.8%的患者未發現結節,約為0.97/例。此外,327例患者中63例漏診為GGN。

3.9 IILS完全可重現,防止人類測量的不穩定性

我們從幾個方面比較瞭如何正確顯示結節的結果。由於金標準的缺乏,我們評估了哪種標準更穩定或重現性更好。在這方面,總共選擇了8個肺結節,即4個不同尺寸的2個結節(尺寸<3mm,3-6mm,6-10mm,10-3cm)。隨後,兩名放射學家被要求通過工作站,在不同時期10次反覆測量這8個結節的大小和密度;IILS 的測量結果是100%可重複的,在多次測量中表現出完全的一致性,而由專家評估的測量則顯示出不同程度的波動。

3.10 人機耦合操作需要適應過程

我們模擬了放射科醫師的正常工作場景,其中要求兩名放射科醫師在兩小時內對284名患者中的儘可能多的患者做出判斷,使用傳統診斷或基於AI判斷的重新診斷,間隔時間為一個月。在使用AI判斷作為先驗信息後,在消耗時間、效率和絕對不匹配的結節方面有了顯著的改善(p<0.05)。具體來說,基於人工智能已有的判斷,兩位專家不僅減少了同一幅圖像的診斷時間,而且提高了單位時間內的診斷效率。檢測誤差也明顯減小。使用AI後,兩位專家的檢測靈敏度都得到了提高,但專家2的特異性從99.2%下降到60%。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

表3:用於評定不同類型圖像佈局組合的五點標度。

3.11 專家和患者的滿意度都顯示出IILS的友好性

六位對原先結果不知情的專家評估了傳統系統和IILS的結果。我們建立了一個5點評分機制,用於評估由兩種不同佈局系統生成的佈局電子膠片和報告(表3)。專家對IILS進行了明顯更好的評價,所有5點中的3到4點高於傳統方法(p=7.674e-23)。相比之下,患者評分更加極端,表明報告的友好性非常重要(p=8.164e-25)。

3.12 IILS在LUNA16和LIDC/IDRI基準上的性能評價

IILS的性能在兩個基準數據庫上進行了評估,即LUNA16和LIDC/IDRI。Luna16(https://luna16.grand-challenge.org/)共888次CT掃描,最終得分為0.696(排名18)。我們在LIDC / IDRI 數據庫上進一步測試了我們的IILS ( https://wiki.CurraseIfgIsActuv.NET/DISPLAY/PARIS/LIDC-IDRI )有1018次CT 掃描,其包含更多的切片厚度類型並且更類似於真實的臨床環境。對於大於3mm的結節,模型的召回率為88.75%,每例掃描的假陽性率為5.22。

4、討論

在本研究中,通過創建和部署深度神經網絡算法,在有限的人類干涉下,我們的IILS模型展示了胸部CT圖像分析的競爭性性能。此外,機器學習技術用於圖像分析的功效可能超出了胸部CT圖像的範圍—原則上,通過AI和佈局學習的技術可能潛在地用於多個學科的各種醫學圖像。

IILS的一個主要特點是幾乎實時地檢測肺部結節。這種實時性能是由於系統中的Faster RCNN模型。IILS的性能在很大程度上取決於通過訓練模型檢測和分類結節的準確性。雖然與金標準達成了很高的一致性,將AI應用於UI在檢測小結節方面仍存在顯著差異,這可能是由於參加模型訓練的樣本量小(結節數量,n=1119)造成的。

經證實,在檢出結節數量和判斷良惡性方面,IILS優於6名專家。根據目前構建的模型,獲得的ROC曲線下面積達90.6%,具有一定的臨床應用價值。經過嚴格的統計檢驗,在結節檢出量和良惡性判斷方面,IILS優於6名人類專家。補充表S6顯示了一些相關工作和比較結果。相比之下,實驗數據和CNN結構的結果都取得了一定的進展,使我們對IILS的模型性能穩定、可靠和高效充滿了希望。

IILS旨在用於日常實際工作中準確檢測和分類結節,並標準化胸部CT圖像和報告。這種佈局的優點是簡化了醫生仔細翻看圖像,找到有關鍵圖像的肺結節的過程。為優化IILS,我們評估了其在佈局部件中的性能。憑藉AI接近100%的成功率,整個多平面重建程序設計可以自動完成。多平面重建對臨床醫生從多個角度觀察肺結節,做出最終診斷,評估和跟蹤肺結節至關重要。

IILS與傳統佈局系統之間存在十四個差異。其中,內容分為三個部分。第一部分側重於使運營商受益。IILS可能有機會降低成本,包括提高CT利用效率,替代低成本資源甚至取代某些業務。第二部分包括第四至第十一點的內容,這些差異主要集中在最終產出的差異,兩種電子膠片加上兩種不同系統產生的一種相應的報告。儘管IILS製作的電子膠片佈局是從傳統方式的兩個部分演變為三個部分,其中前五個小網格僅用於顯示在不同呈現形式下具有最高惡性風險的一個結節,這將有助於IILS比傳統方法更經常地獲得有效圖像,從而提高了效率。

此外,還出現了一個有趣的現象。驗證在我們的自適應工具的表現中,我們從臨床醫學報告的結果中隨機選擇了來自對照組的327例病例,這些病例報道沒有肺結節。然而,在重新測試的過程中,我們發現在153例(46.8%)中實際錯過了318個結節。錯過的結節主要集中在3-6毫米而不是<3毫米的,主要類型的缺失結節是鈣化結節而不是磨砂玻璃結節。這個問題的可能原因是,在傳統的母語中,鈣化結節可能被“舊病變”所取代,而“磨玻璃結節”則沒有同義詞。

第六點為多維結節;根據基線和隨訪CT的結節直徑和時間間隔的差異可以觀察和估計結節的大小在這兩種掃描之間,腫瘤呈均勻的三維生長。然而,由於繁重的體力勞動,無法對關鍵的肺結節進行三維重建。因此,我們增加了一種自動多維觀察方法,以最大限度地減少誤診率。

第三部分包括第十二至第十四點的內容,比較了IILS和傳統工作站對所有醫生和病人的影響。我們的研究結果表明,所有醫生和患者對IILS的輸出感到滿意。然而,在以經驗為導向的閱讀習慣方面,人工智能在人類專家中的有效性仍然存在差異。在我們的研究中,一名資深放射科醫生(專家1)似乎對人工智能預測肺結節的信心較低,即使IILS做出了判斷,也會仔細遵循閱讀習慣瀏覽圖像。應用人工智能前後,在效率、消耗時間、結節絕對不匹配等方面均有顯著差異。有趣的是,在敏感性和特異性方面沒有發現明顯的改善。相比之下,初級放射科醫生(專家2)似乎在很大程度上信任人工智能。我們推測,人機耦合操作可能仍然需要一個適應過程。

雖然結果很有希望,但我們的研究有一些侷限性。在這項試驗研究中,脊柱側凸患者、原發性或繼發性胸部畸形患者和接受胸外科手術的患者的圖像不包括在訓練和測試集中。因此,需要進一步的臨床收集和測試來評估各種形式的胸腔的臨床準確性。由於胸廓畸形的發生率相對較低,這種影響不會影響我們的總體結論。臨床試驗研究在兩年內進行,IILS正常運作六個月。但是,需要對新系統進行進一步評估,以評估長期準確性和穩定性。

此外,IILS僅限於解決成人肺結節的CT圖像問題,而不是嬰兒,由於嬰兒很少出現肺結節。在各種環境條件下還需要進行更多測試,例如,在極冷,炎熱,乾燥和潮溼的環境中進行測試。還需要測試具有一些噪聲的圖像以評估系統的穩健性。事實上,圖像不完整的患者被納入系統,最終導致異常。因此,在處理特殊圖像,例如不完整圖像,空白圖像或不正確圖像時,當前系統仍有改進的空間,可以引入諸如完整性掃描和灰度確認之類的算法。另外,目前,IILS只能在胸部進行。未來的工作可能包括將設備應用於身體其他部位的圖像。

總之,IILS的性能優於傳統系統,並提供了一種比現有技術更經濟、設計更合適的替代方法,以優化肺部結節的CT佈局,節省費用和提高效率。由於基於自動AI的標準化電子膠片和可視化結構化報告生成,可能會在日常工作流程中建立一個新的標準和一個新的放射學工作流程,並且不需要一些相關的操作員。

為了提供一個可以引用的基準,我們在兩個基準數據庫上評估了我們的IILS的性能。正如預期的那樣,我們得到了相對較高水平的假陽性,特別是LUNA16,因為在預測中,小尺寸的結節被視為假陽性。我們認為,設計的最優診斷模型通常是針對特定群體的,因為我們採用的所有訓練圖像都來自中國,而LUNA16數據庫收集的數據集僅從美國中收集,且沒有任何<3mm結節的標籤。

綜合而言,IILS提供了一種簡單、準確的方法來檢測、分類和佈局肺結節的CT圖像,以提高對中國人群的診斷。因此,IILS為人工智能的臨床應用打開了新的窗口,可能是改善全球醫療質量不平衡的有效途徑。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

2019 全球人工智能與機器人峰會

由中國計算機學會主辦、雷鋒網和香港中文大學(深圳)聯合承辦的 2019 全球人工智能與機器人峰會( CCF-GAIR 2019),將於 2019 年 7 月 12 日至 14 日在深圳舉行。

屆時,諾貝爾獎得主JamesJ. Heckman、中外院士、世界頂會主席、知名Fellow,多位重磅嘉賓將親自坐陣,一起探討人工智能和機器人領域學、產、投等複雜的生存態勢。

今日限量贈送3張1000元門票優惠碼,門票原價1999元,現價僅999元,限量3張,送完即止。在AI掘金志公眾號後臺回覆“CCF-GAIR”,即可獲得門票優惠碼。

"思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

在AI技術準確檢出肺部結節病灶的前提下,團隊開發了一套胸部CT排版系統,適合全自動或者半自動的影像學圖像的排版問題,可以將以往人工診斷到排版花費約2小時的工作時間,降低到約100秒完成。

作者 | 李雨晨

過去幾年,AI在醫學影像方面取得了諸多成果。在影像學科的臨床工作流程中,肺部病變的良、惡性鑑別診斷,已經成為AI創業公司爭先恐後湧入的賽道。但是,多數創業公司基本上是停留在後端的疾病診斷層面,在此之前的圖像採集、圖像呈現階段,其實都有文章可做。

近日,南京鼓樓醫院醫學影像科張冰團隊,在柳葉刀子刊EBiomedicine發表了一則AI醫療的新成果,直面影像科醫生工作流程前端的痛點問題。

該團隊選擇了一個全新的切入點——從臨床影像工作全流程角度出發,提出了一種基於深度學習的智能成像排版系統(IILS),系統包括AI肺結節檢測和分類和自適應排版工具,用於結節識別的成像報告標準化和工作流程優化。

成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。特別是當肺結節的直徑小於1 cm時,相應報告不能與排版結果100%匹配。

據瞭解,團隊提出的胸部CT排版工具,使用來自11205名患者的CT成像數據,可以適應全自動或者半自動的影像學圖像的排版問題。以往人工診斷到排版需要花費約2小時的時間,在這個工具的幫助下,時間可以降低到約100秒。

以下為論文詳細內容,由AI掘金志學術組編譯。關注AI掘金志公眾號,在對話框回覆關鍵詞“南京鼓樓”,即可獲取原文PDF下載鏈接。

1、引言

臨床任務的一個典型例子是,分類並生成與肺結節的診斷密切相關的胸部CT圖像的佈局。在篩查檢測和隨訪期間,目前的日常工作流程中仍存在五個問題。

1、成像報告標準化缺乏:由於沒有標準化、科學驗證的方法評估結節,試驗放射科醫師制定了診斷隨訪的指南,但沒有強制要求評估方法(圖1)。

2、缺失結節:如果幹激光膠片用作成像信息載體,則無法顯示與報告中的描述相對應的結節(圖2),這是一個常見問題。

3、缺少關鍵圖像:在從CT掃描儀獲取圖像之後,大量圖像不加選擇地輸入到PACS中。此外,許多臨床醫生對成像知識相對不熟悉,需要花費大量時間和精力來瀏覽這些缺乏關鍵信息的複雜圖像,更不用說使用智能手機或平板電腦來檢查這些圖像。而且,許多無效圖像經常出現在一系列圖像中(圖2)。因此,治療過程極其低效。

4、訪問來自其他醫院的圖像困難:如果患者需要他或她自己的圖像,圖像通常在光盤(CD)上刻錄或通過便攜式硬盤驅動器傳輸。然而,許多現代計算機沒有配備CD驅動器或醫院禁止使用計算機的通用串行總線(USB)接口。因此,患者在不同醫院都要進行掃描成像。

5、 缺乏對臨床醫生和患者需求的考慮(圖2):作為放射科醫師,幫助他人更容易閱讀和理解成像結果的機會尚未得到充分利用。因此,迫切需要具有關鍵圖像的電子報告和可視化結構化報告來解決這些問題。

當前,AI的應用似乎忽略了兩個事實。首先,高質量的標準化圖像是人工智能開發的基礎,其次,AI可以接管簡單和重複的工作。

在這項研究中,我們尋求開發基於人工智能技術和自適應佈局工具融合的智能成像排版系統(IILS),以建立日常工作的新流程,併為放射科醫生和臨床醫生提供標準化圖像和報告。同時,我們從三個方面評估IILS的綜合實力,包括i)IILS與臨床專家之間結節診斷效率的比較; ii)IILS可以優化臨床工作流程的程度;iii)IILS的交叉製造適用性(cross-manufacture applicability)。

總之,我們認為AI技術可以通過串聯連接集成到放射學工作流中,而不是基於簡單的並行關係來遵循傳統的工作流程。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖2.當前的手工選片過程和日常工作中的相關問題。例如,成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。相應報告不能與排版結果100%匹配,特別是當肺結節的直徑小於1cm時。 以GE的CT掃描方法為例,在日常工作中使用手動圖像排版時,通常會忽略6(層)×1·25 mm(厚度)= 7·5 mm範圍內的肺組織。因此,當醫生獲得最終的圖像時會遇到以下問題:缺乏成像報告標準化、缺失結節、缺乏關鍵圖像以及缺乏對臨床醫生和患者需求的考慮。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖3. IILS的組成以及如何將其整合到當前的成像過程中。新的IILS包括以下部分:一個是AI肺結節檢測和分類,另一個是自適應排版工具,包括我們團隊發明的自動排版和可視化結構化報告生成。為了確保圖像質量和結果,我們有一位放射科醫生,他通常負責編寫報告,仔細檢查自動生成的結構化報告和圖像排版結果。成像部門日常工作的整個過程包括以下關鍵步驟:i)獲取:從不同臨床科室的患者收集圖像信息; ii)排版:包括日常工作的手動排版和圖像管理; iii)診斷:放射科醫師的圖像診斷,預測和評估。新型智能系統的應用通過串聯而非並聯連接集成到放射工作流中。

2、材料與方法

2.1 實驗軟件和硬件

本文中的模型均在DGX1平臺上進行訓練。(NVIDIA DGX1 system, 8× Tesla V100 GPUs, 128 GB total system GPUMemory, dual 20-core Intel Xeon E5–2698 CPU v4 2.2 GHz, SantaClara, California, USA)

2.2 實驗模型和項目細節

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖4:數據流圖顯示了我們檢測結節和分類良性或惡性病例的方法。本研究採用的數據是從2016年10月到2018年11月,從五個主要的不同CT製造商處獲得的11205名患者、共3527048張胸部CT掃描圖像。

訓練過程分為兩部分,分別由兩個訓練隊列組成。通過卷積神經網絡(CNN)獲得兩個模型,通過5折交叉驗證進行性能評估,然後合併形成IILS的第一層,即用於檢測結節和分類病例的篩選部分。我們將最終的兩個模型部署到包含1965個病例的獨立隊列中,通過六位臨床專家對結節數量的一致性分析,以顯示我們IILS的可信度。

八名有3到25年胸部CT經驗的專家作為檢查員參加了會議。為了在臨床專家的背景下評估我們的卷積神經網絡,我們使用1965名患者的獨立測試集來比較我們的網絡決策和人類專家的決策。隨機選擇作為受試者的1965名患者進行讀者間和讀者間再現性研究。

所有肺結節的數量的確定、良性和惡性結節的判斷由六位專家檢查兩次,間隔為1個月,以最小化記憶偏差。所有決策均由六位專家做出,用於讀者間的再現性分析。加權誤差評分用於反映假陰性結果(未做出決定)比假陽性結果更有害。使用這些加權懲罰點、計算模型和每個人類專家的錯誤率。

即使患者有較大的病變,我們也僅包括小於30 mm的結節,其大小相當於約30 mm的平均直徑,因為肺結節的定義是直徑小於3cm的病變。我們納入了疑似轉移的結節以及可能具有良性組織學特徵的結節。然而,排除了粟粒性結核、間質病變、結節病和重症肺炎。

以下參數用於評估結節特徵和圖像質量對觀察者一致性的影響:總結節大小(最大直徑,毫米)、結節類型、良性或惡性以及肺實質內結節的密度。從數據庫中提取參數結節大小、良性或惡性和類型。結節的密度由沒有參與閱讀過程的專家(H.Y 和H.W)測量。將兩個約1cm的感興趣區域放置在結節中的兩個均勻區域中,並且兩次測量中平均的Hounsfield units標準偏差是密度的度量。

2.3 病人分類

訓練過程中的用例隨機分為訓練集80%和驗證集20%(圖4)。訓練集用於訓練算法,驗證集用於模型選擇,測試集用於評估最終選擇的模型。在確定百分比分割時,目標是為算法保留足夠的數據以進行訓練,但是具有足夠的驗證和測試用例以保持模型準確性的合理置信區間。 該數據集代表了在參與診所提供和接受治療的最常見的實性、鈣化或磨玻璃結節患者。

2.4 圖像標註

在訓練之前,每個圖像都經過分層分級系統,該系統由多級訓練有素的評分者組成,他們具有逐級遞增的專業知識,可用於圖像標籤的驗證和校正。導入數據庫的每個圖像都與患者最近診斷的標籤相匹配。第一級評分員包括具有呼吸系統和成像基礎知識的成員。這一級評分員進行了初步的質量控制,並排除了包含嚴重偽影或顯著降低圖像分辨率的胸部CT圖像。第二級評分員由兩位專家組成,他們對通過第一級的每張圖像進行獨立評分。記錄胸部CT圖像上是否存在實性,鈣化或磨玻璃結節和其他可見的病變。最後,第二層由兩名高級呼吸和成像專家組成,每位專家擁有超過15年的臨床呼吸和成像經驗,獨立驗證每張圖像的真實標籤。所有圖像的驗證子集由兩名專家分別評分,不一致的臨床標籤由由高級專家仲裁,以解釋評分中的人為錯誤。

2.5 軟件支持

軟件系統的開發在Linux Ubuntu 18.04環境下進行。Pycharm 和 VS Code用作開發的IDE。Chrome調試器用於測試和調試UI / UX。 軟件的實現細節是保密的,以下部分主要描述了實現的設計和邏輯。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖5:排版示例加上可視化結構報告以及與傳統排版和報告的比較。

(a)使用IILS選擇後的新圖像排版。新的排版圖像被分為三個部分(兩個紅框的區域,代表關鍵圖像所在的區域)。顯然,與(c)相比沒有無效圖像(標有橙色下劃線)。排版第一部分開頭的五個小框依次顯示:1)肺窗條件下結節的最大橫截面切片的圖像(WW:1500; WL:-500),2)具有長徑和短徑測量數據的圖像,3)縱隔窗口條件下的結節圖像(WW:350,WL:50),4)結節的冠狀圖像重建,5)結節的矢狀圖像重建。第二部分是在縱隔窗口條件下每層間隔的一組圖像。最後一部分是一組薄層肺組織圖像,大約分為六層。另一個便利是,片子上任一單元格中的每個圖像都可以通過其切片ID進行跟蹤,並通過雙擊它來重定向到圖像集中的原始位置。還自動生成與片子相關的可視化結構報告。有關詳細信息,請參見視頻2。

(b):如果患者沒有肺結節,IILS給出的排版和報告將與傳統系統給出的相似。

(c):使用傳統的手工排版形式,表格分為兩部分。 前部包括縱隔組織圖像,後部是肺組織圖像。 傳統排版格式的主要問題是缺少關鍵圖像,各種無效圖像(一些帶橙色下劃線的圖像),以及缺少鏈接功能。 相關報告填充了文本,沒有生成結構化報告。

2.6 自動排版

通過將固定輸出過程分成以下子任務來執行自動排版:1,驗證; 2,輸出。在驗證任務中,我們的程序首先處理最重要的結節,生成五個放大的輸出圖像,聚焦在結節上,同時突出顯示矩形,標明肺窗形式的結節位置,長徑測量,縱隔窗 和兩個方向透視。 五個輸出圖像放置在第一行,然後是30個縱隔窗口圖像,其餘的為肺窗口。 具體而言,第一部分五個網格是單個結節的自動排版,具有最高的惡性概率風險,這可由AI預測。 五張圖片也可以由放射科醫師驗證和覆蓋。 自適應排版工具的輸出包括兩個電子排片和一個由四組圖像組成的結構化報告。

與傳統報告的比較,IILS提供了以下信息:i)基本信息顯示:患者信息,檢查信息,放射科醫師信息等。ii)結果(來自AI預測和放射科醫師的雙重確認):標準化描述肺結節圖像,包括結節位置,形態和密度,圖像信息的層數,結節長徑,體積,平均CT值,以及結節的惡性概率。此外,我們為放射科醫師預留了足夠的空間,可以為其他病變編寫定期報告。 iii)診斷感想:由放射科醫師撰寫的診斷建議。肺部全部範圍的適應性是主要關注點,其意味著五個圖像是否附在第一組,即 一組顯示結節的五種形式圖像具有最高的AI預測得分為惡性,符合我們的預設的將受到高度重視。驗證後,可以將排片導出為可打印格式,以便為放射科醫師和患者提供可視化信息,同時自動生成結構報告。

我們還推斷一個好的排版系統主要包括以下三個主要內容:1)任何可靠,客觀的測量數據的所有關鍵圖像; 2)顯示腫瘤特徵的一系列圖像,包括形狀,數量,密度,大小,增強,多角度觀察和後續比較; 3)胸部縱隔窗和肺窗圖像連續顯示(圖5a-b)。 此外,我們手工顯示當前排版形式的圖片,這在日常工作中作為比較非常普遍(圖5c)。

2.7 結構化報告

結構化報告生成程序旨在完成常見CT掃描場景中的完整工作流程(補充圖S2)。與傳統報告的比較,我們計劃為放射科醫師和患者提供圖像和結果的可視化。該計劃主要通過以下三個步驟進行:1,收集資源;2,渲染圖像;3,輸出。我們現在將詳細描述每個步驟。為了收集資源,我們需要在我們的程序中加載多個資源,包括DICOM圖像集、AI預測結節、患者/醫院信息,以及捕獲放射科醫師的結果和診斷感想。收集必要的資源後,我們繼續進行渲染部分。該程序將首先根據其重要性對結節進行排序(由AI定義,但可以由操作員覆蓋),然後在相應的圖像上使用矩形框渲染每個結節。該程序還放大了圖像並設置其中心,重點放在結節本身。渲染和轉換後,將觸發特殊事件偵聽器以通知程序捕獲渲染數據。最後,程序生成預定義的可打印輸出。

2.8 定量和統計分析

ROC曲線繪製了真陽性率(TPR,靈敏度)與假陽性率(1- 特異度)的關係曲線。通過將正確標記的惡性結節的總數和正確標記的良性結節的總數分別除以測試圖像的結節總數來確定靈敏度和特異度。連續變量被描述為平均值±標準誤差(SEM),並且分類變量被表示為諸如良性/惡性(B / M)的特徵。將傳統圖像排版組與智能系統組和正常對照組之間的臨床特徵通過Mann-Whitney U檢驗,卡方檢驗或Fisher精確檢驗進行比較。使用雙樣本Mann-Whitney U檢驗比較傳統排版組與智能佈局組和正常對照組之間的差異。Kappa統計用於衡量兩個評估者之間的一致性程度,即AI和人類專家。kappa值至少為0.75表示良好的一致性。 然而,我們認為較大的kappa值,例如0.90,是優選的。雙尾P值<0.05被認為具有統計學意義。

3、結果

3.1患者和圖像特徵

具有四種不同結節大小的病例及其特徵和演變表明隨訪的重要性(圖6a)。表1總結了用於訓練、驗證和獨立測試數據集的患者和結節的特徵。根據文獻,結節類型分為實性結節、鈣化結節和磨砂玻璃結節。工作流程圖的總體實驗設計如圖6b所示。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖6:應用人工智能技術對不同大小肺結節的檢測過程進行了演示,並給出了整個實驗設計的流程圖。

3.2 模型設計和性能評估

IILS系統的核心設計是深度學習模型,該模型分為兩個部分,Faster RCNN和ResNet。Faster RCNN主要負責肺結節的檢測和定位。Faster RCNN 還有助於將肺結節分為以下幾類:0-3 mm、3-6mm、6-0mm、10-30mm肺結節,實性結節、鈣化結節和磨砂玻璃結節(GGNs)。第二部分是ResNet,主要負責肺結節良惡性的分類。在第一部分中,關於特徵提取,我們使用了ResNet-50 中的層conv4_x作為輸出。在我們的嘗試中,ResNet-50中的層conv4_x在檢測中表現出最佳性能。在區域建議網絡(RPN)中,採用二元交叉熵作為分類損失函數,選取smooth L1損失函數作為迴歸損失函數。模型的訓練過程完善,曲線均達到收斂。該模型的訓練過程是完美的,所有曲線均達到收斂。RPN的訓練過程如圖7a-b所示,所有曲線收斂為零。這也表明我們的模型能夠很好地區分前景和背景,並提供了一個精確的前景邊界框。圖7c曲線也收斂到零,該曲線的收斂性表明,該模型能夠很好地區分7類肺結節。第二部分,我們用ResNet對結節良惡性進行了分類。為了獲得更準確的模型並避免梯度分散等問題,我們選擇了ResNet。在IILS系統中,ResNet顯現出了優異的分類性能。曲線的收斂代表了我們分類工作的成功;在模型精度方面,訓練和驗證曲線均接近100%(訓練過程為100%,驗證過程為97%)。在損失函數部分,曲線也顯示該模型在良惡性結節的分類上表現良好。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖7:檢測結節的訓練過程的性能。

3.3 IILS與人類專家對結節診斷效率的比較

我們評估了我們的模型檢測和分類最常見的肺結節。該模型檢測並分類具有不同等級良性和惡性腫瘤結節的圖像作為“原發性結節”。這些情況需要相對緊急的轉診到相關的呼吸內科醫生或胸外科醫生那裡進行最終治療。該系統將具有良性肺或假陽性結節的圖像分類,其具有成為惡性腫瘤的可能性低,“僅在可視化結構化報告中顯示”。在臨床工作中非常常見的微觀結節不適用於惡性腫瘤;因此,轉診給相關專家進行治療的緊迫性較小。

在這裡,我們試圖解釋人工智能與人類專家相比在檢測肺結節方面的優勢。在本研究中,我們採用了一種簡單直觀的方法,即對檢測到的結節與金標準篩選到的結節的一致性程度進行評估。以病理金標準為參照,分別採用Kappa一致性係數和Mann-Whitney U檢驗進行一致性分析。引人注目的是,除了AI之外,在所有成對比較中存在差異(AI為p=0.138,其他比較為p<0.001)。與人類專家相比,AI也可以與金標準檢測到的肺結節顯著一致,AI由於其最高的一致性係數而脫穎而出(AI kappa=0.94,其他比較p<0.001)。我們進一步比較了不同尺寸範圍內檢測到的結節的一致性,並證明無論結核大小範圍如何,AI都顯示出超出人類專家的金標準更有利的一致性。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖10:應用於五個不同製造商的成像設備時,AI在肺結節診斷一致性方面的表現。

3.4 IILS的交叉-設備適用性

既然AI已被證實在檢測結節方面優於人類專家,無論大小如何,有必要從另一個角度來判斷AI的適用性。基本上,AI的診斷取決於現有製造商生產的圖像;因此,評估不同製造商的圖像輸出對AI檢測到的結節的影響是合理的。為了在參考黃金標準的條件下探索AI對不同成像製造商的適應性,通過Mann-Whitney U檢驗和kappa一致性分析,進一步評價AI與金標準診斷不同廠家不同大小結節的一致性。總體而言,AI在五家制造商上配置良好,與黃金標準相比沒有差異(通用為p=0.576,飛利浦為p=0.472,西門子為p=0.988,東芝為p=0.376,聯影(UI)為p=0.343)。此外,實現了高一致性,kappa係數為0.87到0.99之間(圖10)。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖11 評估AI在識別良性或惡性病變中的表現

3.5 通過獨立數據驗證IILS在診斷方面優於人類專家的表現

使用284例病理結果患者的獨立數據進行比較,使用相同的數據集比較惡性肺結節和良性結節,以確定模型性能的準確性。我們推斷,我們最初的預測模型完全適用於臨床,因為其ROC下面積對於惡性肺結節相對於良性肺結節高達90.6%(圖11a)。在0.5的評分截斷下,124例預測為真陽性,1479例為真陰性。約有38例被標記為假陽性,181例為假陰性。敏感性76.5%,特異性89.1%(圖11b)。在另一組284例病理金標準患者中,模型和人類專家的預測性能在曲線上進行了比較,得出結論:人工智能在敏感性和特異性方面優於其他6名專家。此外,與人類專家相比,人工智能顯示出最高的準確性;正確預測248例(87.3%,預測為真陽性或真陰性的人數除以284),錯誤預測最少,36例(12.7%)。

3.6 自動自適應佈局工具的設計與評估

根據2018年NCCN指南的要求,我們與六位專家(三位放射科醫生和三位臨床醫生)進行了討論後,就良好的圖像佈局形式達成了最終共識。為了模擬醫學成像部門胸部CT掃描後的日常工作結果,我們設計了一種自動自適應佈局工具,可以生成“自動膠片佈局和肺結節結構報告”,以連接到CNN網絡的輸出。自動自適應佈局工具可以導出關鍵肺結節圖像(具有增加的惡性風險的結節)的膠片佈局並生成結構化報告。兩種膠片佈局都以固定格式使用(一部膠片上有5×8網格)。將180名患者的胸部CT圖像混合並連續輸入到IILS,以模擬來自不同製造商的圖像在日常工作中進入工作站的情況。評估了自適應佈局工具的特性以及是否可以成功布局。這180名患者的圖像總數為60660,包括縱隔12240例窗口圖像和48420張肺窗圖像。使用5點量表方法來最終判斷電子膠片的佈局。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

表2:用於評估佈局一致性和準確性的五點量表。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖12 五家制造商的IILS部署量化。

3.7 五點量表評估高質量的IILS

我們利用五點量表(表2)來評估IILS的質量。在所有類型的製造商中,只有少數幾個分數無法達到第四等級(圖12a)。正常佈局情況下沒有發現遺漏,然而,與正常對照組相比(p=0.04)(圖12b),患者在第四區的幾個病例中出現了漏診。我們還比較了從每個量表得分中得出的總分,總的來說,西門子在使用IILS時效果最好。總分顯示,與結節患者相比,IILS更適合無結節者(p=0.04)(圖12d)。

3.8 IILS與傳統工作站相比的優點:更少的時間,沒有無效的圖像和零遺漏

考慮到需要點擊時間,五個主要廠商設備佈局的平均點擊次數為14.45±0.34次。其中GE平均點擊量為14.37±0.89次,飛利浦為14.70±0.86次,西門子為14.57±0.87次,東芝為15.77±0.95次,UI為13.67±0.79次,IILS為2次(p<0.04)(圖13a)。在使用傳統工作站時,無論是患者還是無結節正常人,都需要比IILS更多的點擊量。IILS和傳統制造商在患者和正常人的圖像佈局沒有顯著差異。通過不同廠家工作站的250例患者(每個廠家50例)的佈局圖像,每個廠家50例患者所需時間分別為8分鐘(GE)、7.42分鐘(飛利浦)、8.87分鐘(西門子)、8.17分鐘(東芝)和8.63分鐘(UI)。傳統CT工作站的平均佈局時間為16.87秒/患者。相比之下,IILS需要大約6.92秒/患者。與使用其他製造商工作站的患者和無結節相比,使用IILS的時間顯著減少。正如我們所料,IILS在患者和正常病例中比傳統工作站更有效。有趣的是,IILS在無結節病例上花費的時間更少,而傳統工作站需要更長的時間。

另外,對於兩種佈局,我們比較了來自兩個不同佈局系統的無效圖像。我們隨機收集了來自三個製造商工作站的50個佈局結果,總共150個結果。在傳統的人工佈局下,GE、Philips、UI患者的無效圖像分別為8.10±0·42、6.92±0·39、6.15±0·41,IILS患者為0。我們評估了膠片每個網格中的肺區域是否適合每個尺寸。所有的專家都主觀地認為存在著顯著的差異。我們進一步研究兩種佈置方法和工作流程是否會導致肺結節檢測的遺漏。兩名放射科醫生被要求指出兩個胸部CT片和不同平臺上報告的結節的位置。根據報告的描述,我們共發現318個不匹配的結節,46.8%的患者未發現結節,約為0.97/例。此外,327例患者中63例漏診為GGN。

3.9 IILS完全可重現,防止人類測量的不穩定性

我們從幾個方面比較瞭如何正確顯示結節的結果。由於金標準的缺乏,我們評估了哪種標準更穩定或重現性更好。在這方面,總共選擇了8個肺結節,即4個不同尺寸的2個結節(尺寸<3mm,3-6mm,6-10mm,10-3cm)。隨後,兩名放射學家被要求通過工作站,在不同時期10次反覆測量這8個結節的大小和密度;IILS 的測量結果是100%可重複的,在多次測量中表現出完全的一致性,而由專家評估的測量則顯示出不同程度的波動。

3.10 人機耦合操作需要適應過程

我們模擬了放射科醫師的正常工作場景,其中要求兩名放射科醫師在兩小時內對284名患者中的儘可能多的患者做出判斷,使用傳統診斷或基於AI判斷的重新診斷,間隔時間為一個月。在使用AI判斷作為先驗信息後,在消耗時間、效率和絕對不匹配的結節方面有了顯著的改善(p<0.05)。具體來說,基於人工智能已有的判斷,兩位專家不僅減少了同一幅圖像的診斷時間,而且提高了單位時間內的診斷效率。檢測誤差也明顯減小。使用AI後,兩位專家的檢測靈敏度都得到了提高,但專家2的特異性從99.2%下降到60%。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

表3:用於評定不同類型圖像佈局組合的五點標度。

3.11 專家和患者的滿意度都顯示出IILS的友好性

六位對原先結果不知情的專家評估了傳統系統和IILS的結果。我們建立了一個5點評分機制,用於評估由兩種不同佈局系統生成的佈局電子膠片和報告(表3)。專家對IILS進行了明顯更好的評價,所有5點中的3到4點高於傳統方法(p=7.674e-23)。相比之下,患者評分更加極端,表明報告的友好性非常重要(p=8.164e-25)。

3.12 IILS在LUNA16和LIDC/IDRI基準上的性能評價

IILS的性能在兩個基準數據庫上進行了評估,即LUNA16和LIDC/IDRI。Luna16(https://luna16.grand-challenge.org/)共888次CT掃描,最終得分為0.696(排名18)。我們在LIDC / IDRI 數據庫上進一步測試了我們的IILS ( https://wiki.CurraseIfgIsActuv.NET/DISPLAY/PARIS/LIDC-IDRI )有1018次CT 掃描,其包含更多的切片厚度類型並且更類似於真實的臨床環境。對於大於3mm的結節,模型的召回率為88.75%,每例掃描的假陽性率為5.22。

4、討論

在本研究中,通過創建和部署深度神經網絡算法,在有限的人類干涉下,我們的IILS模型展示了胸部CT圖像分析的競爭性性能。此外,機器學習技術用於圖像分析的功效可能超出了胸部CT圖像的範圍—原則上,通過AI和佈局學習的技術可能潛在地用於多個學科的各種醫學圖像。

IILS的一個主要特點是幾乎實時地檢測肺部結節。這種實時性能是由於系統中的Faster RCNN模型。IILS的性能在很大程度上取決於通過訓練模型檢測和分類結節的準確性。雖然與金標準達成了很高的一致性,將AI應用於UI在檢測小結節方面仍存在顯著差異,這可能是由於參加模型訓練的樣本量小(結節數量,n=1119)造成的。

經證實,在檢出結節數量和判斷良惡性方面,IILS優於6名專家。根據目前構建的模型,獲得的ROC曲線下面積達90.6%,具有一定的臨床應用價值。經過嚴格的統計檢驗,在結節檢出量和良惡性判斷方面,IILS優於6名人類專家。補充表S6顯示了一些相關工作和比較結果。相比之下,實驗數據和CNN結構的結果都取得了一定的進展,使我們對IILS的模型性能穩定、可靠和高效充滿了希望。

IILS旨在用於日常實際工作中準確檢測和分類結節,並標準化胸部CT圖像和報告。這種佈局的優點是簡化了醫生仔細翻看圖像,找到有關鍵圖像的肺結節的過程。為優化IILS,我們評估了其在佈局部件中的性能。憑藉AI接近100%的成功率,整個多平面重建程序設計可以自動完成。多平面重建對臨床醫生從多個角度觀察肺結節,做出最終診斷,評估和跟蹤肺結節至關重要。

IILS與傳統佈局系統之間存在十四個差異。其中,內容分為三個部分。第一部分側重於使運營商受益。IILS可能有機會降低成本,包括提高CT利用效率,替代低成本資源甚至取代某些業務。第二部分包括第四至第十一點的內容,這些差異主要集中在最終產出的差異,兩種電子膠片加上兩種不同系統產生的一種相應的報告。儘管IILS製作的電子膠片佈局是從傳統方式的兩個部分演變為三個部分,其中前五個小網格僅用於顯示在不同呈現形式下具有最高惡性風險的一個結節,這將有助於IILS比傳統方法更經常地獲得有效圖像,從而提高了效率。

此外,還出現了一個有趣的現象。驗證在我們的自適應工具的表現中,我們從臨床醫學報告的結果中隨機選擇了來自對照組的327例病例,這些病例報道沒有肺結節。然而,在重新測試的過程中,我們發現在153例(46.8%)中實際錯過了318個結節。錯過的結節主要集中在3-6毫米而不是<3毫米的,主要類型的缺失結節是鈣化結節而不是磨砂玻璃結節。這個問題的可能原因是,在傳統的母語中,鈣化結節可能被“舊病變”所取代,而“磨玻璃結節”則沒有同義詞。

第六點為多維結節;根據基線和隨訪CT的結節直徑和時間間隔的差異可以觀察和估計結節的大小在這兩種掃描之間,腫瘤呈均勻的三維生長。然而,由於繁重的體力勞動,無法對關鍵的肺結節進行三維重建。因此,我們增加了一種自動多維觀察方法,以最大限度地減少誤診率。

第三部分包括第十二至第十四點的內容,比較了IILS和傳統工作站對所有醫生和病人的影響。我們的研究結果表明,所有醫生和患者對IILS的輸出感到滿意。然而,在以經驗為導向的閱讀習慣方面,人工智能在人類專家中的有效性仍然存在差異。在我們的研究中,一名資深放射科醫生(專家1)似乎對人工智能預測肺結節的信心較低,即使IILS做出了判斷,也會仔細遵循閱讀習慣瀏覽圖像。應用人工智能前後,在效率、消耗時間、結節絕對不匹配等方面均有顯著差異。有趣的是,在敏感性和特異性方面沒有發現明顯的改善。相比之下,初級放射科醫生(專家2)似乎在很大程度上信任人工智能。我們推測,人機耦合操作可能仍然需要一個適應過程。

雖然結果很有希望,但我們的研究有一些侷限性。在這項試驗研究中,脊柱側凸患者、原發性或繼發性胸部畸形患者和接受胸外科手術的患者的圖像不包括在訓練和測試集中。因此,需要進一步的臨床收集和測試來評估各種形式的胸腔的臨床準確性。由於胸廓畸形的發生率相對較低,這種影響不會影響我們的總體結論。臨床試驗研究在兩年內進行,IILS正常運作六個月。但是,需要對新系統進行進一步評估,以評估長期準確性和穩定性。

此外,IILS僅限於解決成人肺結節的CT圖像問題,而不是嬰兒,由於嬰兒很少出現肺結節。在各種環境條件下還需要進行更多測試,例如,在極冷,炎熱,乾燥和潮溼的環境中進行測試。還需要測試具有一些噪聲的圖像以評估系統的穩健性。事實上,圖像不完整的患者被納入系統,最終導致異常。因此,在處理特殊圖像,例如不完整圖像,空白圖像或不正確圖像時,當前系統仍有改進的空間,可以引入諸如完整性掃描和灰度確認之類的算法。另外,目前,IILS只能在胸部進行。未來的工作可能包括將設備應用於身體其他部位的圖像。

總之,IILS的性能優於傳統系統,並提供了一種比現有技術更經濟、設計更合適的替代方法,以優化肺部結節的CT佈局,節省費用和提高效率。由於基於自動AI的標準化電子膠片和可視化結構化報告生成,可能會在日常工作流程中建立一個新的標準和一個新的放射學工作流程,並且不需要一些相關的操作員。

為了提供一個可以引用的基準,我們在兩個基準數據庫上評估了我們的IILS的性能。正如預期的那樣,我們得到了相對較高水平的假陽性,特別是LUNA16,因為在預測中,小尺寸的結節被視為假陽性。我們認為,設計的最優診斷模型通常是針對特定群體的,因為我們採用的所有訓練圖像都來自中國,而LUNA16數據庫收集的數據集僅從美國中收集,且沒有任何<3mm結節的標籤。

綜合而言,IILS提供了一種簡單、準確的方法來檢測、分類和佈局肺結節的CT圖像,以提高對中國人群的診斷。因此,IILS為人工智能的臨床應用打開了新的窗口,可能是改善全球醫療質量不平衡的有效途徑。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

2019 全球人工智能與機器人峰會

由中國計算機學會主辦、雷鋒網和香港中文大學(深圳)聯合承辦的 2019 全球人工智能與機器人峰會( CCF-GAIR 2019),將於 2019 年 7 月 12 日至 14 日在深圳舉行。

屆時,諾貝爾獎得主JamesJ. Heckman、中外院士、世界頂會主席、知名Fellow,多位重磅嘉賓將親自坐陣,一起探討人工智能和機器人領域學、產、投等複雜的生存態勢。

今日限量贈送3張1000元門票優惠碼,門票原價1999元,現價僅999元,限量3張,送完即止。在AI掘金志公眾號後臺回覆“CCF-GAIR”,即可獲得門票優惠碼。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%"思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

在AI技術準確檢出肺部結節病灶的前提下,團隊開發了一套胸部CT排版系統,適合全自動或者半自動的影像學圖像的排版問題,可以將以往人工診斷到排版花費約2小時的工作時間,降低到約100秒完成。

作者 | 李雨晨

過去幾年,AI在醫學影像方面取得了諸多成果。在影像學科的臨床工作流程中,肺部病變的良、惡性鑑別診斷,已經成為AI創業公司爭先恐後湧入的賽道。但是,多數創業公司基本上是停留在後端的疾病診斷層面,在此之前的圖像採集、圖像呈現階段,其實都有文章可做。

近日,南京鼓樓醫院醫學影像科張冰團隊,在柳葉刀子刊EBiomedicine發表了一則AI醫療的新成果,直面影像科醫生工作流程前端的痛點問題。

該團隊選擇了一個全新的切入點——從臨床影像工作全流程角度出發,提出了一種基於深度學習的智能成像排版系統(IILS),系統包括AI肺結節檢測和分類和自適應排版工具,用於結節識別的成像報告標準化和工作流程優化。

成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。特別是當肺結節的直徑小於1 cm時,相應報告不能與排版結果100%匹配。

據瞭解,團隊提出的胸部CT排版工具,使用來自11205名患者的CT成像數據,可以適應全自動或者半自動的影像學圖像的排版問題。以往人工診斷到排版需要花費約2小時的時間,在這個工具的幫助下,時間可以降低到約100秒。

以下為論文詳細內容,由AI掘金志學術組編譯。關注AI掘金志公眾號,在對話框回覆關鍵詞“南京鼓樓”,即可獲取原文PDF下載鏈接。

1、引言

臨床任務的一個典型例子是,分類並生成與肺結節的診斷密切相關的胸部CT圖像的佈局。在篩查檢測和隨訪期間,目前的日常工作流程中仍存在五個問題。

1、成像報告標準化缺乏:由於沒有標準化、科學驗證的方法評估結節,試驗放射科醫師制定了診斷隨訪的指南,但沒有強制要求評估方法(圖1)。

2、缺失結節:如果幹激光膠片用作成像信息載體,則無法顯示與報告中的描述相對應的結節(圖2),這是一個常見問題。

3、缺少關鍵圖像:在從CT掃描儀獲取圖像之後,大量圖像不加選擇地輸入到PACS中。此外,許多臨床醫生對成像知識相對不熟悉,需要花費大量時間和精力來瀏覽這些缺乏關鍵信息的複雜圖像,更不用說使用智能手機或平板電腦來檢查這些圖像。而且,許多無效圖像經常出現在一系列圖像中(圖2)。因此,治療過程極其低效。

4、訪問來自其他醫院的圖像困難:如果患者需要他或她自己的圖像,圖像通常在光盤(CD)上刻錄或通過便攜式硬盤驅動器傳輸。然而,許多現代計算機沒有配備CD驅動器或醫院禁止使用計算機的通用串行總線(USB)接口。因此,患者在不同醫院都要進行掃描成像。

5、 缺乏對臨床醫生和患者需求的考慮(圖2):作為放射科醫師,幫助他人更容易閱讀和理解成像結果的機會尚未得到充分利用。因此,迫切需要具有關鍵圖像的電子報告和可視化結構化報告來解決這些問題。

當前,AI的應用似乎忽略了兩個事實。首先,高質量的標準化圖像是人工智能開發的基礎,其次,AI可以接管簡單和重複的工作。

在這項研究中,我們尋求開發基於人工智能技術和自適應佈局工具融合的智能成像排版系統(IILS),以建立日常工作的新流程,併為放射科醫生和臨床醫生提供標準化圖像和報告。同時,我們從三個方面評估IILS的綜合實力,包括i)IILS與臨床專家之間結節診斷效率的比較; ii)IILS可以優化臨床工作流程的程度;iii)IILS的交叉製造適用性(cross-manufacture applicability)。

總之,我們認為AI技術可以通過串聯連接集成到放射學工作流中,而不是基於簡單的並行關係來遵循傳統的工作流程。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖2.當前的手工選片過程和日常工作中的相關問題。例如,成人的典型胸部CT掃描有大約三百張圖像。 然而,最終排版僅約為四十幅圖像。 因此,大約87.7%的圖像被忽略了。相應報告不能與排版結果100%匹配,特別是當肺結節的直徑小於1cm時。 以GE的CT掃描方法為例,在日常工作中使用手動圖像排版時,通常會忽略6(層)×1·25 mm(厚度)= 7·5 mm範圍內的肺組織。因此,當醫生獲得最終的圖像時會遇到以下問題:缺乏成像報告標準化、缺失結節、缺乏關鍵圖像以及缺乏對臨床醫生和患者需求的考慮。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖3. IILS的組成以及如何將其整合到當前的成像過程中。新的IILS包括以下部分:一個是AI肺結節檢測和分類,另一個是自適應排版工具,包括我們團隊發明的自動排版和可視化結構化報告生成。為了確保圖像質量和結果,我們有一位放射科醫生,他通常負責編寫報告,仔細檢查自動生成的結構化報告和圖像排版結果。成像部門日常工作的整個過程包括以下關鍵步驟:i)獲取:從不同臨床科室的患者收集圖像信息; ii)排版:包括日常工作的手動排版和圖像管理; iii)診斷:放射科醫師的圖像診斷,預測和評估。新型智能系統的應用通過串聯而非並聯連接集成到放射工作流中。

2、材料與方法

2.1 實驗軟件和硬件

本文中的模型均在DGX1平臺上進行訓練。(NVIDIA DGX1 system, 8× Tesla V100 GPUs, 128 GB total system GPUMemory, dual 20-core Intel Xeon E5–2698 CPU v4 2.2 GHz, SantaClara, California, USA)

2.2 實驗模型和項目細節

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖4:數據流圖顯示了我們檢測結節和分類良性或惡性病例的方法。本研究採用的數據是從2016年10月到2018年11月,從五個主要的不同CT製造商處獲得的11205名患者、共3527048張胸部CT掃描圖像。

訓練過程分為兩部分,分別由兩個訓練隊列組成。通過卷積神經網絡(CNN)獲得兩個模型,通過5折交叉驗證進行性能評估,然後合併形成IILS的第一層,即用於檢測結節和分類病例的篩選部分。我們將最終的兩個模型部署到包含1965個病例的獨立隊列中,通過六位臨床專家對結節數量的一致性分析,以顯示我們IILS的可信度。

八名有3到25年胸部CT經驗的專家作為檢查員參加了會議。為了在臨床專家的背景下評估我們的卷積神經網絡,我們使用1965名患者的獨立測試集來比較我們的網絡決策和人類專家的決策。隨機選擇作為受試者的1965名患者進行讀者間和讀者間再現性研究。

所有肺結節的數量的確定、良性和惡性結節的判斷由六位專家檢查兩次,間隔為1個月,以最小化記憶偏差。所有決策均由六位專家做出,用於讀者間的再現性分析。加權誤差評分用於反映假陰性結果(未做出決定)比假陽性結果更有害。使用這些加權懲罰點、計算模型和每個人類專家的錯誤率。

即使患者有較大的病變,我們也僅包括小於30 mm的結節,其大小相當於約30 mm的平均直徑,因為肺結節的定義是直徑小於3cm的病變。我們納入了疑似轉移的結節以及可能具有良性組織學特徵的結節。然而,排除了粟粒性結核、間質病變、結節病和重症肺炎。

以下參數用於評估結節特徵和圖像質量對觀察者一致性的影響:總結節大小(最大直徑,毫米)、結節類型、良性或惡性以及肺實質內結節的密度。從數據庫中提取參數結節大小、良性或惡性和類型。結節的密度由沒有參與閱讀過程的專家(H.Y 和H.W)測量。將兩個約1cm的感興趣區域放置在結節中的兩個均勻區域中,並且兩次測量中平均的Hounsfield units標準偏差是密度的度量。

2.3 病人分類

訓練過程中的用例隨機分為訓練集80%和驗證集20%(圖4)。訓練集用於訓練算法,驗證集用於模型選擇,測試集用於評估最終選擇的模型。在確定百分比分割時,目標是為算法保留足夠的數據以進行訓練,但是具有足夠的驗證和測試用例以保持模型準確性的合理置信區間。 該數據集代表了在參與診所提供和接受治療的最常見的實性、鈣化或磨玻璃結節患者。

2.4 圖像標註

在訓練之前,每個圖像都經過分層分級系統,該系統由多級訓練有素的評分者組成,他們具有逐級遞增的專業知識,可用於圖像標籤的驗證和校正。導入數據庫的每個圖像都與患者最近診斷的標籤相匹配。第一級評分員包括具有呼吸系統和成像基礎知識的成員。這一級評分員進行了初步的質量控制,並排除了包含嚴重偽影或顯著降低圖像分辨率的胸部CT圖像。第二級評分員由兩位專家組成,他們對通過第一級的每張圖像進行獨立評分。記錄胸部CT圖像上是否存在實性,鈣化或磨玻璃結節和其他可見的病變。最後,第二層由兩名高級呼吸和成像專家組成,每位專家擁有超過15年的臨床呼吸和成像經驗,獨立驗證每張圖像的真實標籤。所有圖像的驗證子集由兩名專家分別評分,不一致的臨床標籤由由高級專家仲裁,以解釋評分中的人為錯誤。

2.5 軟件支持

軟件系統的開發在Linux Ubuntu 18.04環境下進行。Pycharm 和 VS Code用作開發的IDE。Chrome調試器用於測試和調試UI / UX。 軟件的實現細節是保密的,以下部分主要描述了實現的設計和邏輯。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖5:排版示例加上可視化結構報告以及與傳統排版和報告的比較。

(a)使用IILS選擇後的新圖像排版。新的排版圖像被分為三個部分(兩個紅框的區域,代表關鍵圖像所在的區域)。顯然,與(c)相比沒有無效圖像(標有橙色下劃線)。排版第一部分開頭的五個小框依次顯示:1)肺窗條件下結節的最大橫截面切片的圖像(WW:1500; WL:-500),2)具有長徑和短徑測量數據的圖像,3)縱隔窗口條件下的結節圖像(WW:350,WL:50),4)結節的冠狀圖像重建,5)結節的矢狀圖像重建。第二部分是在縱隔窗口條件下每層間隔的一組圖像。最後一部分是一組薄層肺組織圖像,大約分為六層。另一個便利是,片子上任一單元格中的每個圖像都可以通過其切片ID進行跟蹤,並通過雙擊它來重定向到圖像集中的原始位置。還自動生成與片子相關的可視化結構報告。有關詳細信息,請參見視頻2。

(b):如果患者沒有肺結節,IILS給出的排版和報告將與傳統系統給出的相似。

(c):使用傳統的手工排版形式,表格分為兩部分。 前部包括縱隔組織圖像,後部是肺組織圖像。 傳統排版格式的主要問題是缺少關鍵圖像,各種無效圖像(一些帶橙色下劃線的圖像),以及缺少鏈接功能。 相關報告填充了文本,沒有生成結構化報告。

2.6 自動排版

通過將固定輸出過程分成以下子任務來執行自動排版:1,驗證; 2,輸出。在驗證任務中,我們的程序首先處理最重要的結節,生成五個放大的輸出圖像,聚焦在結節上,同時突出顯示矩形,標明肺窗形式的結節位置,長徑測量,縱隔窗 和兩個方向透視。 五個輸出圖像放置在第一行,然後是30個縱隔窗口圖像,其餘的為肺窗口。 具體而言,第一部分五個網格是單個結節的自動排版,具有最高的惡性概率風險,這可由AI預測。 五張圖片也可以由放射科醫師驗證和覆蓋。 自適應排版工具的輸出包括兩個電子排片和一個由四組圖像組成的結構化報告。

與傳統報告的比較,IILS提供了以下信息:i)基本信息顯示:患者信息,檢查信息,放射科醫師信息等。ii)結果(來自AI預測和放射科醫師的雙重確認):標準化描述肺結節圖像,包括結節位置,形態和密度,圖像信息的層數,結節長徑,體積,平均CT值,以及結節的惡性概率。此外,我們為放射科醫師預留了足夠的空間,可以為其他病變編寫定期報告。 iii)診斷感想:由放射科醫師撰寫的診斷建議。肺部全部範圍的適應性是主要關注點,其意味著五個圖像是否附在第一組,即 一組顯示結節的五種形式圖像具有最高的AI預測得分為惡性,符合我們的預設的將受到高度重視。驗證後,可以將排片導出為可打印格式,以便為放射科醫師和患者提供可視化信息,同時自動生成結構報告。

我們還推斷一個好的排版系統主要包括以下三個主要內容:1)任何可靠,客觀的測量數據的所有關鍵圖像; 2)顯示腫瘤特徵的一系列圖像,包括形狀,數量,密度,大小,增強,多角度觀察和後續比較; 3)胸部縱隔窗和肺窗圖像連續顯示(圖5a-b)。 此外,我們手工顯示當前排版形式的圖片,這在日常工作中作為比較非常普遍(圖5c)。

2.7 結構化報告

結構化報告生成程序旨在完成常見CT掃描場景中的完整工作流程(補充圖S2)。與傳統報告的比較,我們計劃為放射科醫師和患者提供圖像和結果的可視化。該計劃主要通過以下三個步驟進行:1,收集資源;2,渲染圖像;3,輸出。我們現在將詳細描述每個步驟。為了收集資源,我們需要在我們的程序中加載多個資源,包括DICOM圖像集、AI預測結節、患者/醫院信息,以及捕獲放射科醫師的結果和診斷感想。收集必要的資源後,我們繼續進行渲染部分。該程序將首先根據其重要性對結節進行排序(由AI定義,但可以由操作員覆蓋),然後在相應的圖像上使用矩形框渲染每個結節。該程序還放大了圖像並設置其中心,重點放在結節本身。渲染和轉換後,將觸發特殊事件偵聽器以通知程序捕獲渲染數據。最後,程序生成預定義的可打印輸出。

2.8 定量和統計分析

ROC曲線繪製了真陽性率(TPR,靈敏度)與假陽性率(1- 特異度)的關係曲線。通過將正確標記的惡性結節的總數和正確標記的良性結節的總數分別除以測試圖像的結節總數來確定靈敏度和特異度。連續變量被描述為平均值±標準誤差(SEM),並且分類變量被表示為諸如良性/惡性(B / M)的特徵。將傳統圖像排版組與智能系統組和正常對照組之間的臨床特徵通過Mann-Whitney U檢驗,卡方檢驗或Fisher精確檢驗進行比較。使用雙樣本Mann-Whitney U檢驗比較傳統排版組與智能佈局組和正常對照組之間的差異。Kappa統計用於衡量兩個評估者之間的一致性程度,即AI和人類專家。kappa值至少為0.75表示良好的一致性。 然而,我們認為較大的kappa值,例如0.90,是優選的。雙尾P值<0.05被認為具有統計學意義。

3、結果

3.1患者和圖像特徵

具有四種不同結節大小的病例及其特徵和演變表明隨訪的重要性(圖6a)。表1總結了用於訓練、驗證和獨立測試數據集的患者和結節的特徵。根據文獻,結節類型分為實性結節、鈣化結節和磨砂玻璃結節。工作流程圖的總體實驗設計如圖6b所示。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖6:應用人工智能技術對不同大小肺結節的檢測過程進行了演示,並給出了整個實驗設計的流程圖。

3.2 模型設計和性能評估

IILS系統的核心設計是深度學習模型,該模型分為兩個部分,Faster RCNN和ResNet。Faster RCNN主要負責肺結節的檢測和定位。Faster RCNN 還有助於將肺結節分為以下幾類:0-3 mm、3-6mm、6-0mm、10-30mm肺結節,實性結節、鈣化結節和磨砂玻璃結節(GGNs)。第二部分是ResNet,主要負責肺結節良惡性的分類。在第一部分中,關於特徵提取,我們使用了ResNet-50 中的層conv4_x作為輸出。在我們的嘗試中,ResNet-50中的層conv4_x在檢測中表現出最佳性能。在區域建議網絡(RPN)中,採用二元交叉熵作為分類損失函數,選取smooth L1損失函數作為迴歸損失函數。模型的訓練過程完善,曲線均達到收斂。該模型的訓練過程是完美的,所有曲線均達到收斂。RPN的訓練過程如圖7a-b所示,所有曲線收斂為零。這也表明我們的模型能夠很好地區分前景和背景,並提供了一個精確的前景邊界框。圖7c曲線也收斂到零,該曲線的收斂性表明,該模型能夠很好地區分7類肺結節。第二部分,我們用ResNet對結節良惡性進行了分類。為了獲得更準確的模型並避免梯度分散等問題,我們選擇了ResNet。在IILS系統中,ResNet顯現出了優異的分類性能。曲線的收斂代表了我們分類工作的成功;在模型精度方面,訓練和驗證曲線均接近100%(訓練過程為100%,驗證過程為97%)。在損失函數部分,曲線也顯示該模型在良惡性結節的分類上表現良好。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖7:檢測結節的訓練過程的性能。

3.3 IILS與人類專家對結節診斷效率的比較

我們評估了我們的模型檢測和分類最常見的肺結節。該模型檢測並分類具有不同等級良性和惡性腫瘤結節的圖像作為“原發性結節”。這些情況需要相對緊急的轉診到相關的呼吸內科醫生或胸外科醫生那裡進行最終治療。該系統將具有良性肺或假陽性結節的圖像分類,其具有成為惡性腫瘤的可能性低,“僅在可視化結構化報告中顯示”。在臨床工作中非常常見的微觀結節不適用於惡性腫瘤;因此,轉診給相關專家進行治療的緊迫性較小。

在這裡,我們試圖解釋人工智能與人類專家相比在檢測肺結節方面的優勢。在本研究中,我們採用了一種簡單直觀的方法,即對檢測到的結節與金標準篩選到的結節的一致性程度進行評估。以病理金標準為參照,分別採用Kappa一致性係數和Mann-Whitney U檢驗進行一致性分析。引人注目的是,除了AI之外,在所有成對比較中存在差異(AI為p=0.138,其他比較為p<0.001)。與人類專家相比,AI也可以與金標準檢測到的肺結節顯著一致,AI由於其最高的一致性係數而脫穎而出(AI kappa=0.94,其他比較p<0.001)。我們進一步比較了不同尺寸範圍內檢測到的結節的一致性,並證明無論結核大小範圍如何,AI都顯示出超出人類專家的金標準更有利的一致性。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖10:應用於五個不同製造商的成像設備時,AI在肺結節診斷一致性方面的表現。

3.4 IILS的交叉-設備適用性

既然AI已被證實在檢測結節方面優於人類專家,無論大小如何,有必要從另一個角度來判斷AI的適用性。基本上,AI的診斷取決於現有製造商生產的圖像;因此,評估不同製造商的圖像輸出對AI檢測到的結節的影響是合理的。為了在參考黃金標準的條件下探索AI對不同成像製造商的適應性,通過Mann-Whitney U檢驗和kappa一致性分析,進一步評價AI與金標準診斷不同廠家不同大小結節的一致性。總體而言,AI在五家制造商上配置良好,與黃金標準相比沒有差異(通用為p=0.576,飛利浦為p=0.472,西門子為p=0.988,東芝為p=0.376,聯影(UI)為p=0.343)。此外,實現了高一致性,kappa係數為0.87到0.99之間(圖10)。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖11 評估AI在識別良性或惡性病變中的表現

3.5 通過獨立數據驗證IILS在診斷方面優於人類專家的表現

使用284例病理結果患者的獨立數據進行比較,使用相同的數據集比較惡性肺結節和良性結節,以確定模型性能的準確性。我們推斷,我們最初的預測模型完全適用於臨床,因為其ROC下面積對於惡性肺結節相對於良性肺結節高達90.6%(圖11a)。在0.5的評分截斷下,124例預測為真陽性,1479例為真陰性。約有38例被標記為假陽性,181例為假陰性。敏感性76.5%,特異性89.1%(圖11b)。在另一組284例病理金標準患者中,模型和人類專家的預測性能在曲線上進行了比較,得出結論:人工智能在敏感性和特異性方面優於其他6名專家。此外,與人類專家相比,人工智能顯示出最高的準確性;正確預測248例(87.3%,預測為真陽性或真陰性的人數除以284),錯誤預測最少,36例(12.7%)。

3.6 自動自適應佈局工具的設計與評估

根據2018年NCCN指南的要求,我們與六位專家(三位放射科醫生和三位臨床醫生)進行了討論後,就良好的圖像佈局形式達成了最終共識。為了模擬醫學成像部門胸部CT掃描後的日常工作結果,我們設計了一種自動自適應佈局工具,可以生成“自動膠片佈局和肺結節結構報告”,以連接到CNN網絡的輸出。自動自適應佈局工具可以導出關鍵肺結節圖像(具有增加的惡性風險的結節)的膠片佈局並生成結構化報告。兩種膠片佈局都以固定格式使用(一部膠片上有5×8網格)。將180名患者的胸部CT圖像混合並連續輸入到IILS,以模擬來自不同製造商的圖像在日常工作中進入工作站的情況。評估了自適應佈局工具的特性以及是否可以成功布局。這180名患者的圖像總數為60660,包括縱隔12240例窗口圖像和48420張肺窗圖像。使用5點量表方法來最終判斷電子膠片的佈局。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

表2:用於評估佈局一致性和準確性的五點量表。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

圖12 五家制造商的IILS部署量化。

3.7 五點量表評估高質量的IILS

我們利用五點量表(表2)來評估IILS的質量。在所有類型的製造商中,只有少數幾個分數無法達到第四等級(圖12a)。正常佈局情況下沒有發現遺漏,然而,與正常對照組相比(p=0.04)(圖12b),患者在第四區的幾個病例中出現了漏診。我們還比較了從每個量表得分中得出的總分,總的來說,西門子在使用IILS時效果最好。總分顯示,與結節患者相比,IILS更適合無結節者(p=0.04)(圖12d)。

3.8 IILS與傳統工作站相比的優點:更少的時間,沒有無效的圖像和零遺漏

考慮到需要點擊時間,五個主要廠商設備佈局的平均點擊次數為14.45±0.34次。其中GE平均點擊量為14.37±0.89次,飛利浦為14.70±0.86次,西門子為14.57±0.87次,東芝為15.77±0.95次,UI為13.67±0.79次,IILS為2次(p<0.04)(圖13a)。在使用傳統工作站時,無論是患者還是無結節正常人,都需要比IILS更多的點擊量。IILS和傳統制造商在患者和正常人的圖像佈局沒有顯著差異。通過不同廠家工作站的250例患者(每個廠家50例)的佈局圖像,每個廠家50例患者所需時間分別為8分鐘(GE)、7.42分鐘(飛利浦)、8.87分鐘(西門子)、8.17分鐘(東芝)和8.63分鐘(UI)。傳統CT工作站的平均佈局時間為16.87秒/患者。相比之下,IILS需要大約6.92秒/患者。與使用其他製造商工作站的患者和無結節相比,使用IILS的時間顯著減少。正如我們所料,IILS在患者和正常病例中比傳統工作站更有效。有趣的是,IILS在無結節病例上花費的時間更少,而傳統工作站需要更長的時間。

另外,對於兩種佈局,我們比較了來自兩個不同佈局系統的無效圖像。我們隨機收集了來自三個製造商工作站的50個佈局結果,總共150個結果。在傳統的人工佈局下,GE、Philips、UI患者的無效圖像分別為8.10±0·42、6.92±0·39、6.15±0·41,IILS患者為0。我們評估了膠片每個網格中的肺區域是否適合每個尺寸。所有的專家都主觀地認為存在著顯著的差異。我們進一步研究兩種佈置方法和工作流程是否會導致肺結節檢測的遺漏。兩名放射科醫生被要求指出兩個胸部CT片和不同平臺上報告的結節的位置。根據報告的描述,我們共發現318個不匹配的結節,46.8%的患者未發現結節,約為0.97/例。此外,327例患者中63例漏診為GGN。

3.9 IILS完全可重現,防止人類測量的不穩定性

我們從幾個方面比較瞭如何正確顯示結節的結果。由於金標準的缺乏,我們評估了哪種標準更穩定或重現性更好。在這方面,總共選擇了8個肺結節,即4個不同尺寸的2個結節(尺寸<3mm,3-6mm,6-10mm,10-3cm)。隨後,兩名放射學家被要求通過工作站,在不同時期10次反覆測量這8個結節的大小和密度;IILS 的測量結果是100%可重複的,在多次測量中表現出完全的一致性,而由專家評估的測量則顯示出不同程度的波動。

3.10 人機耦合操作需要適應過程

我們模擬了放射科醫師的正常工作場景,其中要求兩名放射科醫師在兩小時內對284名患者中的儘可能多的患者做出判斷,使用傳統診斷或基於AI判斷的重新診斷,間隔時間為一個月。在使用AI判斷作為先驗信息後,在消耗時間、效率和絕對不匹配的結節方面有了顯著的改善(p<0.05)。具體來說,基於人工智能已有的判斷,兩位專家不僅減少了同一幅圖像的診斷時間,而且提高了單位時間內的診斷效率。檢測誤差也明顯減小。使用AI後,兩位專家的檢測靈敏度都得到了提高,但專家2的特異性從99.2%下降到60%。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

表3:用於評定不同類型圖像佈局組合的五點標度。

3.11 專家和患者的滿意度都顯示出IILS的友好性

六位對原先結果不知情的專家評估了傳統系統和IILS的結果。我們建立了一個5點評分機制,用於評估由兩種不同佈局系統生成的佈局電子膠片和報告(表3)。專家對IILS進行了明顯更好的評價,所有5點中的3到4點高於傳統方法(p=7.674e-23)。相比之下,患者評分更加極端,表明報告的友好性非常重要(p=8.164e-25)。

3.12 IILS在LUNA16和LIDC/IDRI基準上的性能評價

IILS的性能在兩個基準數據庫上進行了評估,即LUNA16和LIDC/IDRI。Luna16(https://luna16.grand-challenge.org/)共888次CT掃描,最終得分為0.696(排名18)。我們在LIDC / IDRI 數據庫上進一步測試了我們的IILS ( https://wiki.CurraseIfgIsActuv.NET/DISPLAY/PARIS/LIDC-IDRI )有1018次CT 掃描,其包含更多的切片厚度類型並且更類似於真實的臨床環境。對於大於3mm的結節,模型的召回率為88.75%,每例掃描的假陽性率為5.22。

4、討論

在本研究中,通過創建和部署深度神經網絡算法,在有限的人類干涉下,我們的IILS模型展示了胸部CT圖像分析的競爭性性能。此外,機器學習技術用於圖像分析的功效可能超出了胸部CT圖像的範圍—原則上,通過AI和佈局學習的技術可能潛在地用於多個學科的各種醫學圖像。

IILS的一個主要特點是幾乎實時地檢測肺部結節。這種實時性能是由於系統中的Faster RCNN模型。IILS的性能在很大程度上取決於通過訓練模型檢測和分類結節的準確性。雖然與金標準達成了很高的一致性,將AI應用於UI在檢測小結節方面仍存在顯著差異,這可能是由於參加模型訓練的樣本量小(結節數量,n=1119)造成的。

經證實,在檢出結節數量和判斷良惡性方面,IILS優於6名專家。根據目前構建的模型,獲得的ROC曲線下面積達90.6%,具有一定的臨床應用價值。經過嚴格的統計檢驗,在結節檢出量和良惡性判斷方面,IILS優於6名人類專家。補充表S6顯示了一些相關工作和比較結果。相比之下,實驗數據和CNN結構的結果都取得了一定的進展,使我們對IILS的模型性能穩定、可靠和高效充滿了希望。

IILS旨在用於日常實際工作中準確檢測和分類結節,並標準化胸部CT圖像和報告。這種佈局的優點是簡化了醫生仔細翻看圖像,找到有關鍵圖像的肺結節的過程。為優化IILS,我們評估了其在佈局部件中的性能。憑藉AI接近100%的成功率,整個多平面重建程序設計可以自動完成。多平面重建對臨床醫生從多個角度觀察肺結節,做出最終診斷,評估和跟蹤肺結節至關重要。

IILS與傳統佈局系統之間存在十四個差異。其中,內容分為三個部分。第一部分側重於使運營商受益。IILS可能有機會降低成本,包括提高CT利用效率,替代低成本資源甚至取代某些業務。第二部分包括第四至第十一點的內容,這些差異主要集中在最終產出的差異,兩種電子膠片加上兩種不同系統產生的一種相應的報告。儘管IILS製作的電子膠片佈局是從傳統方式的兩個部分演變為三個部分,其中前五個小網格僅用於顯示在不同呈現形式下具有最高惡性風險的一個結節,這將有助於IILS比傳統方法更經常地獲得有效圖像,從而提高了效率。

此外,還出現了一個有趣的現象。驗證在我們的自適應工具的表現中,我們從臨床醫學報告的結果中隨機選擇了來自對照組的327例病例,這些病例報道沒有肺結節。然而,在重新測試的過程中,我們發現在153例(46.8%)中實際錯過了318個結節。錯過的結節主要集中在3-6毫米而不是<3毫米的,主要類型的缺失結節是鈣化結節而不是磨砂玻璃結節。這個問題的可能原因是,在傳統的母語中,鈣化結節可能被“舊病變”所取代,而“磨玻璃結節”則沒有同義詞。

第六點為多維結節;根據基線和隨訪CT的結節直徑和時間間隔的差異可以觀察和估計結節的大小在這兩種掃描之間,腫瘤呈均勻的三維生長。然而,由於繁重的體力勞動,無法對關鍵的肺結節進行三維重建。因此,我們增加了一種自動多維觀察方法,以最大限度地減少誤診率。

第三部分包括第十二至第十四點的內容,比較了IILS和傳統工作站對所有醫生和病人的影響。我們的研究結果表明,所有醫生和患者對IILS的輸出感到滿意。然而,在以經驗為導向的閱讀習慣方面,人工智能在人類專家中的有效性仍然存在差異。在我們的研究中,一名資深放射科醫生(專家1)似乎對人工智能預測肺結節的信心較低,即使IILS做出了判斷,也會仔細遵循閱讀習慣瀏覽圖像。應用人工智能前後,在效率、消耗時間、結節絕對不匹配等方面均有顯著差異。有趣的是,在敏感性和特異性方面沒有發現明顯的改善。相比之下,初級放射科醫生(專家2)似乎在很大程度上信任人工智能。我們推測,人機耦合操作可能仍然需要一個適應過程。

雖然結果很有希望,但我們的研究有一些侷限性。在這項試驗研究中,脊柱側凸患者、原發性或繼發性胸部畸形患者和接受胸外科手術的患者的圖像不包括在訓練和測試集中。因此,需要進一步的臨床收集和測試來評估各種形式的胸腔的臨床準確性。由於胸廓畸形的發生率相對較低,這種影響不會影響我們的總體結論。臨床試驗研究在兩年內進行,IILS正常運作六個月。但是,需要對新系統進行進一步評估,以評估長期準確性和穩定性。

此外,IILS僅限於解決成人肺結節的CT圖像問題,而不是嬰兒,由於嬰兒很少出現肺結節。在各種環境條件下還需要進行更多測試,例如,在極冷,炎熱,乾燥和潮溼的環境中進行測試。還需要測試具有一些噪聲的圖像以評估系統的穩健性。事實上,圖像不完整的患者被納入系統,最終導致異常。因此,在處理特殊圖像,例如不完整圖像,空白圖像或不正確圖像時,當前系統仍有改進的空間,可以引入諸如完整性掃描和灰度確認之類的算法。另外,目前,IILS只能在胸部進行。未來的工作可能包括將設備應用於身體其他部位的圖像。

總之,IILS的性能優於傳統系統,並提供了一種比現有技術更經濟、設計更合適的替代方法,以優化肺部結節的CT佈局,節省費用和提高效率。由於基於自動AI的標準化電子膠片和可視化結構化報告生成,可能會在日常工作流程中建立一個新的標準和一個新的放射學工作流程,並且不需要一些相關的操作員。

為了提供一個可以引用的基準,我們在兩個基準數據庫上評估了我們的IILS的性能。正如預期的那樣,我們得到了相對較高水平的假陽性,特別是LUNA16,因為在預測中,小尺寸的結節被視為假陽性。我們認為,設計的最優診斷模型通常是針對特定群體的,因為我們採用的所有訓練圖像都來自中國,而LUNA16數據庫收集的數據集僅從美國中收集,且沒有任何<3mm結節的標籤。

綜合而言,IILS提供了一種簡單、準確的方法來檢測、分類和佈局肺結節的CT圖像,以提高對中國人群的診斷。因此,IILS為人工智能的臨床應用打開了新的窗口,可能是改善全球醫療質量不平衡的有效途徑。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%

2019 全球人工智能與機器人峰會

由中國計算機學會主辦、雷鋒網和香港中文大學(深圳)聯合承辦的 2019 全球人工智能與機器人峰會( CCF-GAIR 2019),將於 2019 年 7 月 12 日至 14 日在深圳舉行。

屆時,諾貝爾獎得主JamesJ. Heckman、中外院士、世界頂會主席、知名Fellow,多位重磅嘉賓將親自坐陣,一起探討人工智能和機器人領域學、產、投等複雜的生存態勢。

今日限量贈送3張1000元門票優惠碼,門票原價1999元,現價僅999元,限量3張,送完即止。在AI掘金志公眾號後臺回覆“CCF-GAIR”,即可獲得門票優惠碼。

思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%思路清奇!南京鼓樓醫院醫療AI成果登柳葉刀子刊:AI將影像排版時間縮短至100秒,準確率近於100%"