'王童:知行合一 · 當大數據遇到生物學'

"
"
王童:知行合一 · 當大數據遇到生物學

[ 導讀 ]清華-青島數據科學研究院(以下簡稱“數據院”)自2014年4月成立以來,秉承“學校統籌,問題引導,社科突破,商科優勢,工科整合,業界聯盟”的指導原則,搭建跨學科交叉融合平臺,創新跨學科交叉培養模式,培養具有大數據思維和創新能力的“Π”型人才。

大數據能力提升項目由清華大學研究生院,數據院及相關院系共同組織,面向在校研究生(包括碩士和博士)。項目形成大數據思維與技能、跨界學習、實操應用相結合的大數據課程體系和線上線下混合式教學模式,旨在提升學生數據分析和管理數據的能力,讓學生在本專業的學習和實踐中擴寬思維,並鍛鍊在本專業領域的數據研究能力。

截至2019年6月,已有來自31個院系的271名同學獲得“大數據能力提升項目”證書,其中信息類同學160人,非信息類同學111人。

大數據能力提升項目究竟為同學們帶來了什麼改變?下面,就讓我們聆聽優秀畢業生們與大數據結緣的故事,一起發現大數據對他們學習、科研和創業的啟發與幫助吧!

"
王童:知行合一 · 當大數據遇到生物學

[ 導讀 ]清華-青島數據科學研究院(以下簡稱“數據院”)自2014年4月成立以來,秉承“學校統籌,問題引導,社科突破,商科優勢,工科整合,業界聯盟”的指導原則,搭建跨學科交叉融合平臺,創新跨學科交叉培養模式,培養具有大數據思維和創新能力的“Π”型人才。

大數據能力提升項目由清華大學研究生院,數據院及相關院系共同組織,面向在校研究生(包括碩士和博士)。項目形成大數據思維與技能、跨界學習、實操應用相結合的大數據課程體系和線上線下混合式教學模式,旨在提升學生數據分析和管理數據的能力,讓學生在本專業的學習和實踐中擴寬思維,並鍛鍊在本專業領域的數據研究能力。

截至2019年6月,已有來自31個院系的271名同學獲得“大數據能力提升項目”證書,其中信息類同學160人,非信息類同學111人。

大數據能力提升項目究竟為同學們帶來了什麼改變?下面,就讓我們聆聽優秀畢業生們與大數據結緣的故事,一起發現大數據對他們學習、科研和創業的啟發與幫助吧!

王童:知行合一 · 當大數據遇到生物學


2019年畢業於生命科學學院生物學專業計算生物學方向的博士生王童,在2015年加入大數據能力提升項目。在大數據的四年中,他將大數據技術與生物學原理緊密結合,利用深度學習和大數據技術進行蛋白質三維結構預測和蛋白摺疊機理的研究,第一次把深度學習技術和大數據技術應用到了片段組裝法的蛋白質結構預測中。他即將入職微軟亞太研究集團,任高級算法工程師。

一、我與大數據:專業結合,綜合培養,團隊合作,長期追蹤

與大數據結緣,王童更多是出於自己的專業。計算生物學經常面對的是百億到千億量級的數據量,需要多次處理、清洗的龐雜數據。

“生物信息也是一種大數據。”

大數據能力提升項目的課程包括了大數據理論學習、大數據實踐實習以及相關知名企業的參觀走訪等內容。

理論學習主要是對本科所學的數理基礎知識、統計學習方法,高等數學學習方法等的回顧、總結和梳理。項目實踐主要是將理論知識運用到具體的項目和實踐中。

以王童印象最深的徐葳老師的大數據系統課程為例,前三分之一以講授經典算法、軟件和操作等大數據基礎知識;後三分之二則是分組做一個真實的數據課題。他當時參與的一個課題是《微博水軍的判別》。該課題頗具挑戰性:數據量多達數千萬條,需要用老師上課教的memory reduce的算法進行數據處理;數據很雜,需要做大量的數據清洗。

“理論和實踐相結合,知行合一。”王童在採訪中反覆強調了這一觀點。“清華的同學很聰明也很努力。但是在實際應用和工作中還是需要重新去學一些東西和如何將理論運用到實際當中。實現從理論到應用的過渡,我建議大家利用好在大數據實踐課和實踐項目中應用課堂上學習的內容的機會;並且,將大數據理論運用到研究生的實習或者博士生的課題中也是一個很值得嘗試的方法。”

企業對接需要了解企業的需求,彙報工作進展和協商企業可提供的幫助。在這個過程中,王童真實地感知到這個行業的現狀,有助於他今後的實習和職業選擇。他也建議同學們要勇於和項目、企業、公司合作。“大數據離不開實際的項目,只有真正和企業溝通與合作,你才能真正瞭解企業的需求以及如何把技術轉變為生產力,再把生產機轉化為產品和價值。技術落地和技術變現是在課堂上和實驗室很少涉及的,但是卻是需要同學們認真考慮的一個很重要的問題。

大數據能力提升項目彙集了來自不同專業、不同年齡、不同背景的同學,在團隊合作中,雖然開始可能會有障礙,但最後收穫的是思維的碰撞和深厚的友誼。

團隊組成很多樣,文理工科都有,組員各自發揮自己所長,計算機系同學工程能力和代碼實踐能力強,我作為組裡唯一的博士生負責設計科研路線和模型算法,文科的同學則負責項目需求調研和與客戶的交流,明確客戶的需求和協商我們需要的幫助,整個課題做下來,我們這個團隊裡建立了非常深厚的友誼。

對學員的長期追蹤是大數據能力提升項目的突出特點。在大數據的四年裡,王童學到了很多。而在畢業以後,他與大數據的聯繫也不曾間斷。

“我一直和老師們保持聯繫,積極參加一些相關的活動,老師們也對我有長期的跟蹤和關注,也很關心我的畢業去向和工作。我覺得這種長期跟蹤的培養模式對項目裡的學員有非常大的幫助。”

二、大數據與生物:優化預測蛋白質結構的算法

王童的博士研究課題是蛋白質結構預測,預測的模型經過兩個階段的優化,各項指標都取得了巨大飛躍:

“我的博士研究課題可以分為兩個階段,第一個課題是和哈佛大學合作的聯合項目,這個項目將序列預測蛋白質結構的F1-Score從之前其他優秀算法取得的45%提高到了約60%,第二個課題則在世界範圍內首先開發了一些相關算法,進一步改善第一個課題中的模型,將第一個課題中的F1-Score從60%提升到90%。可以說我們的研究成果是在所有指標上都是領先世界的。”

在優化模型的過程中,大數據算法在其中發揮了重要作用。

“第一個課題主要運用了傳統機器學習的算法,包括邏輯迴歸模型、集成學習的方法去建模,處理的是百億量級的數據。我們嘗試了經典傳統機器學習的三種模型:邏輯迴歸,隨機森林,支持向量機,最後發現邏輯迴歸特別適合海量數據樣本的處理,效率高、速度快。在準確性差不多的情況下邏輯迴歸的速度是其他兩種方法的幾十倍甚至上百倍。但是邏輯迴歸模型的問題是它的準確性不高。

第二個課題用的技術是LSTM(長短時記憶網絡)、聚合殘差網絡ResNeXt和知識蒸餾技術。前兩個技術特別適合處理序列問題和對序列信息建模,也提高了準確率,但是與此同時速度也減慢了。而知識蒸餾技術主要是用來對模型進行加速,也可以說是一種‘加速算法’,在準確性幾乎不變的情況下,我們的模型運行時間縮短了三倍以上。”

王童用圖表生動地為我們展示了他們算法的優勢:


"
王童:知行合一 · 當大數據遇到生物學

[ 導讀 ]清華-青島數據科學研究院(以下簡稱“數據院”)自2014年4月成立以來,秉承“學校統籌,問題引導,社科突破,商科優勢,工科整合,業界聯盟”的指導原則,搭建跨學科交叉融合平臺,創新跨學科交叉培養模式,培養具有大數據思維和創新能力的“Π”型人才。

大數據能力提升項目由清華大學研究生院,數據院及相關院系共同組織,面向在校研究生(包括碩士和博士)。項目形成大數據思維與技能、跨界學習、實操應用相結合的大數據課程體系和線上線下混合式教學模式,旨在提升學生數據分析和管理數據的能力,讓學生在本專業的學習和實踐中擴寬思維,並鍛鍊在本專業領域的數據研究能力。

截至2019年6月,已有來自31個院系的271名同學獲得“大數據能力提升項目”證書,其中信息類同學160人,非信息類同學111人。

大數據能力提升項目究竟為同學們帶來了什麼改變?下面,就讓我們聆聽優秀畢業生們與大數據結緣的故事,一起發現大數據對他們學習、科研和創業的啟發與幫助吧!

王童:知行合一 · 當大數據遇到生物學


2019年畢業於生命科學學院生物學專業計算生物學方向的博士生王童,在2015年加入大數據能力提升項目。在大數據的四年中,他將大數據技術與生物學原理緊密結合,利用深度學習和大數據技術進行蛋白質三維結構預測和蛋白摺疊機理的研究,第一次把深度學習技術和大數據技術應用到了片段組裝法的蛋白質結構預測中。他即將入職微軟亞太研究集團,任高級算法工程師。

一、我與大數據:專業結合,綜合培養,團隊合作,長期追蹤

與大數據結緣,王童更多是出於自己的專業。計算生物學經常面對的是百億到千億量級的數據量,需要多次處理、清洗的龐雜數據。

“生物信息也是一種大數據。”

大數據能力提升項目的課程包括了大數據理論學習、大數據實踐實習以及相關知名企業的參觀走訪等內容。

理論學習主要是對本科所學的數理基礎知識、統計學習方法,高等數學學習方法等的回顧、總結和梳理。項目實踐主要是將理論知識運用到具體的項目和實踐中。

以王童印象最深的徐葳老師的大數據系統課程為例,前三分之一以講授經典算法、軟件和操作等大數據基礎知識;後三分之二則是分組做一個真實的數據課題。他當時參與的一個課題是《微博水軍的判別》。該課題頗具挑戰性:數據量多達數千萬條,需要用老師上課教的memory reduce的算法進行數據處理;數據很雜,需要做大量的數據清洗。

“理論和實踐相結合,知行合一。”王童在採訪中反覆強調了這一觀點。“清華的同學很聰明也很努力。但是在實際應用和工作中還是需要重新去學一些東西和如何將理論運用到實際當中。實現從理論到應用的過渡,我建議大家利用好在大數據實踐課和實踐項目中應用課堂上學習的內容的機會;並且,將大數據理論運用到研究生的實習或者博士生的課題中也是一個很值得嘗試的方法。”

企業對接需要了解企業的需求,彙報工作進展和協商企業可提供的幫助。在這個過程中,王童真實地感知到這個行業的現狀,有助於他今後的實習和職業選擇。他也建議同學們要勇於和項目、企業、公司合作。“大數據離不開實際的項目,只有真正和企業溝通與合作,你才能真正瞭解企業的需求以及如何把技術轉變為生產力,再把生產機轉化為產品和價值。技術落地和技術變現是在課堂上和實驗室很少涉及的,但是卻是需要同學們認真考慮的一個很重要的問題。

大數據能力提升項目彙集了來自不同專業、不同年齡、不同背景的同學,在團隊合作中,雖然開始可能會有障礙,但最後收穫的是思維的碰撞和深厚的友誼。

團隊組成很多樣,文理工科都有,組員各自發揮自己所長,計算機系同學工程能力和代碼實踐能力強,我作為組裡唯一的博士生負責設計科研路線和模型算法,文科的同學則負責項目需求調研和與客戶的交流,明確客戶的需求和協商我們需要的幫助,整個課題做下來,我們這個團隊裡建立了非常深厚的友誼。

對學員的長期追蹤是大數據能力提升項目的突出特點。在大數據的四年裡,王童學到了很多。而在畢業以後,他與大數據的聯繫也不曾間斷。

“我一直和老師們保持聯繫,積極參加一些相關的活動,老師們也對我有長期的跟蹤和關注,也很關心我的畢業去向和工作。我覺得這種長期跟蹤的培養模式對項目裡的學員有非常大的幫助。”

二、大數據與生物:優化預測蛋白質結構的算法

王童的博士研究課題是蛋白質結構預測,預測的模型經過兩個階段的優化,各項指標都取得了巨大飛躍:

“我的博士研究課題可以分為兩個階段,第一個課題是和哈佛大學合作的聯合項目,這個項目將序列預測蛋白質結構的F1-Score從之前其他優秀算法取得的45%提高到了約60%,第二個課題則在世界範圍內首先開發了一些相關算法,進一步改善第一個課題中的模型,將第一個課題中的F1-Score從60%提升到90%。可以說我們的研究成果是在所有指標上都是領先世界的。”

在優化模型的過程中,大數據算法在其中發揮了重要作用。

“第一個課題主要運用了傳統機器學習的算法,包括邏輯迴歸模型、集成學習的方法去建模,處理的是百億量級的數據。我們嘗試了經典傳統機器學習的三種模型:邏輯迴歸,隨機森林,支持向量機,最後發現邏輯迴歸特別適合海量數據樣本的處理,效率高、速度快。在準確性差不多的情況下邏輯迴歸的速度是其他兩種方法的幾十倍甚至上百倍。但是邏輯迴歸模型的問題是它的準確性不高。

第二個課題用的技術是LSTM(長短時記憶網絡)、聚合殘差網絡ResNeXt和知識蒸餾技術。前兩個技術特別適合處理序列問題和對序列信息建模,也提高了準確率,但是與此同時速度也減慢了。而知識蒸餾技術主要是用來對模型進行加速,也可以說是一種‘加速算法’,在準確性幾乎不變的情況下,我們的模型運行時間縮短了三倍以上。”

王童用圖表生動地為我們展示了他們算法的優勢:


王童:知行合一 · 當大數據遇到生物學


我們DeepFragLib算法與其他SOTA算法相比在各項指標上提升明顯,使用我們算法產生的預測結構(藍色)比其他算法產生的預測結構(紅色)與真實晶體結構(綠色)相比更為接近。


"
王童:知行合一 · 當大數據遇到生物學

[ 導讀 ]清華-青島數據科學研究院(以下簡稱“數據院”)自2014年4月成立以來,秉承“學校統籌,問題引導,社科突破,商科優勢,工科整合,業界聯盟”的指導原則,搭建跨學科交叉融合平臺,創新跨學科交叉培養模式,培養具有大數據思維和創新能力的“Π”型人才。

大數據能力提升項目由清華大學研究生院,數據院及相關院系共同組織,面向在校研究生(包括碩士和博士)。項目形成大數據思維與技能、跨界學習、實操應用相結合的大數據課程體系和線上線下混合式教學模式,旨在提升學生數據分析和管理數據的能力,讓學生在本專業的學習和實踐中擴寬思維,並鍛鍊在本專業領域的數據研究能力。

截至2019年6月,已有來自31個院系的271名同學獲得“大數據能力提升項目”證書,其中信息類同學160人,非信息類同學111人。

大數據能力提升項目究竟為同學們帶來了什麼改變?下面,就讓我們聆聽優秀畢業生們與大數據結緣的故事,一起發現大數據對他們學習、科研和創業的啟發與幫助吧!

王童:知行合一 · 當大數據遇到生物學


2019年畢業於生命科學學院生物學專業計算生物學方向的博士生王童,在2015年加入大數據能力提升項目。在大數據的四年中,他將大數據技術與生物學原理緊密結合,利用深度學習和大數據技術進行蛋白質三維結構預測和蛋白摺疊機理的研究,第一次把深度學習技術和大數據技術應用到了片段組裝法的蛋白質結構預測中。他即將入職微軟亞太研究集團,任高級算法工程師。

一、我與大數據:專業結合,綜合培養,團隊合作,長期追蹤

與大數據結緣,王童更多是出於自己的專業。計算生物學經常面對的是百億到千億量級的數據量,需要多次處理、清洗的龐雜數據。

“生物信息也是一種大數據。”

大數據能力提升項目的課程包括了大數據理論學習、大數據實踐實習以及相關知名企業的參觀走訪等內容。

理論學習主要是對本科所學的數理基礎知識、統計學習方法,高等數學學習方法等的回顧、總結和梳理。項目實踐主要是將理論知識運用到具體的項目和實踐中。

以王童印象最深的徐葳老師的大數據系統課程為例,前三分之一以講授經典算法、軟件和操作等大數據基礎知識;後三分之二則是分組做一個真實的數據課題。他當時參與的一個課題是《微博水軍的判別》。該課題頗具挑戰性:數據量多達數千萬條,需要用老師上課教的memory reduce的算法進行數據處理;數據很雜,需要做大量的數據清洗。

“理論和實踐相結合,知行合一。”王童在採訪中反覆強調了這一觀點。“清華的同學很聰明也很努力。但是在實際應用和工作中還是需要重新去學一些東西和如何將理論運用到實際當中。實現從理論到應用的過渡,我建議大家利用好在大數據實踐課和實踐項目中應用課堂上學習的內容的機會;並且,將大數據理論運用到研究生的實習或者博士生的課題中也是一個很值得嘗試的方法。”

企業對接需要了解企業的需求,彙報工作進展和協商企業可提供的幫助。在這個過程中,王童真實地感知到這個行業的現狀,有助於他今後的實習和職業選擇。他也建議同學們要勇於和項目、企業、公司合作。“大數據離不開實際的項目,只有真正和企業溝通與合作,你才能真正瞭解企業的需求以及如何把技術轉變為生產力,再把生產機轉化為產品和價值。技術落地和技術變現是在課堂上和實驗室很少涉及的,但是卻是需要同學們認真考慮的一個很重要的問題。

大數據能力提升項目彙集了來自不同專業、不同年齡、不同背景的同學,在團隊合作中,雖然開始可能會有障礙,但最後收穫的是思維的碰撞和深厚的友誼。

團隊組成很多樣,文理工科都有,組員各自發揮自己所長,計算機系同學工程能力和代碼實踐能力強,我作為組裡唯一的博士生負責設計科研路線和模型算法,文科的同學則負責項目需求調研和與客戶的交流,明確客戶的需求和協商我們需要的幫助,整個課題做下來,我們這個團隊裡建立了非常深厚的友誼。

對學員的長期追蹤是大數據能力提升項目的突出特點。在大數據的四年裡,王童學到了很多。而在畢業以後,他與大數據的聯繫也不曾間斷。

“我一直和老師們保持聯繫,積極參加一些相關的活動,老師們也對我有長期的跟蹤和關注,也很關心我的畢業去向和工作。我覺得這種長期跟蹤的培養模式對項目裡的學員有非常大的幫助。”

二、大數據與生物:優化預測蛋白質結構的算法

王童的博士研究課題是蛋白質結構預測,預測的模型經過兩個階段的優化,各項指標都取得了巨大飛躍:

“我的博士研究課題可以分為兩個階段,第一個課題是和哈佛大學合作的聯合項目,這個項目將序列預測蛋白質結構的F1-Score從之前其他優秀算法取得的45%提高到了約60%,第二個課題則在世界範圍內首先開發了一些相關算法,進一步改善第一個課題中的模型,將第一個課題中的F1-Score從60%提升到90%。可以說我們的研究成果是在所有指標上都是領先世界的。”

在優化模型的過程中,大數據算法在其中發揮了重要作用。

“第一個課題主要運用了傳統機器學習的算法,包括邏輯迴歸模型、集成學習的方法去建模,處理的是百億量級的數據。我們嘗試了經典傳統機器學習的三種模型:邏輯迴歸,隨機森林,支持向量機,最後發現邏輯迴歸特別適合海量數據樣本的處理,效率高、速度快。在準確性差不多的情況下邏輯迴歸的速度是其他兩種方法的幾十倍甚至上百倍。但是邏輯迴歸模型的問題是它的準確性不高。

第二個課題用的技術是LSTM(長短時記憶網絡)、聚合殘差網絡ResNeXt和知識蒸餾技術。前兩個技術特別適合處理序列問題和對序列信息建模,也提高了準確率,但是與此同時速度也減慢了。而知識蒸餾技術主要是用來對模型進行加速,也可以說是一種‘加速算法’,在準確性幾乎不變的情況下,我們的模型運行時間縮短了三倍以上。”

王童用圖表生動地為我們展示了他們算法的優勢:


王童:知行合一 · 當大數據遇到生物學


我們DeepFragLib算法與其他SOTA算法相比在各項指標上提升明顯,使用我們算法產生的預測結構(藍色)比其他算法產生的預測結構(紅色)與真實晶體結構(綠色)相比更為接近。


王童:知行合一 · 當大數據遇到生物學


三、選擇大數據:認清方向,提升自我

談到對當前在大數據能力提升項目學習、將來可能進入大數據的同學的建議時,王童說:

我覺得在大數據的學習也是一個認清自己,進行職業生涯選擇的過程。因為我們加入項目比較早,對自己的職業生涯也比較迷茫。在大數據能力提升項目中從理論到實踐到實習的過程中,真正地在企業工作、和企業打交道會發現自己是更喜歡企業的氛圍還是純科研的氛圍,從而找到自己職業生涯發展方向。

“此外我覺得大數據能力提升項目包容性很強,同學們來自學校的各個專業、年齡也不同。無論是什麼專業、什麼年齡的同學,只要有出色的能力和成果都能獲得獎學金。

大家一定要趁早學,積極學。加入項目四年來,數據院給我帶來了很多的收穫和支持。如果大家加入了這個項目,堅持下來一定會有收穫。大數據能力提升項目發展至今,從小到大,資源從少到多,能提供給學員的也越來越多,建議大家在項目中要積極地參與。

最後,從我自己的經歷中來說,我覺得無論是科研還是實習、找工作,更多受重視的是綜合實力。我希望學弟學妹能夠充分利用學校的資源,多走出書本,多鍛鍊自己,提高自己的語言表達能力、交流能力和組織協調能力,提高綜合素質。”

口述:王童

採訪:陳沅倩

整理:肖禕涵

— 完 —

關注清華-青島數據科學研究院官方微信公眾平臺“THU數據派”及姊妹號“數據派THU”獲取更多講座福利及優質內容。

"

相關推薦

推薦中...