'從4710萬論文大數據,看科學概念如何演化和傳播?'

"
"
從4710萬論文大數據,看科學概念如何演化和傳播?

導語

流行語是社交網絡中的模因,而學術概念,是引文網絡中模因,在研究者之間傳播和演化。然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。

在一篇於2014年11月發表在Physical Review X的經典論文中,研究者基於源於Web of Science、美國物理學會等的數千萬引文數據,為模因在引文網絡上的傳播,建立了一個簡潔的數學模型。本文將以這篇論文為背景,為讀者介紹模因在科研引文網絡上的傳播規律,以及研究方法。


何謂科學模因?

科學是現代人類文化的重要支柱,科學產出的評價和科學協作模式的研究越來越受到研究者的關注。從引用分佈、合著網絡和研究團隊的形成,到研究人員的排名以及科學成功的量化和預測,我們如何做科學本身已經成為一門科學。隨著近年來大量數字化數據可用性的不斷增加,複雜系統理論和建模的飛速發展,科學學的又一個春天正在到來。

模因(meme)源自希臘語,意為“被模仿的東西”,由新達爾文主義者Richard Dawkins在其1976年所著的《自私的基因》中首次提到。他認為,諸如單詞、旋律、食譜和思想等文化實體與基因一樣進化,涉及複製和變異,但使用人類文化而不是基因庫作為它們的傳播媒介。

當科學碰上模因,我們不禁要問:模因是如何在科研引文網絡上傳播的?然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。2014年11月在PHYSICAL REVIEW X發表的一篇論文,為模因在科研引文網絡上的傳播建立了僅含一個參數的數學模型,基於Web of Science、PubMed Central以及美國物理學會(APS)的科研引文數據進行驗證,並通過多種方法對模型進行評估。本文將以這篇為背景,為讀者介紹模因在科研引文網絡上的傳播規律。

論文題目:

Inheritance Patterns in Citation Networks Reveal Scientific Memes

論文地址:

https://journals.aps.org/prx/abstract/10.1103/PhysRevX.4.041036

"
從4710萬論文大數據,看科學概念如何演化和傳播?

導語

流行語是社交網絡中的模因,而學術概念,是引文網絡中模因,在研究者之間傳播和演化。然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。

在一篇於2014年11月發表在Physical Review X的經典論文中,研究者基於源於Web of Science、美國物理學會等的數千萬引文數據,為模因在引文網絡上的傳播,建立了一個簡潔的數學模型。本文將以這篇論文為背景,為讀者介紹模因在科研引文網絡上的傳播規律,以及研究方法。


何謂科學模因?

科學是現代人類文化的重要支柱,科學產出的評價和科學協作模式的研究越來越受到研究者的關注。從引用分佈、合著網絡和研究團隊的形成,到研究人員的排名以及科學成功的量化和預測,我們如何做科學本身已經成為一門科學。隨著近年來大量數字化數據可用性的不斷增加,複雜系統理論和建模的飛速發展,科學學的又一個春天正在到來。

模因(meme)源自希臘語,意為“被模仿的東西”,由新達爾文主義者Richard Dawkins在其1976年所著的《自私的基因》中首次提到。他認為,諸如單詞、旋律、食譜和思想等文化實體與基因一樣進化,涉及複製和變異,但使用人類文化而不是基因庫作為它們的傳播媒介。

當科學碰上模因,我們不禁要問:模因是如何在科研引文網絡上傳播的?然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。2014年11月在PHYSICAL REVIEW X發表的一篇論文,為模因在科研引文網絡上的傳播建立了僅含一個參數的數學模型,基於Web of Science、PubMed Central以及美國物理學會(APS)的科研引文數據進行驗證,並通過多種方法對模型進行評估。本文將以這篇為背景,為讀者介紹模因在科研引文網絡上的傳播規律。

論文題目:

Inheritance Patterns in Citation Networks Reveal Scientific Memes

論文地址:

https://journals.aps.org/prx/abstract/10.1103/PhysRevX.4.041036

從4710萬論文大數據,看科學概念如何演化和傳播?

1.科研網絡視角下的模因

基於道金斯對“基因”一詞的定義,文章給出了科學模因的定義。科學模因,是文章中的一個短文本單位,在引用文章中複製,並以許多副本分發。一個特定的單詞序列越容易同時出現,且常常存在於引用文章中,就越容易成為科學模因。因此,從引用文章中複製單詞或短語的文章類似於從父母那裡繼承基因的後代有機體。

2.初探模因分佈——科研引文網絡的可視化

"
從4710萬論文大數據,看科學概念如何演化和傳播?

導語

流行語是社交網絡中的模因,而學術概念,是引文網絡中模因,在研究者之間傳播和演化。然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。

在一篇於2014年11月發表在Physical Review X的經典論文中,研究者基於源於Web of Science、美國物理學會等的數千萬引文數據,為模因在引文網絡上的傳播,建立了一個簡潔的數學模型。本文將以這篇論文為背景,為讀者介紹模因在科研引文網絡上的傳播規律,以及研究方法。


何謂科學模因?

科學是現代人類文化的重要支柱,科學產出的評價和科學協作模式的研究越來越受到研究者的關注。從引用分佈、合著網絡和研究團隊的形成,到研究人員的排名以及科學成功的量化和預測,我們如何做科學本身已經成為一門科學。隨著近年來大量數字化數據可用性的不斷增加,複雜系統理論和建模的飛速發展,科學學的又一個春天正在到來。

模因(meme)源自希臘語,意為“被模仿的東西”,由新達爾文主義者Richard Dawkins在其1976年所著的《自私的基因》中首次提到。他認為,諸如單詞、旋律、食譜和思想等文化實體與基因一樣進化,涉及複製和變異,但使用人類文化而不是基因庫作為它們的傳播媒介。

當科學碰上模因,我們不禁要問:模因是如何在科研引文網絡上傳播的?然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。2014年11月在PHYSICAL REVIEW X發表的一篇論文,為模因在科研引文網絡上的傳播建立了僅含一個參數的數學模型,基於Web of Science、PubMed Central以及美國物理學會(APS)的科研引文數據進行驗證,並通過多種方法對模型進行評估。本文將以這篇為背景,為讀者介紹模因在科研引文網絡上的傳播規律。

論文題目:

Inheritance Patterns in Citation Networks Reveal Scientific Memes

論文地址:

https://journals.aps.org/prx/abstract/10.1103/PhysRevX.4.041036

從4710萬論文大數據,看科學概念如何演化和傳播?

1.科研網絡視角下的模因

基於道金斯對“基因”一詞的定義,文章給出了科學模因的定義。科學模因,是文章中的一個短文本單位,在引用文章中複製,並以許多副本分發。一個特定的單詞序列越容易同時出現,且常常存在於引用文章中,就越容易成為科學模因。因此,從引用文章中複製單詞或短語的文章類似於從父母那裡繼承基因的後代有機體。

2.初探模因分佈——科研引文網絡的可視化

從4710萬論文大數據,看科學概念如何演化和傳播?

圖1

在進行建模之前,我們首先需要了解科學模因的特點,通過定性分析,把握科學模因分佈的定性規律。

如圖1(a)所示,基於Web of Science數據集的引文網絡包含超過3300萬篇文章。各類科學學科形成了相對緊密的群體:物理科學(青色)與網絡右上角的工程技術(洋紅色)非常接近,但與社會科學和人文科學(綠色)以及佔網絡左側的大部分的醫學和健康科學(紅色)卻相差甚遠。自然科學和農業科學介於兩者之間(藍色)。

如圖1(b)所示,在基於美國物理學會(APS)數據集的引文網絡中,不同的顏色標註出Physical Review中的五個最重要的期刊,每個都覆蓋物理的一個子領域。可以發現,儘管所採用的網絡佈局算法並沒有明確考慮科學學科和期刊信息,但在引用網絡中存在顯著的不同期刊的社團結構。

如圖1(c)所示,在圖1(b)的基礎上突出顯示了五個模因,可以發現,包含這些模因的文章在在引用網絡中形成緊密社團結構。量子模因(quantum)分佈較廣,但絕不是均勻分佈的,遍及幾個大團簇。包含裂變模因(fission)的文章形成了幾個相互連接的星團,這些星團侷限於一個區域,該區域構成了涵蓋核物理的《Physical Review C》雜誌。同樣,石墨烯(graphene)、自組織臨界性(self-organized criticality)、交通流(and traffic flow)都集中在各自的中型或小型社區。

3.模因的定量化描述——模型的建立

  • 模因得分

通過前面的分析,我們已經知道科學模因的分佈具有一定的規律,但要想在大量文字數據庫中準確的捕獲它們,我們就需要知道什麼樣的詞條可以作為模因?

首先,作為模因,該詞條一定具備較高的出現頻率,只有在多個文章中大量出現,該詞條才可能作為一種類似於生物中基因的物質在文章中複製並傳播。因此,作者定義了詞條出現頻率(f_m)來刻畫詞條的重要性。

那麼只要出現頻率足夠高的詞就一定可以稱為科學模因嗎?答案當然是否定的,幾乎每一篇文章(甚至每一段落中)都會出現大量的停用詞,如“the”、“of”等,這些詞本質上沒有明確的含義,但卻在語段中大量出現。此外,科學模因的定義更強調文章的“遺傳”屬性,在科研引文網絡中即為文章與其引文的關係。因此,作者基於詞條在文章及其引文中是否出現定義了傳播得分(p_m)來刻畫詞條的傳播價值。

此外,我們可以發現,由於科學模因的定義並不是十分明確的,那麼詞條能否被判定為科學模因就需要一個類似於概率的量來描述詞條被認為是科學模因的可能性。因此,作者定義了模因得分M_m:


"
從4710萬論文大數據,看科學概念如何演化和傳播?

導語

流行語是社交網絡中的模因,而學術概念,是引文網絡中模因,在研究者之間傳播和演化。然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。

在一篇於2014年11月發表在Physical Review X的經典論文中,研究者基於源於Web of Science、美國物理學會等的數千萬引文數據,為模因在引文網絡上的傳播,建立了一個簡潔的數學模型。本文將以這篇論文為背景,為讀者介紹模因在科研引文網絡上的傳播規律,以及研究方法。


何謂科學模因?

科學是現代人類文化的重要支柱,科學產出的評價和科學協作模式的研究越來越受到研究者的關注。從引用分佈、合著網絡和研究團隊的形成,到研究人員的排名以及科學成功的量化和預測,我們如何做科學本身已經成為一門科學。隨著近年來大量數字化數據可用性的不斷增加,複雜系統理論和建模的飛速發展,科學學的又一個春天正在到來。

模因(meme)源自希臘語,意為“被模仿的東西”,由新達爾文主義者Richard Dawkins在其1976年所著的《自私的基因》中首次提到。他認為,諸如單詞、旋律、食譜和思想等文化實體與基因一樣進化,涉及複製和變異,但使用人類文化而不是基因庫作為它們的傳播媒介。

當科學碰上模因,我們不禁要問:模因是如何在科研引文網絡上傳播的?然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。2014年11月在PHYSICAL REVIEW X發表的一篇論文,為模因在科研引文網絡上的傳播建立了僅含一個參數的數學模型,基於Web of Science、PubMed Central以及美國物理學會(APS)的科研引文數據進行驗證,並通過多種方法對模型進行評估。本文將以這篇為背景,為讀者介紹模因在科研引文網絡上的傳播規律。

論文題目:

Inheritance Patterns in Citation Networks Reveal Scientific Memes

論文地址:

https://journals.aps.org/prx/abstract/10.1103/PhysRevX.4.041036

從4710萬論文大數據,看科學概念如何演化和傳播?

1.科研網絡視角下的模因

基於道金斯對“基因”一詞的定義,文章給出了科學模因的定義。科學模因,是文章中的一個短文本單位,在引用文章中複製,並以許多副本分發。一個特定的單詞序列越容易同時出現,且常常存在於引用文章中,就越容易成為科學模因。因此,從引用文章中複製單詞或短語的文章類似於從父母那裡繼承基因的後代有機體。

2.初探模因分佈——科研引文網絡的可視化

從4710萬論文大數據,看科學概念如何演化和傳播?

圖1

在進行建模之前,我們首先需要了解科學模因的特點,通過定性分析,把握科學模因分佈的定性規律。

如圖1(a)所示,基於Web of Science數據集的引文網絡包含超過3300萬篇文章。各類科學學科形成了相對緊密的群體:物理科學(青色)與網絡右上角的工程技術(洋紅色)非常接近,但與社會科學和人文科學(綠色)以及佔網絡左側的大部分的醫學和健康科學(紅色)卻相差甚遠。自然科學和農業科學介於兩者之間(藍色)。

如圖1(b)所示,在基於美國物理學會(APS)數據集的引文網絡中,不同的顏色標註出Physical Review中的五個最重要的期刊,每個都覆蓋物理的一個子領域。可以發現,儘管所採用的網絡佈局算法並沒有明確考慮科學學科和期刊信息,但在引用網絡中存在顯著的不同期刊的社團結構。

如圖1(c)所示,在圖1(b)的基礎上突出顯示了五個模因,可以發現,包含這些模因的文章在在引用網絡中形成緊密社團結構。量子模因(quantum)分佈較廣,但絕不是均勻分佈的,遍及幾個大團簇。包含裂變模因(fission)的文章形成了幾個相互連接的星團,這些星團侷限於一個區域,該區域構成了涵蓋核物理的《Physical Review C》雜誌。同樣,石墨烯(graphene)、自組織臨界性(self-organized criticality)、交通流(and traffic flow)都集中在各自的中型或小型社區。

3.模因的定量化描述——模型的建立

  • 模因得分

通過前面的分析,我們已經知道科學模因的分佈具有一定的規律,但要想在大量文字數據庫中準確的捕獲它們,我們就需要知道什麼樣的詞條可以作為模因?

首先,作為模因,該詞條一定具備較高的出現頻率,只有在多個文章中大量出現,該詞條才可能作為一種類似於生物中基因的物質在文章中複製並傳播。因此,作者定義了詞條出現頻率(f_m)來刻畫詞條的重要性。

那麼只要出現頻率足夠高的詞就一定可以稱為科學模因嗎?答案當然是否定的,幾乎每一篇文章(甚至每一段落中)都會出現大量的停用詞,如“the”、“of”等,這些詞本質上沒有明確的含義,但卻在語段中大量出現。此外,科學模因的定義更強調文章的“遺傳”屬性,在科研引文網絡中即為文章與其引文的關係。因此,作者基於詞條在文章及其引文中是否出現定義了傳播得分(p_m)來刻畫詞條的傳播價值。

此外,我們可以發現,由於科學模因的定義並不是十分明確的,那麼詞條能否被判定為科學模因就需要一個類似於概率的量來描述詞條被認為是科學模因的可能性。因此,作者定義了模因得分M_m:


從4710萬論文大數據,看科學概念如何演化和傳播?


其中,詞條出現頻率(f_m)是很容易計算得到的,需要注意的僅僅是需要對頻率做標準化處理,但如何定義傳播得分(p_m)使之能準確刻畫詞條的傳播價值呢?

  • 傳播得分

首先,作者發現,模因在文章與引文中出現與否的四種情況,如表1所示:

表1

"
從4710萬論文大數據,看科學概念如何演化和傳播?

導語

流行語是社交網絡中的模因,而學術概念,是引文網絡中模因,在研究者之間傳播和演化。然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。

在一篇於2014年11月發表在Physical Review X的經典論文中,研究者基於源於Web of Science、美國物理學會等的數千萬引文數據,為模因在引文網絡上的傳播,建立了一個簡潔的數學模型。本文將以這篇論文為背景,為讀者介紹模因在科研引文網絡上的傳播規律,以及研究方法。


何謂科學模因?

科學是現代人類文化的重要支柱,科學產出的評價和科學協作模式的研究越來越受到研究者的關注。從引用分佈、合著網絡和研究團隊的形成,到研究人員的排名以及科學成功的量化和預測,我們如何做科學本身已經成為一門科學。隨著近年來大量數字化數據可用性的不斷增加,複雜系統理論和建模的飛速發展,科學學的又一個春天正在到來。

模因(meme)源自希臘語,意為“被模仿的東西”,由新達爾文主義者Richard Dawkins在其1976年所著的《自私的基因》中首次提到。他認為,諸如單詞、旋律、食譜和思想等文化實體與基因一樣進化,涉及複製和變異,但使用人類文化而不是基因庫作為它們的傳播媒介。

當科學碰上模因,我們不禁要問:模因是如何在科研引文網絡上傳播的?然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。2014年11月在PHYSICAL REVIEW X發表的一篇論文,為模因在科研引文網絡上的傳播建立了僅含一個參數的數學模型,基於Web of Science、PubMed Central以及美國物理學會(APS)的科研引文數據進行驗證,並通過多種方法對模型進行評估。本文將以這篇為背景,為讀者介紹模因在科研引文網絡上的傳播規律。

論文題目:

Inheritance Patterns in Citation Networks Reveal Scientific Memes

論文地址:

https://journals.aps.org/prx/abstract/10.1103/PhysRevX.4.041036

從4710萬論文大數據,看科學概念如何演化和傳播?

1.科研網絡視角下的模因

基於道金斯對“基因”一詞的定義,文章給出了科學模因的定義。科學模因,是文章中的一個短文本單位,在引用文章中複製,並以許多副本分發。一個特定的單詞序列越容易同時出現,且常常存在於引用文章中,就越容易成為科學模因。因此,從引用文章中複製單詞或短語的文章類似於從父母那裡繼承基因的後代有機體。

2.初探模因分佈——科研引文網絡的可視化

從4710萬論文大數據,看科學概念如何演化和傳播?

圖1

在進行建模之前,我們首先需要了解科學模因的特點,通過定性分析,把握科學模因分佈的定性規律。

如圖1(a)所示,基於Web of Science數據集的引文網絡包含超過3300萬篇文章。各類科學學科形成了相對緊密的群體:物理科學(青色)與網絡右上角的工程技術(洋紅色)非常接近,但與社會科學和人文科學(綠色)以及佔網絡左側的大部分的醫學和健康科學(紅色)卻相差甚遠。自然科學和農業科學介於兩者之間(藍色)。

如圖1(b)所示,在基於美國物理學會(APS)數據集的引文網絡中,不同的顏色標註出Physical Review中的五個最重要的期刊,每個都覆蓋物理的一個子領域。可以發現,儘管所採用的網絡佈局算法並沒有明確考慮科學學科和期刊信息,但在引用網絡中存在顯著的不同期刊的社團結構。

如圖1(c)所示,在圖1(b)的基礎上突出顯示了五個模因,可以發現,包含這些模因的文章在在引用網絡中形成緊密社團結構。量子模因(quantum)分佈較廣,但絕不是均勻分佈的,遍及幾個大團簇。包含裂變模因(fission)的文章形成了幾個相互連接的星團,這些星團侷限於一個區域,該區域構成了涵蓋核物理的《Physical Review C》雜誌。同樣,石墨烯(graphene)、自組織臨界性(self-organized criticality)、交通流(and traffic flow)都集中在各自的中型或小型社區。

3.模因的定量化描述——模型的建立

  • 模因得分

通過前面的分析,我們已經知道科學模因的分佈具有一定的規律,但要想在大量文字數據庫中準確的捕獲它們,我們就需要知道什麼樣的詞條可以作為模因?

首先,作為模因,該詞條一定具備較高的出現頻率,只有在多個文章中大量出現,該詞條才可能作為一種類似於生物中基因的物質在文章中複製並傳播。因此,作者定義了詞條出現頻率(f_m)來刻畫詞條的重要性。

那麼只要出現頻率足夠高的詞就一定可以稱為科學模因嗎?答案當然是否定的,幾乎每一篇文章(甚至每一段落中)都會出現大量的停用詞,如“the”、“of”等,這些詞本質上沒有明確的含義,但卻在語段中大量出現。此外,科學模因的定義更強調文章的“遺傳”屬性,在科研引文網絡中即為文章與其引文的關係。因此,作者基於詞條在文章及其引文中是否出現定義了傳播得分(p_m)來刻畫詞條的傳播價值。

此外,我們可以發現,由於科學模因的定義並不是十分明確的,那麼詞條能否被判定為科學模因就需要一個類似於概率的量來描述詞條被認為是科學模因的可能性。因此,作者定義了模因得分M_m:


從4710萬論文大數據,看科學概念如何演化和傳播?


其中,詞條出現頻率(f_m)是很容易計算得到的,需要注意的僅僅是需要對頻率做標準化處理,但如何定義傳播得分(p_m)使之能準確刻畫詞條的傳播價值呢?

  • 傳播得分

首先,作者發現,模因在文章與引文中出現與否的四種情況,如表1所示:

表1

從4710萬論文大數據,看科學概念如何演化和傳播?

其次,作者提出黏附因子(Sticking factor)和激發因子(Sparking factor)的概念,分別量化模因的複製比率和生成比率,複製比率越高,則傳播價值越大;生成比率越高,則傳播價值越低。

"
從4710萬論文大數據,看科學概念如何演化和傳播?

導語

流行語是社交網絡中的模因,而學術概念,是引文網絡中模因,在研究者之間傳播和演化。然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。

在一篇於2014年11月發表在Physical Review X的經典論文中,研究者基於源於Web of Science、美國物理學會等的數千萬引文數據,為模因在引文網絡上的傳播,建立了一個簡潔的數學模型。本文將以這篇論文為背景,為讀者介紹模因在科研引文網絡上的傳播規律,以及研究方法。


何謂科學模因?

科學是現代人類文化的重要支柱,科學產出的評價和科學協作模式的研究越來越受到研究者的關注。從引用分佈、合著網絡和研究團隊的形成,到研究人員的排名以及科學成功的量化和預測,我們如何做科學本身已經成為一門科學。隨著近年來大量數字化數據可用性的不斷增加,複雜系統理論和建模的飛速發展,科學學的又一個春天正在到來。

模因(meme)源自希臘語,意為“被模仿的東西”,由新達爾文主義者Richard Dawkins在其1976年所著的《自私的基因》中首次提到。他認為,諸如單詞、旋律、食譜和思想等文化實體與基因一樣進化,涉及複製和變異,但使用人類文化而不是基因庫作為它們的傳播媒介。

當科學碰上模因,我們不禁要問:模因是如何在科研引文網絡上傳播的?然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。2014年11月在PHYSICAL REVIEW X發表的一篇論文,為模因在科研引文網絡上的傳播建立了僅含一個參數的數學模型,基於Web of Science、PubMed Central以及美國物理學會(APS)的科研引文數據進行驗證,並通過多種方法對模型進行評估。本文將以這篇為背景,為讀者介紹模因在科研引文網絡上的傳播規律。

論文題目:

Inheritance Patterns in Citation Networks Reveal Scientific Memes

論文地址:

https://journals.aps.org/prx/abstract/10.1103/PhysRevX.4.041036

從4710萬論文大數據,看科學概念如何演化和傳播?

1.科研網絡視角下的模因

基於道金斯對“基因”一詞的定義,文章給出了科學模因的定義。科學模因,是文章中的一個短文本單位,在引用文章中複製,並以許多副本分發。一個特定的單詞序列越容易同時出現,且常常存在於引用文章中,就越容易成為科學模因。因此,從引用文章中複製單詞或短語的文章類似於從父母那裡繼承基因的後代有機體。

2.初探模因分佈——科研引文網絡的可視化

從4710萬論文大數據,看科學概念如何演化和傳播?

圖1

在進行建模之前,我們首先需要了解科學模因的特點,通過定性分析,把握科學模因分佈的定性規律。

如圖1(a)所示,基於Web of Science數據集的引文網絡包含超過3300萬篇文章。各類科學學科形成了相對緊密的群體:物理科學(青色)與網絡右上角的工程技術(洋紅色)非常接近,但與社會科學和人文科學(綠色)以及佔網絡左側的大部分的醫學和健康科學(紅色)卻相差甚遠。自然科學和農業科學介於兩者之間(藍色)。

如圖1(b)所示,在基於美國物理學會(APS)數據集的引文網絡中,不同的顏色標註出Physical Review中的五個最重要的期刊,每個都覆蓋物理的一個子領域。可以發現,儘管所採用的網絡佈局算法並沒有明確考慮科學學科和期刊信息,但在引用網絡中存在顯著的不同期刊的社團結構。

如圖1(c)所示,在圖1(b)的基礎上突出顯示了五個模因,可以發現,包含這些模因的文章在在引用網絡中形成緊密社團結構。量子模因(quantum)分佈較廣,但絕不是均勻分佈的,遍及幾個大團簇。包含裂變模因(fission)的文章形成了幾個相互連接的星團,這些星團侷限於一個區域,該區域構成了涵蓋核物理的《Physical Review C》雜誌。同樣,石墨烯(graphene)、自組織臨界性(self-organized criticality)、交通流(and traffic flow)都集中在各自的中型或小型社區。

3.模因的定量化描述——模型的建立

  • 模因得分

通過前面的分析,我們已經知道科學模因的分佈具有一定的規律,但要想在大量文字數據庫中準確的捕獲它們,我們就需要知道什麼樣的詞條可以作為模因?

首先,作為模因,該詞條一定具備較高的出現頻率,只有在多個文章中大量出現,該詞條才可能作為一種類似於生物中基因的物質在文章中複製並傳播。因此,作者定義了詞條出現頻率(f_m)來刻畫詞條的重要性。

那麼只要出現頻率足夠高的詞就一定可以稱為科學模因嗎?答案當然是否定的,幾乎每一篇文章(甚至每一段落中)都會出現大量的停用詞,如“the”、“of”等,這些詞本質上沒有明確的含義,但卻在語段中大量出現。此外,科學模因的定義更強調文章的“遺傳”屬性,在科研引文網絡中即為文章與其引文的關係。因此,作者基於詞條在文章及其引文中是否出現定義了傳播得分(p_m)來刻畫詞條的傳播價值。

此外,我們可以發現,由於科學模因的定義並不是十分明確的,那麼詞條能否被判定為科學模因就需要一個類似於概率的量來描述詞條被認為是科學模因的可能性。因此,作者定義了模因得分M_m:


從4710萬論文大數據,看科學概念如何演化和傳播?


其中,詞條出現頻率(f_m)是很容易計算得到的,需要注意的僅僅是需要對頻率做標準化處理,但如何定義傳播得分(p_m)使之能準確刻畫詞條的傳播價值呢?

  • 傳播得分

首先,作者發現,模因在文章與引文中出現與否的四種情況,如表1所示:

表1

從4710萬論文大數據,看科學概念如何演化和傳播?

其次,作者提出黏附因子(Sticking factor)和激發因子(Sparking factor)的概念,分別量化模因的複製比率和生成比率,複製比率越高,則傳播價值越大;生成比率越高,則傳播價值越低。

從4710萬論文大數據,看科學概念如何演化和傳播?

進一步,研究者可以發現,由於模型的比率形式,要求分母不等於零,與變量的實際意義矛盾,因此,我們引入參數——受控噪聲(delta),為避免delta取值對於稀有模因產生較大的影響,作者通過大量實驗,將delta值在未特殊說明的情況下固定為3。

"
從4710萬論文大數據,看科學概念如何演化和傳播?

導語

流行語是社交網絡中的模因,而學術概念,是引文網絡中模因,在研究者之間傳播和演化。然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。

在一篇於2014年11月發表在Physical Review X的經典論文中,研究者基於源於Web of Science、美國物理學會等的數千萬引文數據,為模因在引文網絡上的傳播,建立了一個簡潔的數學模型。本文將以這篇論文為背景,為讀者介紹模因在科研引文網絡上的傳播規律,以及研究方法。


何謂科學模因?

科學是現代人類文化的重要支柱,科學產出的評價和科學協作模式的研究越來越受到研究者的關注。從引用分佈、合著網絡和研究團隊的形成,到研究人員的排名以及科學成功的量化和預測,我們如何做科學本身已經成為一門科學。隨著近年來大量數字化數據可用性的不斷增加,複雜系統理論和建模的飛速發展,科學學的又一個春天正在到來。

模因(meme)源自希臘語,意為“被模仿的東西”,由新達爾文主義者Richard Dawkins在其1976年所著的《自私的基因》中首次提到。他認為,諸如單詞、旋律、食譜和思想等文化實體與基因一樣進化,涉及複製和變異,但使用人類文化而不是基因庫作為它們的傳播媒介。

當科學碰上模因,我們不禁要問:模因是如何在科研引文網絡上傳播的?然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。2014年11月在PHYSICAL REVIEW X發表的一篇論文,為模因在科研引文網絡上的傳播建立了僅含一個參數的數學模型,基於Web of Science、PubMed Central以及美國物理學會(APS)的科研引文數據進行驗證,並通過多種方法對模型進行評估。本文將以這篇為背景,為讀者介紹模因在科研引文網絡上的傳播規律。

論文題目:

Inheritance Patterns in Citation Networks Reveal Scientific Memes

論文地址:

https://journals.aps.org/prx/abstract/10.1103/PhysRevX.4.041036

從4710萬論文大數據,看科學概念如何演化和傳播?

1.科研網絡視角下的模因

基於道金斯對“基因”一詞的定義,文章給出了科學模因的定義。科學模因,是文章中的一個短文本單位,在引用文章中複製,並以許多副本分發。一個特定的單詞序列越容易同時出現,且常常存在於引用文章中,就越容易成為科學模因。因此,從引用文章中複製單詞或短語的文章類似於從父母那裡繼承基因的後代有機體。

2.初探模因分佈——科研引文網絡的可視化

從4710萬論文大數據,看科學概念如何演化和傳播?

圖1

在進行建模之前,我們首先需要了解科學模因的特點,通過定性分析,把握科學模因分佈的定性規律。

如圖1(a)所示,基於Web of Science數據集的引文網絡包含超過3300萬篇文章。各類科學學科形成了相對緊密的群體:物理科學(青色)與網絡右上角的工程技術(洋紅色)非常接近,但與社會科學和人文科學(綠色)以及佔網絡左側的大部分的醫學和健康科學(紅色)卻相差甚遠。自然科學和農業科學介於兩者之間(藍色)。

如圖1(b)所示,在基於美國物理學會(APS)數據集的引文網絡中,不同的顏色標註出Physical Review中的五個最重要的期刊,每個都覆蓋物理的一個子領域。可以發現,儘管所採用的網絡佈局算法並沒有明確考慮科學學科和期刊信息,但在引用網絡中存在顯著的不同期刊的社團結構。

如圖1(c)所示,在圖1(b)的基礎上突出顯示了五個模因,可以發現,包含這些模因的文章在在引用網絡中形成緊密社團結構。量子模因(quantum)分佈較廣,但絕不是均勻分佈的,遍及幾個大團簇。包含裂變模因(fission)的文章形成了幾個相互連接的星團,這些星團侷限於一個區域,該區域構成了涵蓋核物理的《Physical Review C》雜誌。同樣,石墨烯(graphene)、自組織臨界性(self-organized criticality)、交通流(and traffic flow)都集中在各自的中型或小型社區。

3.模因的定量化描述——模型的建立

  • 模因得分

通過前面的分析,我們已經知道科學模因的分佈具有一定的規律,但要想在大量文字數據庫中準確的捕獲它們,我們就需要知道什麼樣的詞條可以作為模因?

首先,作為模因,該詞條一定具備較高的出現頻率,只有在多個文章中大量出現,該詞條才可能作為一種類似於生物中基因的物質在文章中複製並傳播。因此,作者定義了詞條出現頻率(f_m)來刻畫詞條的重要性。

那麼只要出現頻率足夠高的詞就一定可以稱為科學模因嗎?答案當然是否定的,幾乎每一篇文章(甚至每一段落中)都會出現大量的停用詞,如“the”、“of”等,這些詞本質上沒有明確的含義,但卻在語段中大量出現。此外,科學模因的定義更強調文章的“遺傳”屬性,在科研引文網絡中即為文章與其引文的關係。因此,作者基於詞條在文章及其引文中是否出現定義了傳播得分(p_m)來刻畫詞條的傳播價值。

此外,我們可以發現,由於科學模因的定義並不是十分明確的,那麼詞條能否被判定為科學模因就需要一個類似於概率的量來描述詞條被認為是科學模因的可能性。因此,作者定義了模因得分M_m:


從4710萬論文大數據,看科學概念如何演化和傳播?


其中,詞條出現頻率(f_m)是很容易計算得到的,需要注意的僅僅是需要對頻率做標準化處理,但如何定義傳播得分(p_m)使之能準確刻畫詞條的傳播價值呢?

  • 傳播得分

首先,作者發現,模因在文章與引文中出現與否的四種情況,如表1所示:

表1

從4710萬論文大數據,看科學概念如何演化和傳播?

其次,作者提出黏附因子(Sticking factor)和激發因子(Sparking factor)的概念,分別量化模因的複製比率和生成比率,複製比率越高,則傳播價值越大;生成比率越高,則傳播價值越低。

從4710萬論文大數據,看科學概念如何演化和傳播?

進一步,研究者可以發現,由於模型的比率形式,要求分母不等於零,與變量的實際意義矛盾,因此,我們引入參數——受控噪聲(delta),為避免delta取值對於稀有模因產生較大的影響,作者通過大量實驗,將delta值在未特殊說明的情況下固定為3。

從4710萬論文大數據,看科學概念如何演化和傳播?

此外,為避免“free-riding”問題,即存在某些較長的模因被錯誤識別為多個模因,作者在計算選出較長的模因計數。

  • 模型優勢:

作者建立的模型具有以下優勢:

1.可以精確計算,而不引入任意閾值及限制,例如:不限制最小出現次數;不限制詞條的長度;不需要過濾包含特殊字符的單詞;

2.不依賴外部數據庫,如詞典或其他語言數據;

3.不依賴過濾器,例如:不需要依賴停用詞表即可刪除最常見的單詞和短語;

4.非常簡單,只有一個參數(delta)。

4.實證分析

前文建立的模型,在理論分析中雖然具有諸多優勢,但能否真正準確快速的捕獲科學模因還需要進行實驗驗證。因此,本文作者通過隨機化、人工實驗及多模型比較三種方法進行驗證分析。

  • 圖隨機化方法
"
從4710萬論文大數據,看科學概念如何演化和傳播?

導語

流行語是社交網絡中的模因,而學術概念,是引文網絡中模因,在研究者之間傳播和演化。然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。

在一篇於2014年11月發表在Physical Review X的經典論文中,研究者基於源於Web of Science、美國物理學會等的數千萬引文數據,為模因在引文網絡上的傳播,建立了一個簡潔的數學模型。本文將以這篇論文為背景,為讀者介紹模因在科研引文網絡上的傳播規律,以及研究方法。


何謂科學模因?

科學是現代人類文化的重要支柱,科學產出的評價和科學協作模式的研究越來越受到研究者的關注。從引用分佈、合著網絡和研究團隊的形成,到研究人員的排名以及科學成功的量化和預測,我們如何做科學本身已經成為一門科學。隨著近年來大量數字化數據可用性的不斷增加,複雜系統理論和建模的飛速發展,科學學的又一個春天正在到來。

模因(meme)源自希臘語,意為“被模仿的東西”,由新達爾文主義者Richard Dawkins在其1976年所著的《自私的基因》中首次提到。他認為,諸如單詞、旋律、食譜和思想等文化實體與基因一樣進化,涉及複製和變異,但使用人類文化而不是基因庫作為它們的傳播媒介。

當科學碰上模因,我們不禁要問:模因是如何在科研引文網絡上傳播的?然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。2014年11月在PHYSICAL REVIEW X發表的一篇論文,為模因在科研引文網絡上的傳播建立了僅含一個參數的數學模型,基於Web of Science、PubMed Central以及美國物理學會(APS)的科研引文數據進行驗證,並通過多種方法對模型進行評估。本文將以這篇為背景,為讀者介紹模因在科研引文網絡上的傳播規律。

論文題目:

Inheritance Patterns in Citation Networks Reveal Scientific Memes

論文地址:

https://journals.aps.org/prx/abstract/10.1103/PhysRevX.4.041036

從4710萬論文大數據,看科學概念如何演化和傳播?

1.科研網絡視角下的模因

基於道金斯對“基因”一詞的定義,文章給出了科學模因的定義。科學模因,是文章中的一個短文本單位,在引用文章中複製,並以許多副本分發。一個特定的單詞序列越容易同時出現,且常常存在於引用文章中,就越容易成為科學模因。因此,從引用文章中複製單詞或短語的文章類似於從父母那裡繼承基因的後代有機體。

2.初探模因分佈——科研引文網絡的可視化

從4710萬論文大數據,看科學概念如何演化和傳播?

圖1

在進行建模之前,我們首先需要了解科學模因的特點,通過定性分析,把握科學模因分佈的定性規律。

如圖1(a)所示,基於Web of Science數據集的引文網絡包含超過3300萬篇文章。各類科學學科形成了相對緊密的群體:物理科學(青色)與網絡右上角的工程技術(洋紅色)非常接近,但與社會科學和人文科學(綠色)以及佔網絡左側的大部分的醫學和健康科學(紅色)卻相差甚遠。自然科學和農業科學介於兩者之間(藍色)。

如圖1(b)所示,在基於美國物理學會(APS)數據集的引文網絡中,不同的顏色標註出Physical Review中的五個最重要的期刊,每個都覆蓋物理的一個子領域。可以發現,儘管所採用的網絡佈局算法並沒有明確考慮科學學科和期刊信息,但在引用網絡中存在顯著的不同期刊的社團結構。

如圖1(c)所示,在圖1(b)的基礎上突出顯示了五個模因,可以發現,包含這些模因的文章在在引用網絡中形成緊密社團結構。量子模因(quantum)分佈較廣,但絕不是均勻分佈的,遍及幾個大團簇。包含裂變模因(fission)的文章形成了幾個相互連接的星團,這些星團侷限於一個區域,該區域構成了涵蓋核物理的《Physical Review C》雜誌。同樣,石墨烯(graphene)、自組織臨界性(self-organized criticality)、交通流(and traffic flow)都集中在各自的中型或小型社區。

3.模因的定量化描述——模型的建立

  • 模因得分

通過前面的分析,我們已經知道科學模因的分佈具有一定的規律,但要想在大量文字數據庫中準確的捕獲它們,我們就需要知道什麼樣的詞條可以作為模因?

首先,作為模因,該詞條一定具備較高的出現頻率,只有在多個文章中大量出現,該詞條才可能作為一種類似於生物中基因的物質在文章中複製並傳播。因此,作者定義了詞條出現頻率(f_m)來刻畫詞條的重要性。

那麼只要出現頻率足夠高的詞就一定可以稱為科學模因嗎?答案當然是否定的,幾乎每一篇文章(甚至每一段落中)都會出現大量的停用詞,如“the”、“of”等,這些詞本質上沒有明確的含義,但卻在語段中大量出現。此外,科學模因的定義更強調文章的“遺傳”屬性,在科研引文網絡中即為文章與其引文的關係。因此,作者基於詞條在文章及其引文中是否出現定義了傳播得分(p_m)來刻畫詞條的傳播價值。

此外,我們可以發現,由於科學模因的定義並不是十分明確的,那麼詞條能否被判定為科學模因就需要一個類似於概率的量來描述詞條被認為是科學模因的可能性。因此,作者定義了模因得分M_m:


從4710萬論文大數據,看科學概念如何演化和傳播?


其中,詞條出現頻率(f_m)是很容易計算得到的,需要注意的僅僅是需要對頻率做標準化處理,但如何定義傳播得分(p_m)使之能準確刻畫詞條的傳播價值呢?

  • 傳播得分

首先,作者發現,模因在文章與引文中出現與否的四種情況,如表1所示:

表1

從4710萬論文大數據,看科學概念如何演化和傳播?

其次,作者提出黏附因子(Sticking factor)和激發因子(Sparking factor)的概念,分別量化模因的複製比率和生成比率,複製比率越高,則傳播價值越大;生成比率越高,則傳播價值越低。

從4710萬論文大數據,看科學概念如何演化和傳播?

進一步,研究者可以發現,由於模型的比率形式,要求分母不等於零,與變量的實際意義矛盾,因此,我們引入參數——受控噪聲(delta),為避免delta取值對於稀有模因產生較大的影響,作者通過大量實驗,將delta值在未特殊說明的情況下固定為3。

從4710萬論文大數據,看科學概念如何演化和傳播?

此外,為避免“free-riding”問題,即存在某些較長的模因被錯誤識別為多個模因,作者在計算選出較長的模因計數。

  • 模型優勢:

作者建立的模型具有以下優勢:

1.可以精確計算,而不引入任意閾值及限制,例如:不限制最小出現次數;不限制詞條的長度;不需要過濾包含特殊字符的單詞;

2.不依賴外部數據庫,如詞典或其他語言數據;

3.不依賴過濾器,例如:不需要依賴停用詞表即可刪除最常見的單詞和短語;

4.非常簡單,只有一個參數(delta)。

4.實證分析

前文建立的模型,在理論分析中雖然具有諸多優勢,但能否真正準確快速的捕獲科學模因還需要進行實驗驗證。因此,本文作者通過隨機化、人工實驗及多模型比較三種方法進行驗證分析。

  • 圖隨機化方法
從4710萬論文大數據,看科學概念如何演化和傳播?

圖2(LOG-LOG圖)

計算所考慮的三個數據集中所有詞條的模因得分,得到了如圖2所示的結果。它們的相對頻率和傳播分數以對數尺度的熱圖形式進行繪製。其中圖2(a)是基於APS文章的題目和摘要數據,模因得分非零的詞條數為1372365;圖2(b)是基於經過保留時間順序的隨機化操作的APS文章的題目和摘要數據,模因得分非零的詞條數為89356;圖2(c)是基於PubMed Central文章的題目和摘要數據,模因得分非零的詞條數為1322013;圖2(d)是基於Web of Science文章的題目數據,模因得分非零的詞條數為7966731。四幅圖中,均有一條白線代表模因分數的99.9%分位數(M_0.999)。

在圖2(a)、2(c)和2(d)中,分析可知:

1.圖形具有一個向下傾斜的寬頻帶,表明更頻繁的模因通過引用網絡傳播的較少。

2.在每個圖形的下半部分,我們看到一個非常高密度的楔形,沿著左下邊緣的較大條帶,但向中間逐漸變窄到消失。儘管這一楔形對於Web of Science數據庫來說有一個更為圓潤和寬廣的形狀,但總體而言,這些圖形在所有數據集上都非常相似。這是科學模因分佈模式普遍性的一個標誌。

3.考慮到詞條數目的範圍超過5個數量級以上,99.9%分位數線(M_0.999)也非常穩定。

4.將前面提到的物理模因定位在APS數據集圖2(a)中,研究者發現它們位於帶右上方的非常邊緣,其中詞條的密度非常低。(一些停用詞如“of”或“the”出現在圖的頂部的微弱尖峰中,其中 ,頻率接近100%)

圖2(b)中的數據,經過了保留時間順序的隨機化操作,與原始網絡具有完全相同的拓撲結構,但是文章文本(即標題和摘要及其模因)被隨機分配給不同節點。對於保留時間順序的隨機化,我們只對在很短的連續時間窗口內發佈的文章進行無序處理。例如:使用了1000篇文章的時間窗口,意味著隨機化後沒有任何一篇文章從最初的時間順序向前或向後移動了超過1000個位置。因此,圖2(b)中的熱圖說明了APS引文圖隨機化後的情況,但文章的時間順序保存了信息。模因得分非零的詞條數量急劇減少(從圖2(a)中的約140萬減少到圖2(b)中的僅89356),科學模因的普遍分佈模式消失,排名靠前的模因所在的右上角部分消失。當然,如果APS引用網絡是完全隨機的,且不保留時間順序,那麼與圖2(a)中顯示的原始結果的差別會更大。

統計分析表明,隨機網絡獲得的模因得分中位數與原始引文圖的中位數相差超過1個數量級,不同隨機化數據的差異非常小。這些結果表明,僅拓撲結構和時間結構無法解釋分佈模式的普遍性。因此,模因得到高模因得分基於複雜的過程和機制。

  • 人工實驗

表2


"
從4710萬論文大數據,看科學概念如何演化和傳播?

導語

流行語是社交網絡中的模因,而學術概念,是引文網絡中模因,在研究者之間傳播和演化。然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。

在一篇於2014年11月發表在Physical Review X的經典論文中,研究者基於源於Web of Science、美國物理學會等的數千萬引文數據,為模因在引文網絡上的傳播,建立了一個簡潔的數學模型。本文將以這篇論文為背景,為讀者介紹模因在科研引文網絡上的傳播規律,以及研究方法。


何謂科學模因?

科學是現代人類文化的重要支柱,科學產出的評價和科學協作模式的研究越來越受到研究者的關注。從引用分佈、合著網絡和研究團隊的形成,到研究人員的排名以及科學成功的量化和預測,我們如何做科學本身已經成為一門科學。隨著近年來大量數字化數據可用性的不斷增加,複雜系統理論和建模的飛速發展,科學學的又一個春天正在到來。

模因(meme)源自希臘語,意為“被模仿的東西”,由新達爾文主義者Richard Dawkins在其1976年所著的《自私的基因》中首次提到。他認為,諸如單詞、旋律、食譜和思想等文化實體與基因一樣進化,涉及複製和變異,但使用人類文化而不是基因庫作為它們的傳播媒介。

當科學碰上模因,我們不禁要問:模因是如何在科研引文網絡上傳播的?然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。2014年11月在PHYSICAL REVIEW X發表的一篇論文,為模因在科研引文網絡上的傳播建立了僅含一個參數的數學模型,基於Web of Science、PubMed Central以及美國物理學會(APS)的科研引文數據進行驗證,並通過多種方法對模型進行評估。本文將以這篇為背景,為讀者介紹模因在科研引文網絡上的傳播規律。

論文題目:

Inheritance Patterns in Citation Networks Reveal Scientific Memes

論文地址:

https://journals.aps.org/prx/abstract/10.1103/PhysRevX.4.041036

從4710萬論文大數據,看科學概念如何演化和傳播?

1.科研網絡視角下的模因

基於道金斯對“基因”一詞的定義,文章給出了科學模因的定義。科學模因,是文章中的一個短文本單位,在引用文章中複製,並以許多副本分發。一個特定的單詞序列越容易同時出現,且常常存在於引用文章中,就越容易成為科學模因。因此,從引用文章中複製單詞或短語的文章類似於從父母那裡繼承基因的後代有機體。

2.初探模因分佈——科研引文網絡的可視化

從4710萬論文大數據,看科學概念如何演化和傳播?

圖1

在進行建模之前,我們首先需要了解科學模因的特點,通過定性分析,把握科學模因分佈的定性規律。

如圖1(a)所示,基於Web of Science數據集的引文網絡包含超過3300萬篇文章。各類科學學科形成了相對緊密的群體:物理科學(青色)與網絡右上角的工程技術(洋紅色)非常接近,但與社會科學和人文科學(綠色)以及佔網絡左側的大部分的醫學和健康科學(紅色)卻相差甚遠。自然科學和農業科學介於兩者之間(藍色)。

如圖1(b)所示,在基於美國物理學會(APS)數據集的引文網絡中,不同的顏色標註出Physical Review中的五個最重要的期刊,每個都覆蓋物理的一個子領域。可以發現,儘管所採用的網絡佈局算法並沒有明確考慮科學學科和期刊信息,但在引用網絡中存在顯著的不同期刊的社團結構。

如圖1(c)所示,在圖1(b)的基礎上突出顯示了五個模因,可以發現,包含這些模因的文章在在引用網絡中形成緊密社團結構。量子模因(quantum)分佈較廣,但絕不是均勻分佈的,遍及幾個大團簇。包含裂變模因(fission)的文章形成了幾個相互連接的星團,這些星團侷限於一個區域,該區域構成了涵蓋核物理的《Physical Review C》雜誌。同樣,石墨烯(graphene)、自組織臨界性(self-organized criticality)、交通流(and traffic flow)都集中在各自的中型或小型社區。

3.模因的定量化描述——模型的建立

  • 模因得分

通過前面的分析,我們已經知道科學模因的分佈具有一定的規律,但要想在大量文字數據庫中準確的捕獲它們,我們就需要知道什麼樣的詞條可以作為模因?

首先,作為模因,該詞條一定具備較高的出現頻率,只有在多個文章中大量出現,該詞條才可能作為一種類似於生物中基因的物質在文章中複製並傳播。因此,作者定義了詞條出現頻率(f_m)來刻畫詞條的重要性。

那麼只要出現頻率足夠高的詞就一定可以稱為科學模因嗎?答案當然是否定的,幾乎每一篇文章(甚至每一段落中)都會出現大量的停用詞,如“the”、“of”等,這些詞本質上沒有明確的含義,但卻在語段中大量出現。此外,科學模因的定義更強調文章的“遺傳”屬性,在科研引文網絡中即為文章與其引文的關係。因此,作者基於詞條在文章及其引文中是否出現定義了傳播得分(p_m)來刻畫詞條的傳播價值。

此外,我們可以發現,由於科學模因的定義並不是十分明確的,那麼詞條能否被判定為科學模因就需要一個類似於概率的量來描述詞條被認為是科學模因的可能性。因此,作者定義了模因得分M_m:


從4710萬論文大數據,看科學概念如何演化和傳播?


其中,詞條出現頻率(f_m)是很容易計算得到的,需要注意的僅僅是需要對頻率做標準化處理,但如何定義傳播得分(p_m)使之能準確刻畫詞條的傳播價值呢?

  • 傳播得分

首先,作者發現,模因在文章與引文中出現與否的四種情況,如表1所示:

表1

從4710萬論文大數據,看科學概念如何演化和傳播?

其次,作者提出黏附因子(Sticking factor)和激發因子(Sparking factor)的概念,分別量化模因的複製比率和生成比率,複製比率越高,則傳播價值越大;生成比率越高,則傳播價值越低。

從4710萬論文大數據,看科學概念如何演化和傳播?

進一步,研究者可以發現,由於模型的比率形式,要求分母不等於零,與變量的實際意義矛盾,因此,我們引入參數——受控噪聲(delta),為避免delta取值對於稀有模因產生較大的影響,作者通過大量實驗,將delta值在未特殊說明的情況下固定為3。

從4710萬論文大數據,看科學概念如何演化和傳播?

此外,為避免“free-riding”問題,即存在某些較長的模因被錯誤識別為多個模因,作者在計算選出較長的模因計數。

  • 模型優勢:

作者建立的模型具有以下優勢:

1.可以精確計算,而不引入任意閾值及限制,例如:不限制最小出現次數;不限制詞條的長度;不需要過濾包含特殊字符的單詞;

2.不依賴外部數據庫,如詞典或其他語言數據;

3.不依賴過濾器,例如:不需要依賴停用詞表即可刪除最常見的單詞和短語;

4.非常簡單,只有一個參數(delta)。

4.實證分析

前文建立的模型,在理論分析中雖然具有諸多優勢,但能否真正準確快速的捕獲科學模因還需要進行實驗驗證。因此,本文作者通過隨機化、人工實驗及多模型比較三種方法進行驗證分析。

  • 圖隨機化方法
從4710萬論文大數據,看科學概念如何演化和傳播?

圖2(LOG-LOG圖)

計算所考慮的三個數據集中所有詞條的模因得分,得到了如圖2所示的結果。它們的相對頻率和傳播分數以對數尺度的熱圖形式進行繪製。其中圖2(a)是基於APS文章的題目和摘要數據,模因得分非零的詞條數為1372365;圖2(b)是基於經過保留時間順序的隨機化操作的APS文章的題目和摘要數據,模因得分非零的詞條數為89356;圖2(c)是基於PubMed Central文章的題目和摘要數據,模因得分非零的詞條數為1322013;圖2(d)是基於Web of Science文章的題目數據,模因得分非零的詞條數為7966731。四幅圖中,均有一條白線代表模因分數的99.9%分位數(M_0.999)。

在圖2(a)、2(c)和2(d)中,分析可知:

1.圖形具有一個向下傾斜的寬頻帶,表明更頻繁的模因通過引用網絡傳播的較少。

2.在每個圖形的下半部分,我們看到一個非常高密度的楔形,沿著左下邊緣的較大條帶,但向中間逐漸變窄到消失。儘管這一楔形對於Web of Science數據庫來說有一個更為圓潤和寬廣的形狀,但總體而言,這些圖形在所有數據集上都非常相似。這是科學模因分佈模式普遍性的一個標誌。

3.考慮到詞條數目的範圍超過5個數量級以上,99.9%分位數線(M_0.999)也非常穩定。

4.將前面提到的物理模因定位在APS數據集圖2(a)中,研究者發現它們位於帶右上方的非常邊緣,其中詞條的密度非常低。(一些停用詞如“of”或“the”出現在圖的頂部的微弱尖峰中,其中 ,頻率接近100%)

圖2(b)中的數據,經過了保留時間順序的隨機化操作,與原始網絡具有完全相同的拓撲結構,但是文章文本(即標題和摘要及其模因)被隨機分配給不同節點。對於保留時間順序的隨機化,我們只對在很短的連續時間窗口內發佈的文章進行無序處理。例如:使用了1000篇文章的時間窗口,意味著隨機化後沒有任何一篇文章從最初的時間順序向前或向後移動了超過1000個位置。因此,圖2(b)中的熱圖說明了APS引文圖隨機化後的情況,但文章的時間順序保存了信息。模因得分非零的詞條數量急劇減少(從圖2(a)中的約140萬減少到圖2(b)中的僅89356),科學模因的普遍分佈模式消失,排名靠前的模因所在的右上角部分消失。當然,如果APS引用網絡是完全隨機的,且不保留時間順序,那麼與圖2(a)中顯示的原始結果的差別會更大。

統計分析表明,隨機網絡獲得的模因得分中位數與原始引文圖的中位數相差超過1個數量級,不同隨機化數據的差異非常小。這些結果表明,僅拓撲結構和時間結構無法解釋分佈模式的普遍性。因此,模因得到高模因得分基於複雜的過程和機制。

  • 人工實驗

表2


從4710萬論文大數據,看科學概念如何演化和傳播?


表2所展示的是APS數據集中模因得分排名前50位的模因,可以發現,這些模因中的大多數是表示真實合理物理概念的名詞短語,這與文章中的關鍵詞往往是名詞有關。模型建立的過程中並不包含任何理論知識,且模型存在由兩個或三個詞組成模因,因此,該模型具有相當不錯的識別效果。

表3

"
從4710萬論文大數據,看科學概念如何演化和傳播?

導語

流行語是社交網絡中的模因,而學術概念,是引文網絡中模因,在研究者之間傳播和演化。然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。

在一篇於2014年11月發表在Physical Review X的經典論文中,研究者基於源於Web of Science、美國物理學會等的數千萬引文數據,為模因在引文網絡上的傳播,建立了一個簡潔的數學模型。本文將以這篇論文為背景,為讀者介紹模因在科研引文網絡上的傳播規律,以及研究方法。


何謂科學模因?

科學是現代人類文化的重要支柱,科學產出的評價和科學協作模式的研究越來越受到研究者的關注。從引用分佈、合著網絡和研究團隊的形成,到研究人員的排名以及科學成功的量化和預測,我們如何做科學本身已經成為一門科學。隨著近年來大量數字化數據可用性的不斷增加,複雜系統理論和建模的飛速發展,科學學的又一個春天正在到來。

模因(meme)源自希臘語,意為“被模仿的東西”,由新達爾文主義者Richard Dawkins在其1976年所著的《自私的基因》中首次提到。他認為,諸如單詞、旋律、食譜和思想等文化實體與基因一樣進化,涉及複製和變異,但使用人類文化而不是基因庫作為它們的傳播媒介。

當科學碰上模因,我們不禁要問:模因是如何在科研引文網絡上傳播的?然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。2014年11月在PHYSICAL REVIEW X發表的一篇論文,為模因在科研引文網絡上的傳播建立了僅含一個參數的數學模型,基於Web of Science、PubMed Central以及美國物理學會(APS)的科研引文數據進行驗證,並通過多種方法對模型進行評估。本文將以這篇為背景,為讀者介紹模因在科研引文網絡上的傳播規律。

論文題目:

Inheritance Patterns in Citation Networks Reveal Scientific Memes

論文地址:

https://journals.aps.org/prx/abstract/10.1103/PhysRevX.4.041036

從4710萬論文大數據,看科學概念如何演化和傳播?

1.科研網絡視角下的模因

基於道金斯對“基因”一詞的定義,文章給出了科學模因的定義。科學模因,是文章中的一個短文本單位,在引用文章中複製,並以許多副本分發。一個特定的單詞序列越容易同時出現,且常常存在於引用文章中,就越容易成為科學模因。因此,從引用文章中複製單詞或短語的文章類似於從父母那裡繼承基因的後代有機體。

2.初探模因分佈——科研引文網絡的可視化

從4710萬論文大數據,看科學概念如何演化和傳播?

圖1

在進行建模之前,我們首先需要了解科學模因的特點,通過定性分析,把握科學模因分佈的定性規律。

如圖1(a)所示,基於Web of Science數據集的引文網絡包含超過3300萬篇文章。各類科學學科形成了相對緊密的群體:物理科學(青色)與網絡右上角的工程技術(洋紅色)非常接近,但與社會科學和人文科學(綠色)以及佔網絡左側的大部分的醫學和健康科學(紅色)卻相差甚遠。自然科學和農業科學介於兩者之間(藍色)。

如圖1(b)所示,在基於美國物理學會(APS)數據集的引文網絡中,不同的顏色標註出Physical Review中的五個最重要的期刊,每個都覆蓋物理的一個子領域。可以發現,儘管所採用的網絡佈局算法並沒有明確考慮科學學科和期刊信息,但在引用網絡中存在顯著的不同期刊的社團結構。

如圖1(c)所示,在圖1(b)的基礎上突出顯示了五個模因,可以發現,包含這些模因的文章在在引用網絡中形成緊密社團結構。量子模因(quantum)分佈較廣,但絕不是均勻分佈的,遍及幾個大團簇。包含裂變模因(fission)的文章形成了幾個相互連接的星團,這些星團侷限於一個區域,該區域構成了涵蓋核物理的《Physical Review C》雜誌。同樣,石墨烯(graphene)、自組織臨界性(self-organized criticality)、交通流(and traffic flow)都集中在各自的中型或小型社區。

3.模因的定量化描述——模型的建立

  • 模因得分

通過前面的分析,我們已經知道科學模因的分佈具有一定的規律,但要想在大量文字數據庫中準確的捕獲它們,我們就需要知道什麼樣的詞條可以作為模因?

首先,作為模因,該詞條一定具備較高的出現頻率,只有在多個文章中大量出現,該詞條才可能作為一種類似於生物中基因的物質在文章中複製並傳播。因此,作者定義了詞條出現頻率(f_m)來刻畫詞條的重要性。

那麼只要出現頻率足夠高的詞就一定可以稱為科學模因嗎?答案當然是否定的,幾乎每一篇文章(甚至每一段落中)都會出現大量的停用詞,如“the”、“of”等,這些詞本質上沒有明確的含義,但卻在語段中大量出現。此外,科學模因的定義更強調文章的“遺傳”屬性,在科研引文網絡中即為文章與其引文的關係。因此,作者基於詞條在文章及其引文中是否出現定義了傳播得分(p_m)來刻畫詞條的傳播價值。

此外,我們可以發現,由於科學模因的定義並不是十分明確的,那麼詞條能否被判定為科學模因就需要一個類似於概率的量來描述詞條被認為是科學模因的可能性。因此,作者定義了模因得分M_m:


從4710萬論文大數據,看科學概念如何演化和傳播?


其中,詞條出現頻率(f_m)是很容易計算得到的,需要注意的僅僅是需要對頻率做標準化處理,但如何定義傳播得分(p_m)使之能準確刻畫詞條的傳播價值呢?

  • 傳播得分

首先,作者發現,模因在文章與引文中出現與否的四種情況,如表1所示:

表1

從4710萬論文大數據,看科學概念如何演化和傳播?

其次,作者提出黏附因子(Sticking factor)和激發因子(Sparking factor)的概念,分別量化模因的複製比率和生成比率,複製比率越高,則傳播價值越大;生成比率越高,則傳播價值越低。

從4710萬論文大數據,看科學概念如何演化和傳播?

進一步,研究者可以發現,由於模型的比率形式,要求分母不等於零,與變量的實際意義矛盾,因此,我們引入參數——受控噪聲(delta),為避免delta取值對於稀有模因產生較大的影響,作者通過大量實驗,將delta值在未特殊說明的情況下固定為3。

從4710萬論文大數據,看科學概念如何演化和傳播?

此外,為避免“free-riding”問題,即存在某些較長的模因被錯誤識別為多個模因,作者在計算選出較長的模因計數。

  • 模型優勢:

作者建立的模型具有以下優勢:

1.可以精確計算,而不引入任意閾值及限制,例如:不限制最小出現次數;不限制詞條的長度;不需要過濾包含特殊字符的單詞;

2.不依賴外部數據庫,如詞典或其他語言數據;

3.不依賴過濾器,例如:不需要依賴停用詞表即可刪除最常見的單詞和短語;

4.非常簡單,只有一個參數(delta)。

4.實證分析

前文建立的模型,在理論分析中雖然具有諸多優勢,但能否真正準確快速的捕獲科學模因還需要進行實驗驗證。因此,本文作者通過隨機化、人工實驗及多模型比較三種方法進行驗證分析。

  • 圖隨機化方法
從4710萬論文大數據,看科學概念如何演化和傳播?

圖2(LOG-LOG圖)

計算所考慮的三個數據集中所有詞條的模因得分,得到了如圖2所示的結果。它們的相對頻率和傳播分數以對數尺度的熱圖形式進行繪製。其中圖2(a)是基於APS文章的題目和摘要數據,模因得分非零的詞條數為1372365;圖2(b)是基於經過保留時間順序的隨機化操作的APS文章的題目和摘要數據,模因得分非零的詞條數為89356;圖2(c)是基於PubMed Central文章的題目和摘要數據,模因得分非零的詞條數為1322013;圖2(d)是基於Web of Science文章的題目數據,模因得分非零的詞條數為7966731。四幅圖中,均有一條白線代表模因分數的99.9%分位數(M_0.999)。

在圖2(a)、2(c)和2(d)中,分析可知:

1.圖形具有一個向下傾斜的寬頻帶,表明更頻繁的模因通過引用網絡傳播的較少。

2.在每個圖形的下半部分,我們看到一個非常高密度的楔形,沿著左下邊緣的較大條帶,但向中間逐漸變窄到消失。儘管這一楔形對於Web of Science數據庫來說有一個更為圓潤和寬廣的形狀,但總體而言,這些圖形在所有數據集上都非常相似。這是科學模因分佈模式普遍性的一個標誌。

3.考慮到詞條數目的範圍超過5個數量級以上,99.9%分位數線(M_0.999)也非常穩定。

4.將前面提到的物理模因定位在APS數據集圖2(a)中,研究者發現它們位於帶右上方的非常邊緣,其中詞條的密度非常低。(一些停用詞如“of”或“the”出現在圖的頂部的微弱尖峰中,其中 ,頻率接近100%)

圖2(b)中的數據,經過了保留時間順序的隨機化操作,與原始網絡具有完全相同的拓撲結構,但是文章文本(即標題和摘要及其模因)被隨機分配給不同節點。對於保留時間順序的隨機化,我們只對在很短的連續時間窗口內發佈的文章進行無序處理。例如:使用了1000篇文章的時間窗口,意味著隨機化後沒有任何一篇文章從最初的時間順序向前或向後移動了超過1000個位置。因此,圖2(b)中的熱圖說明了APS引文圖隨機化後的情況,但文章的時間順序保存了信息。模因得分非零的詞條數量急劇減少(從圖2(a)中的約140萬減少到圖2(b)中的僅89356),科學模因的普遍分佈模式消失,排名靠前的模因所在的右上角部分消失。當然,如果APS引用網絡是完全隨機的,且不保留時間順序,那麼與圖2(a)中顯示的原始結果的差別會更大。

統計分析表明,隨機網絡獲得的模因得分中位數與原始引文圖的中位數相差超過1個數量級,不同隨機化數據的差異非常小。這些結果表明,僅拓撲結構和時間結構無法解釋分佈模式的普遍性。因此,模因得到高模因得分基於複雜的過程和機制。

  • 人工實驗

表2


從4710萬論文大數據,看科學概念如何演化和傳播?


表2所展示的是APS數據集中模因得分排名前50位的模因,可以發現,這些模因中的大多數是表示真實合理物理概念的名詞短語,這與文章中的關鍵詞往往是名詞有關。模型建立的過程中並不包含任何理論知識,且模型存在由兩個或三個詞組成模因,因此,該模型具有相當不錯的識別效果。

表3

從4710萬論文大數據,看科學概念如何演化和傳播?

如表3所示,研究者給出了由模因得分確定的詞條的兩次人工實驗的結果。

首先,作者從APS數據集中提取出模因得分最高的150個模因詞條,構成樣本1。其次,作者從至少在100篇文章中出現的所有詞條中完全隨機抽取150個詞條,構成樣本2。最後,作者出現頻率做權重從至少在100篇文章中出現的所有詞條中隨機抽取150個詞條,構成樣本3。此外,為了排除不同詞條長度的影響,我們確保兩批隨機抽取的樣本的長度分佈與基於模因提取的主樣本完全相同。三個樣本的450個詞條打入按順序後讓兩個物理學博士生分別識別這些詞條,兩次實驗的選項分別為:

實驗1:(i)短語不是一個有意義的詞條或不是一個重要的物理概念;(ii)短語是一個重要的物理概念或實體——它可以作為一個綜合百科全書條目的標題出現。

實驗2:(i)名詞短語,(ii)動詞,(iii)形容詞或副詞,(iv)其他。

實驗結果表明,在樣本1中,實驗1中86%左右的模因得分項是重要的物理概念,且兩個人在81.3%的情況下達成一致性判斷。實驗2中86.0%的模因得分項是名詞短語,且兩個人在82.7%的情況下達成一致性判斷。而對於隨機樣本,其類別判斷和判斷的一致性都很低。對於兩個博士生的一致性分類結果進行Fisher精確檢驗,p < 10^(-15),實驗結果非常顯著,證明了模因得分對名詞短語和重要概念具有顯著的偏好性。

  • 多模型比較
"
從4710萬論文大數據,看科學概念如何演化和傳播?

導語

流行語是社交網絡中的模因,而學術概念,是引文網絡中模因,在研究者之間傳播和演化。然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。

在一篇於2014年11月發表在Physical Review X的經典論文中,研究者基於源於Web of Science、美國物理學會等的數千萬引文數據,為模因在引文網絡上的傳播,建立了一個簡潔的數學模型。本文將以這篇論文為背景,為讀者介紹模因在科研引文網絡上的傳播規律,以及研究方法。


何謂科學模因?

科學是現代人類文化的重要支柱,科學產出的評價和科學協作模式的研究越來越受到研究者的關注。從引用分佈、合著網絡和研究團隊的形成,到研究人員的排名以及科學成功的量化和預測,我們如何做科學本身已經成為一門科學。隨著近年來大量數字化數據可用性的不斷增加,複雜系統理論和建模的飛速發展,科學學的又一個春天正在到來。

模因(meme)源自希臘語,意為“被模仿的東西”,由新達爾文主義者Richard Dawkins在其1976年所著的《自私的基因》中首次提到。他認為,諸如單詞、旋律、食譜和思想等文化實體與基因一樣進化,涉及複製和變異,但使用人類文化而不是基因庫作為它們的傳播媒介。

當科學碰上模因,我們不禁要問:模因是如何在科研引文網絡上傳播的?然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。2014年11月在PHYSICAL REVIEW X發表的一篇論文,為模因在科研引文網絡上的傳播建立了僅含一個參數的數學模型,基於Web of Science、PubMed Central以及美國物理學會(APS)的科研引文數據進行驗證,並通過多種方法對模型進行評估。本文將以這篇為背景,為讀者介紹模因在科研引文網絡上的傳播規律。

論文題目:

Inheritance Patterns in Citation Networks Reveal Scientific Memes

論文地址:

https://journals.aps.org/prx/abstract/10.1103/PhysRevX.4.041036

從4710萬論文大數據,看科學概念如何演化和傳播?

1.科研網絡視角下的模因

基於道金斯對“基因”一詞的定義,文章給出了科學模因的定義。科學模因,是文章中的一個短文本單位,在引用文章中複製,並以許多副本分發。一個特定的單詞序列越容易同時出現,且常常存在於引用文章中,就越容易成為科學模因。因此,從引用文章中複製單詞或短語的文章類似於從父母那裡繼承基因的後代有機體。

2.初探模因分佈——科研引文網絡的可視化

從4710萬論文大數據,看科學概念如何演化和傳播?

圖1

在進行建模之前,我們首先需要了解科學模因的特點,通過定性分析,把握科學模因分佈的定性規律。

如圖1(a)所示,基於Web of Science數據集的引文網絡包含超過3300萬篇文章。各類科學學科形成了相對緊密的群體:物理科學(青色)與網絡右上角的工程技術(洋紅色)非常接近,但與社會科學和人文科學(綠色)以及佔網絡左側的大部分的醫學和健康科學(紅色)卻相差甚遠。自然科學和農業科學介於兩者之間(藍色)。

如圖1(b)所示,在基於美國物理學會(APS)數據集的引文網絡中,不同的顏色標註出Physical Review中的五個最重要的期刊,每個都覆蓋物理的一個子領域。可以發現,儘管所採用的網絡佈局算法並沒有明確考慮科學學科和期刊信息,但在引用網絡中存在顯著的不同期刊的社團結構。

如圖1(c)所示,在圖1(b)的基礎上突出顯示了五個模因,可以發現,包含這些模因的文章在在引用網絡中形成緊密社團結構。量子模因(quantum)分佈較廣,但絕不是均勻分佈的,遍及幾個大團簇。包含裂變模因(fission)的文章形成了幾個相互連接的星團,這些星團侷限於一個區域,該區域構成了涵蓋核物理的《Physical Review C》雜誌。同樣,石墨烯(graphene)、自組織臨界性(self-organized criticality)、交通流(and traffic flow)都集中在各自的中型或小型社區。

3.模因的定量化描述——模型的建立

  • 模因得分

通過前面的分析,我們已經知道科學模因的分佈具有一定的規律,但要想在大量文字數據庫中準確的捕獲它們,我們就需要知道什麼樣的詞條可以作為模因?

首先,作為模因,該詞條一定具備較高的出現頻率,只有在多個文章中大量出現,該詞條才可能作為一種類似於生物中基因的物質在文章中複製並傳播。因此,作者定義了詞條出現頻率(f_m)來刻畫詞條的重要性。

那麼只要出現頻率足夠高的詞就一定可以稱為科學模因嗎?答案當然是否定的,幾乎每一篇文章(甚至每一段落中)都會出現大量的停用詞,如“the”、“of”等,這些詞本質上沒有明確的含義,但卻在語段中大量出現。此外,科學模因的定義更強調文章的“遺傳”屬性,在科研引文網絡中即為文章與其引文的關係。因此,作者基於詞條在文章及其引文中是否出現定義了傳播得分(p_m)來刻畫詞條的傳播價值。

此外,我們可以發現,由於科學模因的定義並不是十分明確的,那麼詞條能否被判定為科學模因就需要一個類似於概率的量來描述詞條被認為是科學模因的可能性。因此,作者定義了模因得分M_m:


從4710萬論文大數據,看科學概念如何演化和傳播?


其中,詞條出現頻率(f_m)是很容易計算得到的,需要注意的僅僅是需要對頻率做標準化處理,但如何定義傳播得分(p_m)使之能準確刻畫詞條的傳播價值呢?

  • 傳播得分

首先,作者發現,模因在文章與引文中出現與否的四種情況,如表1所示:

表1

從4710萬論文大數據,看科學概念如何演化和傳播?

其次,作者提出黏附因子(Sticking factor)和激發因子(Sparking factor)的概念,分別量化模因的複製比率和生成比率,複製比率越高,則傳播價值越大;生成比率越高,則傳播價值越低。

從4710萬論文大數據,看科學概念如何演化和傳播?

進一步,研究者可以發現,由於模型的比率形式,要求分母不等於零,與變量的實際意義矛盾,因此,我們引入參數——受控噪聲(delta),為避免delta取值對於稀有模因產生較大的影響,作者通過大量實驗,將delta值在未特殊說明的情況下固定為3。

從4710萬論文大數據,看科學概念如何演化和傳播?

此外,為避免“free-riding”問題,即存在某些較長的模因被錯誤識別為多個模因,作者在計算選出較長的模因計數。

  • 模型優勢:

作者建立的模型具有以下優勢:

1.可以精確計算,而不引入任意閾值及限制,例如:不限制最小出現次數;不限制詞條的長度;不需要過濾包含特殊字符的單詞;

2.不依賴外部數據庫,如詞典或其他語言數據;

3.不依賴過濾器,例如:不需要依賴停用詞表即可刪除最常見的單詞和短語;

4.非常簡單,只有一個參數(delta)。

4.實證分析

前文建立的模型,在理論分析中雖然具有諸多優勢,但能否真正準確快速的捕獲科學模因還需要進行實驗驗證。因此,本文作者通過隨機化、人工實驗及多模型比較三種方法進行驗證分析。

  • 圖隨機化方法
從4710萬論文大數據,看科學概念如何演化和傳播?

圖2(LOG-LOG圖)

計算所考慮的三個數據集中所有詞條的模因得分,得到了如圖2所示的結果。它們的相對頻率和傳播分數以對數尺度的熱圖形式進行繪製。其中圖2(a)是基於APS文章的題目和摘要數據,模因得分非零的詞條數為1372365;圖2(b)是基於經過保留時間順序的隨機化操作的APS文章的題目和摘要數據,模因得分非零的詞條數為89356;圖2(c)是基於PubMed Central文章的題目和摘要數據,模因得分非零的詞條數為1322013;圖2(d)是基於Web of Science文章的題目數據,模因得分非零的詞條數為7966731。四幅圖中,均有一條白線代表模因分數的99.9%分位數(M_0.999)。

在圖2(a)、2(c)和2(d)中,分析可知:

1.圖形具有一個向下傾斜的寬頻帶,表明更頻繁的模因通過引用網絡傳播的較少。

2.在每個圖形的下半部分,我們看到一個非常高密度的楔形,沿著左下邊緣的較大條帶,但向中間逐漸變窄到消失。儘管這一楔形對於Web of Science數據庫來說有一個更為圓潤和寬廣的形狀,但總體而言,這些圖形在所有數據集上都非常相似。這是科學模因分佈模式普遍性的一個標誌。

3.考慮到詞條數目的範圍超過5個數量級以上,99.9%分位數線(M_0.999)也非常穩定。

4.將前面提到的物理模因定位在APS數據集圖2(a)中,研究者發現它們位於帶右上方的非常邊緣,其中詞條的密度非常低。(一些停用詞如“of”或“the”出現在圖的頂部的微弱尖峰中,其中 ,頻率接近100%)

圖2(b)中的數據,經過了保留時間順序的隨機化操作,與原始網絡具有完全相同的拓撲結構,但是文章文本(即標題和摘要及其模因)被隨機分配給不同節點。對於保留時間順序的隨機化,我們只對在很短的連續時間窗口內發佈的文章進行無序處理。例如:使用了1000篇文章的時間窗口,意味著隨機化後沒有任何一篇文章從最初的時間順序向前或向後移動了超過1000個位置。因此,圖2(b)中的熱圖說明了APS引文圖隨機化後的情況,但文章的時間順序保存了信息。模因得分非零的詞條數量急劇減少(從圖2(a)中的約140萬減少到圖2(b)中的僅89356),科學模因的普遍分佈模式消失,排名靠前的模因所在的右上角部分消失。當然,如果APS引用網絡是完全隨機的,且不保留時間順序,那麼與圖2(a)中顯示的原始結果的差別會更大。

統計分析表明,隨機網絡獲得的模因得分中位數與原始引文圖的中位數相差超過1個數量級,不同隨機化數據的差異非常小。這些結果表明,僅拓撲結構和時間結構無法解釋分佈模式的普遍性。因此,模因得到高模因得分基於複雜的過程和機制。

  • 人工實驗

表2


從4710萬論文大數據,看科學概念如何演化和傳播?


表2所展示的是APS數據集中模因得分排名前50位的模因,可以發現,這些模因中的大多數是表示真實合理物理概念的名詞短語,這與文章中的關鍵詞往往是名詞有關。模型建立的過程中並不包含任何理論知識,且模型存在由兩個或三個詞組成模因,因此,該模型具有相當不錯的識別效果。

表3

從4710萬論文大數據,看科學概念如何演化和傳播?

如表3所示,研究者給出了由模因得分確定的詞條的兩次人工實驗的結果。

首先,作者從APS數據集中提取出模因得分最高的150個模因詞條,構成樣本1。其次,作者從至少在100篇文章中出現的所有詞條中完全隨機抽取150個詞條,構成樣本2。最後,作者出現頻率做權重從至少在100篇文章中出現的所有詞條中隨機抽取150個詞條,構成樣本3。此外,為了排除不同詞條長度的影響,我們確保兩批隨機抽取的樣本的長度分佈與基於模因提取的主樣本完全相同。三個樣本的450個詞條打入按順序後讓兩個物理學博士生分別識別這些詞條,兩次實驗的選項分別為:

實驗1:(i)短語不是一個有意義的詞條或不是一個重要的物理概念;(ii)短語是一個重要的物理概念或實體——它可以作為一個綜合百科全書條目的標題出現。

實驗2:(i)名詞短語,(ii)動詞,(iii)形容詞或副詞,(iv)其他。

實驗結果表明,在樣本1中,實驗1中86%左右的模因得分項是重要的物理概念,且兩個人在81.3%的情況下達成一致性判斷。實驗2中86.0%的模因得分項是名詞短語,且兩個人在82.7%的情況下達成一致性判斷。而對於隨機樣本,其類別判斷和判斷的一致性都很低。對於兩個博士生的一致性分類結果進行Fisher精確檢驗,p < 10^(-15),實驗結果非常顯著,證明了模因得分對名詞短語和重要概念具有顯著的偏好性。

  • 多模型比較
從4710萬論文大數據,看科學概念如何演化和傳播?

圖3

為了證明模因得分模型的有效性,作者引入了五個模因得分的替代指標:

(1)頻率——最頻繁項,可以選擇跳過前x個詞條;

(2)隨時間的最大絕對變化——最高得分項。尤其是頻率的最大絕對變化;

(3)隨時間的最大相對變化——與(2)相同,但基於相對變化;

(4)期刊之間的最大絕對差異——期刊之間頻率最大絕對差異的最高得分項;

(5)期刊之間的最大相對差異——與(4)相同,但基於相對差異。

度量(1)是基於重要的模因是相對高頻出現的假設(非停用詞)。

度量(2)和(3)基於有價值的模因隨著時間的推移呈現出趨勢的假設。

度量(4)和(5)基於作者的直覺提出的,即短語主要出現在特定的期刊上,而不是其他期刊上,必須是特定研究領域的特定概念。

如圖3所示,在右上角的小圖中,縱座標為詞條在維基百科(真值列表)中的比例,橫座標是模因得分最高的模因數,是對數座標。結果顯示,模因得分最高的前10個模因中,約70%對應於從維基百科中提取的詞條,前20個模因中的約55%、前50個模因中的約40%和前100個模因中的約26%。

此外,為了量化由特定指標delta確定的頂級模因與維基百科列表之間的一致性,研究者使用曲線下的標準化區域的面積大小A(Agreement),面積越大,則一致性越高。在右上角的小圖中,不同的藍色折線,代表不同的受控噪聲值delta。(delta取值在1到10之間;藍色粗線代表delta=4,其面積A最大)

在圖3的箱線圖中,比較了不同模型下關於A的大小。對於模因分數指標來說,存在當delta=1時,32.3%的孤立異常值。當delta取值在2到10之間時,A的值在40.9%到44.8%之間,敏感性較低。而其他指標的得分始終低於22%(包括離群值),相差較大,說明模因分數指標的有效性。

5.低頻高傳現象

"
從4710萬論文大數據,看科學概念如何演化和傳播?

導語

流行語是社交網絡中的模因,而學術概念,是引文網絡中模因,在研究者之間傳播和演化。然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。

在一篇於2014年11月發表在Physical Review X的經典論文中,研究者基於源於Web of Science、美國物理學會等的數千萬引文數據,為模因在引文網絡上的傳播,建立了一個簡潔的數學模型。本文將以這篇論文為背景,為讀者介紹模因在科研引文網絡上的傳播規律,以及研究方法。


何謂科學模因?

科學是現代人類文化的重要支柱,科學產出的評價和科學協作模式的研究越來越受到研究者的關注。從引用分佈、合著網絡和研究團隊的形成,到研究人員的排名以及科學成功的量化和預測,我們如何做科學本身已經成為一門科學。隨著近年來大量數字化數據可用性的不斷增加,複雜系統理論和建模的飛速發展,科學學的又一個春天正在到來。

模因(meme)源自希臘語,意為“被模仿的東西”,由新達爾文主義者Richard Dawkins在其1976年所著的《自私的基因》中首次提到。他認為,諸如單詞、旋律、食譜和思想等文化實體與基因一樣進化,涉及複製和變異,但使用人類文化而不是基因庫作為它們的傳播媒介。

當科學碰上模因,我們不禁要問:模因是如何在科研引文網絡上傳播的?然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。2014年11月在PHYSICAL REVIEW X發表的一篇論文,為模因在科研引文網絡上的傳播建立了僅含一個參數的數學模型,基於Web of Science、PubMed Central以及美國物理學會(APS)的科研引文數據進行驗證,並通過多種方法對模型進行評估。本文將以這篇為背景,為讀者介紹模因在科研引文網絡上的傳播規律。

論文題目:

Inheritance Patterns in Citation Networks Reveal Scientific Memes

論文地址:

https://journals.aps.org/prx/abstract/10.1103/PhysRevX.4.041036

從4710萬論文大數據,看科學概念如何演化和傳播?

1.科研網絡視角下的模因

基於道金斯對“基因”一詞的定義,文章給出了科學模因的定義。科學模因,是文章中的一個短文本單位,在引用文章中複製,並以許多副本分發。一個特定的單詞序列越容易同時出現,且常常存在於引用文章中,就越容易成為科學模因。因此,從引用文章中複製單詞或短語的文章類似於從父母那裡繼承基因的後代有機體。

2.初探模因分佈——科研引文網絡的可視化

從4710萬論文大數據,看科學概念如何演化和傳播?

圖1

在進行建模之前,我們首先需要了解科學模因的特點,通過定性分析,把握科學模因分佈的定性規律。

如圖1(a)所示,基於Web of Science數據集的引文網絡包含超過3300萬篇文章。各類科學學科形成了相對緊密的群體:物理科學(青色)與網絡右上角的工程技術(洋紅色)非常接近,但與社會科學和人文科學(綠色)以及佔網絡左側的大部分的醫學和健康科學(紅色)卻相差甚遠。自然科學和農業科學介於兩者之間(藍色)。

如圖1(b)所示,在基於美國物理學會(APS)數據集的引文網絡中,不同的顏色標註出Physical Review中的五個最重要的期刊,每個都覆蓋物理的一個子領域。可以發現,儘管所採用的網絡佈局算法並沒有明確考慮科學學科和期刊信息,但在引用網絡中存在顯著的不同期刊的社團結構。

如圖1(c)所示,在圖1(b)的基礎上突出顯示了五個模因,可以發現,包含這些模因的文章在在引用網絡中形成緊密社團結構。量子模因(quantum)分佈較廣,但絕不是均勻分佈的,遍及幾個大團簇。包含裂變模因(fission)的文章形成了幾個相互連接的星團,這些星團侷限於一個區域,該區域構成了涵蓋核物理的《Physical Review C》雜誌。同樣,石墨烯(graphene)、自組織臨界性(self-organized criticality)、交通流(and traffic flow)都集中在各自的中型或小型社區。

3.模因的定量化描述——模型的建立

  • 模因得分

通過前面的分析,我們已經知道科學模因的分佈具有一定的規律,但要想在大量文字數據庫中準確的捕獲它們,我們就需要知道什麼樣的詞條可以作為模因?

首先,作為模因,該詞條一定具備較高的出現頻率,只有在多個文章中大量出現,該詞條才可能作為一種類似於生物中基因的物質在文章中複製並傳播。因此,作者定義了詞條出現頻率(f_m)來刻畫詞條的重要性。

那麼只要出現頻率足夠高的詞就一定可以稱為科學模因嗎?答案當然是否定的,幾乎每一篇文章(甚至每一段落中)都會出現大量的停用詞,如“the”、“of”等,這些詞本質上沒有明確的含義,但卻在語段中大量出現。此外,科學模因的定義更強調文章的“遺傳”屬性,在科研引文網絡中即為文章與其引文的關係。因此,作者基於詞條在文章及其引文中是否出現定義了傳播得分(p_m)來刻畫詞條的傳播價值。

此外,我們可以發現,由於科學模因的定義並不是十分明確的,那麼詞條能否被判定為科學模因就需要一個類似於概率的量來描述詞條被認為是科學模因的可能性。因此,作者定義了模因得分M_m:


從4710萬論文大數據,看科學概念如何演化和傳播?


其中,詞條出現頻率(f_m)是很容易計算得到的,需要注意的僅僅是需要對頻率做標準化處理,但如何定義傳播得分(p_m)使之能準確刻畫詞條的傳播價值呢?

  • 傳播得分

首先,作者發現,模因在文章與引文中出現與否的四種情況,如表1所示:

表1

從4710萬論文大數據,看科學概念如何演化和傳播?

其次,作者提出黏附因子(Sticking factor)和激發因子(Sparking factor)的概念,分別量化模因的複製比率和生成比率,複製比率越高,則傳播價值越大;生成比率越高,則傳播價值越低。

從4710萬論文大數據,看科學概念如何演化和傳播?

進一步,研究者可以發現,由於模型的比率形式,要求分母不等於零,與變量的實際意義矛盾,因此,我們引入參數——受控噪聲(delta),為避免delta取值對於稀有模因產生較大的影響,作者通過大量實驗,將delta值在未特殊說明的情況下固定為3。

從4710萬論文大數據,看科學概念如何演化和傳播?

此外,為避免“free-riding”問題,即存在某些較長的模因被錯誤識別為多個模因,作者在計算選出較長的模因計數。

  • 模型優勢:

作者建立的模型具有以下優勢:

1.可以精確計算,而不引入任意閾值及限制,例如:不限制最小出現次數;不限制詞條的長度;不需要過濾包含特殊字符的單詞;

2.不依賴外部數據庫,如詞典或其他語言數據;

3.不依賴過濾器,例如:不需要依賴停用詞表即可刪除最常見的單詞和短語;

4.非常簡單,只有一個參數(delta)。

4.實證分析

前文建立的模型,在理論分析中雖然具有諸多優勢,但能否真正準確快速的捕獲科學模因還需要進行實驗驗證。因此,本文作者通過隨機化、人工實驗及多模型比較三種方法進行驗證分析。

  • 圖隨機化方法
從4710萬論文大數據,看科學概念如何演化和傳播?

圖2(LOG-LOG圖)

計算所考慮的三個數據集中所有詞條的模因得分,得到了如圖2所示的結果。它們的相對頻率和傳播分數以對數尺度的熱圖形式進行繪製。其中圖2(a)是基於APS文章的題目和摘要數據,模因得分非零的詞條數為1372365;圖2(b)是基於經過保留時間順序的隨機化操作的APS文章的題目和摘要數據,模因得分非零的詞條數為89356;圖2(c)是基於PubMed Central文章的題目和摘要數據,模因得分非零的詞條數為1322013;圖2(d)是基於Web of Science文章的題目數據,模因得分非零的詞條數為7966731。四幅圖中,均有一條白線代表模因分數的99.9%分位數(M_0.999)。

在圖2(a)、2(c)和2(d)中,分析可知:

1.圖形具有一個向下傾斜的寬頻帶,表明更頻繁的模因通過引用網絡傳播的較少。

2.在每個圖形的下半部分,我們看到一個非常高密度的楔形,沿著左下邊緣的較大條帶,但向中間逐漸變窄到消失。儘管這一楔形對於Web of Science數據庫來說有一個更為圓潤和寬廣的形狀,但總體而言,這些圖形在所有數據集上都非常相似。這是科學模因分佈模式普遍性的一個標誌。

3.考慮到詞條數目的範圍超過5個數量級以上,99.9%分位數線(M_0.999)也非常穩定。

4.將前面提到的物理模因定位在APS數據集圖2(a)中,研究者發現它們位於帶右上方的非常邊緣,其中詞條的密度非常低。(一些停用詞如“of”或“the”出現在圖的頂部的微弱尖峰中,其中 ,頻率接近100%)

圖2(b)中的數據,經過了保留時間順序的隨機化操作,與原始網絡具有完全相同的拓撲結構,但是文章文本(即標題和摘要及其模因)被隨機分配給不同節點。對於保留時間順序的隨機化,我們只對在很短的連續時間窗口內發佈的文章進行無序處理。例如:使用了1000篇文章的時間窗口,意味著隨機化後沒有任何一篇文章從最初的時間順序向前或向後移動了超過1000個位置。因此,圖2(b)中的熱圖說明了APS引文圖隨機化後的情況,但文章的時間順序保存了信息。模因得分非零的詞條數量急劇減少(從圖2(a)中的約140萬減少到圖2(b)中的僅89356),科學模因的普遍分佈模式消失,排名靠前的模因所在的右上角部分消失。當然,如果APS引用網絡是完全隨機的,且不保留時間順序,那麼與圖2(a)中顯示的原始結果的差別會更大。

統計分析表明,隨機網絡獲得的模因得分中位數與原始引文圖的中位數相差超過1個數量級,不同隨機化數據的差異非常小。這些結果表明,僅拓撲結構和時間結構無法解釋分佈模式的普遍性。因此,模因得到高模因得分基於複雜的過程和機制。

  • 人工實驗

表2


從4710萬論文大數據,看科學概念如何演化和傳播?


表2所展示的是APS數據集中模因得分排名前50位的模因,可以發現,這些模因中的大多數是表示真實合理物理概念的名詞短語,這與文章中的關鍵詞往往是名詞有關。模型建立的過程中並不包含任何理論知識,且模型存在由兩個或三個詞組成模因,因此,該模型具有相當不錯的識別效果。

表3

從4710萬論文大數據,看科學概念如何演化和傳播?

如表3所示,研究者給出了由模因得分確定的詞條的兩次人工實驗的結果。

首先,作者從APS數據集中提取出模因得分最高的150個模因詞條,構成樣本1。其次,作者從至少在100篇文章中出現的所有詞條中完全隨機抽取150個詞條,構成樣本2。最後,作者出現頻率做權重從至少在100篇文章中出現的所有詞條中隨機抽取150個詞條,構成樣本3。此外,為了排除不同詞條長度的影響,我們確保兩批隨機抽取的樣本的長度分佈與基於模因提取的主樣本完全相同。三個樣本的450個詞條打入按順序後讓兩個物理學博士生分別識別這些詞條,兩次實驗的選項分別為:

實驗1:(i)短語不是一個有意義的詞條或不是一個重要的物理概念;(ii)短語是一個重要的物理概念或實體——它可以作為一個綜合百科全書條目的標題出現。

實驗2:(i)名詞短語,(ii)動詞,(iii)形容詞或副詞,(iv)其他。

實驗結果表明,在樣本1中,實驗1中86%左右的模因得分項是重要的物理概念,且兩個人在81.3%的情況下達成一致性判斷。實驗2中86.0%的模因得分項是名詞短語,且兩個人在82.7%的情況下達成一致性判斷。而對於隨機樣本,其類別判斷和判斷的一致性都很低。對於兩個博士生的一致性分類結果進行Fisher精確檢驗,p < 10^(-15),實驗結果非常顯著,證明了模因得分對名詞短語和重要概念具有顯著的偏好性。

  • 多模型比較
從4710萬論文大數據,看科學概念如何演化和傳播?

圖3

為了證明模因得分模型的有效性,作者引入了五個模因得分的替代指標:

(1)頻率——最頻繁項,可以選擇跳過前x個詞條;

(2)隨時間的最大絕對變化——最高得分項。尤其是頻率的最大絕對變化;

(3)隨時間的最大相對變化——與(2)相同,但基於相對變化;

(4)期刊之間的最大絕對差異——期刊之間頻率最大絕對差異的最高得分項;

(5)期刊之間的最大相對差異——與(4)相同,但基於相對差異。

度量(1)是基於重要的模因是相對高頻出現的假設(非停用詞)。

度量(2)和(3)基於有價值的模因隨著時間的推移呈現出趨勢的假設。

度量(4)和(5)基於作者的直覺提出的,即短語主要出現在特定的期刊上,而不是其他期刊上,必須是特定研究領域的特定概念。

如圖3所示,在右上角的小圖中,縱座標為詞條在維基百科(真值列表)中的比例,橫座標是模因得分最高的模因數,是對數座標。結果顯示,模因得分最高的前10個模因中,約70%對應於從維基百科中提取的詞條,前20個模因中的約55%、前50個模因中的約40%和前100個模因中的約26%。

此外,為了量化由特定指標delta確定的頂級模因與維基百科列表之間的一致性,研究者使用曲線下的標準化區域的面積大小A(Agreement),面積越大,則一致性越高。在右上角的小圖中,不同的藍色折線,代表不同的受控噪聲值delta。(delta取值在1到10之間;藍色粗線代表delta=4,其面積A最大)

在圖3的箱線圖中,比較了不同模型下關於A的大小。對於模因分數指標來說,存在當delta=1時,32.3%的孤立異常值。當delta取值在2到10之間時,A的值在40.9%到44.8%之間,敏感性較低。而其他指標的得分始終低於22%(包括離群值),相差較大,說明模因分數指標的有效性。

5.低頻高傳現象

從4710萬論文大數據,看科學概念如何演化和傳播?

圖4

詞條圖4(a)證實了在模因得分數較高(即大約99.9%的分位數M_0.999)的地區(右上角)的詞條往往顯示為維基百科物理文章的標題。此外,該圖顯示這是唯一的此類區域。有一些分散的離群值,但只有在99.9%的分位數附近發現了維基百科詞條密度高的唯一重要區域。

但在圖4(b)中,含有化學式的詞條(如BaFe2As2)的頻率相對較低(個別),但傳播分數較高,正如表2中的MgB2+和CuGeO3+所示的那樣。在99.9%的分位數上可以再次找到密度最高的區域,這與化學化合物作為物理研究的重要和有價值的實體的預期一致。

6.頂級模因的時間演化

"
從4710萬論文大數據,看科學概念如何演化和傳播?

導語

流行語是社交網絡中的模因,而學術概念,是引文網絡中模因,在研究者之間傳播和演化。然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。

在一篇於2014年11月發表在Physical Review X的經典論文中,研究者基於源於Web of Science、美國物理學會等的數千萬引文數據,為模因在引文網絡上的傳播,建立了一個簡潔的數學模型。本文將以這篇論文為背景,為讀者介紹模因在科研引文網絡上的傳播規律,以及研究方法。


何謂科學模因?

科學是現代人類文化的重要支柱,科學產出的評價和科學協作模式的研究越來越受到研究者的關注。從引用分佈、合著網絡和研究團隊的形成,到研究人員的排名以及科學成功的量化和預測,我們如何做科學本身已經成為一門科學。隨著近年來大量數字化數據可用性的不斷增加,複雜系統理論和建模的飛速發展,科學學的又一個春天正在到來。

模因(meme)源自希臘語,意為“被模仿的東西”,由新達爾文主義者Richard Dawkins在其1976年所著的《自私的基因》中首次提到。他認為,諸如單詞、旋律、食譜和思想等文化實體與基因一樣進化,涉及複製和變異,但使用人類文化而不是基因庫作為它們的傳播媒介。

當科學碰上模因,我們不禁要問:模因是如何在科研引文網絡上傳播的?然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。2014年11月在PHYSICAL REVIEW X發表的一篇論文,為模因在科研引文網絡上的傳播建立了僅含一個參數的數學模型,基於Web of Science、PubMed Central以及美國物理學會(APS)的科研引文數據進行驗證,並通過多種方法對模型進行評估。本文將以這篇為背景,為讀者介紹模因在科研引文網絡上的傳播規律。

論文題目:

Inheritance Patterns in Citation Networks Reveal Scientific Memes

論文地址:

https://journals.aps.org/prx/abstract/10.1103/PhysRevX.4.041036

從4710萬論文大數據,看科學概念如何演化和傳播?

1.科研網絡視角下的模因

基於道金斯對“基因”一詞的定義,文章給出了科學模因的定義。科學模因,是文章中的一個短文本單位,在引用文章中複製,並以許多副本分發。一個特定的單詞序列越容易同時出現,且常常存在於引用文章中,就越容易成為科學模因。因此,從引用文章中複製單詞或短語的文章類似於從父母那裡繼承基因的後代有機體。

2.初探模因分佈——科研引文網絡的可視化

從4710萬論文大數據,看科學概念如何演化和傳播?

圖1

在進行建模之前,我們首先需要了解科學模因的特點,通過定性分析,把握科學模因分佈的定性規律。

如圖1(a)所示,基於Web of Science數據集的引文網絡包含超過3300萬篇文章。各類科學學科形成了相對緊密的群體:物理科學(青色)與網絡右上角的工程技術(洋紅色)非常接近,但與社會科學和人文科學(綠色)以及佔網絡左側的大部分的醫學和健康科學(紅色)卻相差甚遠。自然科學和農業科學介於兩者之間(藍色)。

如圖1(b)所示,在基於美國物理學會(APS)數據集的引文網絡中,不同的顏色標註出Physical Review中的五個最重要的期刊,每個都覆蓋物理的一個子領域。可以發現,儘管所採用的網絡佈局算法並沒有明確考慮科學學科和期刊信息,但在引用網絡中存在顯著的不同期刊的社團結構。

如圖1(c)所示,在圖1(b)的基礎上突出顯示了五個模因,可以發現,包含這些模因的文章在在引用網絡中形成緊密社團結構。量子模因(quantum)分佈較廣,但絕不是均勻分佈的,遍及幾個大團簇。包含裂變模因(fission)的文章形成了幾個相互連接的星團,這些星團侷限於一個區域,該區域構成了涵蓋核物理的《Physical Review C》雜誌。同樣,石墨烯(graphene)、自組織臨界性(self-organized criticality)、交通流(and traffic flow)都集中在各自的中型或小型社區。

3.模因的定量化描述——模型的建立

  • 模因得分

通過前面的分析,我們已經知道科學模因的分佈具有一定的規律,但要想在大量文字數據庫中準確的捕獲它們,我們就需要知道什麼樣的詞條可以作為模因?

首先,作為模因,該詞條一定具備較高的出現頻率,只有在多個文章中大量出現,該詞條才可能作為一種類似於生物中基因的物質在文章中複製並傳播。因此,作者定義了詞條出現頻率(f_m)來刻畫詞條的重要性。

那麼只要出現頻率足夠高的詞就一定可以稱為科學模因嗎?答案當然是否定的,幾乎每一篇文章(甚至每一段落中)都會出現大量的停用詞,如“the”、“of”等,這些詞本質上沒有明確的含義,但卻在語段中大量出現。此外,科學模因的定義更強調文章的“遺傳”屬性,在科研引文網絡中即為文章與其引文的關係。因此,作者基於詞條在文章及其引文中是否出現定義了傳播得分(p_m)來刻畫詞條的傳播價值。

此外,我們可以發現,由於科學模因的定義並不是十分明確的,那麼詞條能否被判定為科學模因就需要一個類似於概率的量來描述詞條被認為是科學模因的可能性。因此,作者定義了模因得分M_m:


從4710萬論文大數據,看科學概念如何演化和傳播?


其中,詞條出現頻率(f_m)是很容易計算得到的,需要注意的僅僅是需要對頻率做標準化處理,但如何定義傳播得分(p_m)使之能準確刻畫詞條的傳播價值呢?

  • 傳播得分

首先,作者發現,模因在文章與引文中出現與否的四種情況,如表1所示:

表1

從4710萬論文大數據,看科學概念如何演化和傳播?

其次,作者提出黏附因子(Sticking factor)和激發因子(Sparking factor)的概念,分別量化模因的複製比率和生成比率,複製比率越高,則傳播價值越大;生成比率越高,則傳播價值越低。

從4710萬論文大數據,看科學概念如何演化和傳播?

進一步,研究者可以發現,由於模型的比率形式,要求分母不等於零,與變量的實際意義矛盾,因此,我們引入參數——受控噪聲(delta),為避免delta取值對於稀有模因產生較大的影響,作者通過大量實驗,將delta值在未特殊說明的情況下固定為3。

從4710萬論文大數據,看科學概念如何演化和傳播?

此外,為避免“free-riding”問題,即存在某些較長的模因被錯誤識別為多個模因,作者在計算選出較長的模因計數。

  • 模型優勢:

作者建立的模型具有以下優勢:

1.可以精確計算,而不引入任意閾值及限制,例如:不限制最小出現次數;不限制詞條的長度;不需要過濾包含特殊字符的單詞;

2.不依賴外部數據庫,如詞典或其他語言數據;

3.不依賴過濾器,例如:不需要依賴停用詞表即可刪除最常見的單詞和短語;

4.非常簡單,只有一個參數(delta)。

4.實證分析

前文建立的模型,在理論分析中雖然具有諸多優勢,但能否真正準確快速的捕獲科學模因還需要進行實驗驗證。因此,本文作者通過隨機化、人工實驗及多模型比較三種方法進行驗證分析。

  • 圖隨機化方法
從4710萬論文大數據,看科學概念如何演化和傳播?

圖2(LOG-LOG圖)

計算所考慮的三個數據集中所有詞條的模因得分,得到了如圖2所示的結果。它們的相對頻率和傳播分數以對數尺度的熱圖形式進行繪製。其中圖2(a)是基於APS文章的題目和摘要數據,模因得分非零的詞條數為1372365;圖2(b)是基於經過保留時間順序的隨機化操作的APS文章的題目和摘要數據,模因得分非零的詞條數為89356;圖2(c)是基於PubMed Central文章的題目和摘要數據,模因得分非零的詞條數為1322013;圖2(d)是基於Web of Science文章的題目數據,模因得分非零的詞條數為7966731。四幅圖中,均有一條白線代表模因分數的99.9%分位數(M_0.999)。

在圖2(a)、2(c)和2(d)中,分析可知:

1.圖形具有一個向下傾斜的寬頻帶,表明更頻繁的模因通過引用網絡傳播的較少。

2.在每個圖形的下半部分,我們看到一個非常高密度的楔形,沿著左下邊緣的較大條帶,但向中間逐漸變窄到消失。儘管這一楔形對於Web of Science數據庫來說有一個更為圓潤和寬廣的形狀,但總體而言,這些圖形在所有數據集上都非常相似。這是科學模因分佈模式普遍性的一個標誌。

3.考慮到詞條數目的範圍超過5個數量級以上,99.9%分位數線(M_0.999)也非常穩定。

4.將前面提到的物理模因定位在APS數據集圖2(a)中,研究者發現它們位於帶右上方的非常邊緣,其中詞條的密度非常低。(一些停用詞如“of”或“the”出現在圖的頂部的微弱尖峰中,其中 ,頻率接近100%)

圖2(b)中的數據,經過了保留時間順序的隨機化操作,與原始網絡具有完全相同的拓撲結構,但是文章文本(即標題和摘要及其模因)被隨機分配給不同節點。對於保留時間順序的隨機化,我們只對在很短的連續時間窗口內發佈的文章進行無序處理。例如:使用了1000篇文章的時間窗口,意味著隨機化後沒有任何一篇文章從最初的時間順序向前或向後移動了超過1000個位置。因此,圖2(b)中的熱圖說明了APS引文圖隨機化後的情況,但文章的時間順序保存了信息。模因得分非零的詞條數量急劇減少(從圖2(a)中的約140萬減少到圖2(b)中的僅89356),科學模因的普遍分佈模式消失,排名靠前的模因所在的右上角部分消失。當然,如果APS引用網絡是完全隨機的,且不保留時間順序,那麼與圖2(a)中顯示的原始結果的差別會更大。

統計分析表明,隨機網絡獲得的模因得分中位數與原始引文圖的中位數相差超過1個數量級,不同隨機化數據的差異非常小。這些結果表明,僅拓撲結構和時間結構無法解釋分佈模式的普遍性。因此,模因得到高模因得分基於複雜的過程和機制。

  • 人工實驗

表2


從4710萬論文大數據,看科學概念如何演化和傳播?


表2所展示的是APS數據集中模因得分排名前50位的模因,可以發現,這些模因中的大多數是表示真實合理物理概念的名詞短語,這與文章中的關鍵詞往往是名詞有關。模型建立的過程中並不包含任何理論知識,且模型存在由兩個或三個詞組成模因,因此,該模型具有相當不錯的識別效果。

表3

從4710萬論文大數據,看科學概念如何演化和傳播?

如表3所示,研究者給出了由模因得分確定的詞條的兩次人工實驗的結果。

首先,作者從APS數據集中提取出模因得分最高的150個模因詞條,構成樣本1。其次,作者從至少在100篇文章中出現的所有詞條中完全隨機抽取150個詞條,構成樣本2。最後,作者出現頻率做權重從至少在100篇文章中出現的所有詞條中隨機抽取150個詞條,構成樣本3。此外,為了排除不同詞條長度的影響,我們確保兩批隨機抽取的樣本的長度分佈與基於模因提取的主樣本完全相同。三個樣本的450個詞條打入按順序後讓兩個物理學博士生分別識別這些詞條,兩次實驗的選項分別為:

實驗1:(i)短語不是一個有意義的詞條或不是一個重要的物理概念;(ii)短語是一個重要的物理概念或實體——它可以作為一個綜合百科全書條目的標題出現。

實驗2:(i)名詞短語,(ii)動詞,(iii)形容詞或副詞,(iv)其他。

實驗結果表明,在樣本1中,實驗1中86%左右的模因得分項是重要的物理概念,且兩個人在81.3%的情況下達成一致性判斷。實驗2中86.0%的模因得分項是名詞短語,且兩個人在82.7%的情況下達成一致性判斷。而對於隨機樣本,其類別判斷和判斷的一致性都很低。對於兩個博士生的一致性分類結果進行Fisher精確檢驗,p < 10^(-15),實驗結果非常顯著,證明了模因得分對名詞短語和重要概念具有顯著的偏好性。

  • 多模型比較
從4710萬論文大數據,看科學概念如何演化和傳播?

圖3

為了證明模因得分模型的有效性,作者引入了五個模因得分的替代指標:

(1)頻率——最頻繁項,可以選擇跳過前x個詞條;

(2)隨時間的最大絕對變化——最高得分項。尤其是頻率的最大絕對變化;

(3)隨時間的最大相對變化——與(2)相同,但基於相對變化;

(4)期刊之間的最大絕對差異——期刊之間頻率最大絕對差異的最高得分項;

(5)期刊之間的最大相對差異——與(4)相同,但基於相對差異。

度量(1)是基於重要的模因是相對高頻出現的假設(非停用詞)。

度量(2)和(3)基於有價值的模因隨著時間的推移呈現出趨勢的假設。

度量(4)和(5)基於作者的直覺提出的,即短語主要出現在特定的期刊上,而不是其他期刊上,必須是特定研究領域的特定概念。

如圖3所示,在右上角的小圖中,縱座標為詞條在維基百科(真值列表)中的比例,橫座標是模因得分最高的模因數,是對數座標。結果顯示,模因得分最高的前10個模因中,約70%對應於從維基百科中提取的詞條,前20個模因中的約55%、前50個模因中的約40%和前100個模因中的約26%。

此外,為了量化由特定指標delta確定的頂級模因與維基百科列表之間的一致性,研究者使用曲線下的標準化區域的面積大小A(Agreement),面積越大,則一致性越高。在右上角的小圖中,不同的藍色折線,代表不同的受控噪聲值delta。(delta取值在1到10之間;藍色粗線代表delta=4,其面積A最大)

在圖3的箱線圖中,比較了不同模型下關於A的大小。對於模因分數指標來說,存在當delta=1時,32.3%的孤立異常值。當delta取值在2到10之間時,A的值在40.9%到44.8%之間,敏感性較低。而其他指標的得分始終低於22%(包括離群值),相差較大,說明模因分數指標的有效性。

5.低頻高傳現象

從4710萬論文大數據,看科學概念如何演化和傳播?

圖4

詞條圖4(a)證實了在模因得分數較高(即大約99.9%的分位數M_0.999)的地區(右上角)的詞條往往顯示為維基百科物理文章的標題。此外,該圖顯示這是唯一的此類區域。有一些分散的離群值,但只有在99.9%的分位數附近發現了維基百科詞條密度高的唯一重要區域。

但在圖4(b)中,含有化學式的詞條(如BaFe2As2)的頻率相對較低(個別),但傳播分數較高,正如表2中的MgB2+和CuGeO3+所示的那樣。在99.9%的分位數上可以再次找到密度最高的區域,這與化學化合物作為物理研究的重要和有價值的實體的預期一致。

6.頂級模因的時間演化

從4710萬論文大數據,看科學概念如何演化和傳播?

圖5

圖5基於APS數據集獲得的模因得分的頂級物理模因的時間歷史。時間軸按發佈計數縮放。在顯示的911個時間點中,所有排名前十的模因都會顯示條形圖和標籤。灰色區域表示給定時間的第二級模因。

研究發現,頂級科學模因揭示了一種劇烈的時間動態,這反映了模因對科學家關注的有限和波動資源的激烈競爭。隨著時間推移的頂級模因的時間分佈可以用突發性動力學來解釋。這些爆發可能是許多科學模因受歡迎程度的快速上升和下降的反映。隨著新的科學範式的出現,舊的範式似乎很快就失去了吸引力,而且只有少數模因在很長一段時間內成功地登上了榜首。這種激烈的動態也支持這樣一種觀點,即科學範式的興衰都是由強大的自我組織原則驅動的。

7. 抽象化的科學模因

抽象化的科學模因類似於子女遺傳父母的習慣、性格、思想等潛在特徵。文章作者只考慮固定字符序列作為潛在的模因,但很明顯,模因不僅存在於這一較低的層次上,如果使用一些人類已有的數據庫,並通過有監督學習或強化學習的方式,研究者可以在更抽象的層次上捕捉科學模因。這種抽象化的模因可能由一組形態變體、詞的共同出現、多個模因的組合、語法結構,甚至是論證方案和修辭風格組成。

作者:趙子鳴、劉培源

編輯:張爽

"
從4710萬論文大數據,看科學概念如何演化和傳播?

導語

流行語是社交網絡中的模因,而學術概念,是引文網絡中模因,在研究者之間傳播和演化。然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。

在一篇於2014年11月發表在Physical Review X的經典論文中,研究者基於源於Web of Science、美國物理學會等的數千萬引文數據,為模因在引文網絡上的傳播,建立了一個簡潔的數學模型。本文將以這篇論文為背景,為讀者介紹模因在科研引文網絡上的傳播規律,以及研究方法。


何謂科學模因?

科學是現代人類文化的重要支柱,科學產出的評價和科學協作模式的研究越來越受到研究者的關注。從引用分佈、合著網絡和研究團隊的形成,到研究人員的排名以及科學成功的量化和預測,我們如何做科學本身已經成為一門科學。隨著近年來大量數字化數據可用性的不斷增加,複雜系統理論和建模的飛速發展,科學學的又一個春天正在到來。

模因(meme)源自希臘語,意為“被模仿的東西”,由新達爾文主義者Richard Dawkins在其1976年所著的《自私的基因》中首次提到。他認為,諸如單詞、旋律、食譜和思想等文化實體與基因一樣進化,涉及複製和變異,但使用人類文化而不是基因庫作為它們的傳播媒介。

當科學碰上模因,我們不禁要問:模因是如何在科研引文網絡上傳播的?然而,人們對模因的構成以及它具體的傳播規律仍然知之甚少。2014年11月在PHYSICAL REVIEW X發表的一篇論文,為模因在科研引文網絡上的傳播建立了僅含一個參數的數學模型,基於Web of Science、PubMed Central以及美國物理學會(APS)的科研引文數據進行驗證,並通過多種方法對模型進行評估。本文將以這篇為背景,為讀者介紹模因在科研引文網絡上的傳播規律。

論文題目:

Inheritance Patterns in Citation Networks Reveal Scientific Memes

論文地址:

https://journals.aps.org/prx/abstract/10.1103/PhysRevX.4.041036

從4710萬論文大數據,看科學概念如何演化和傳播?

1.科研網絡視角下的模因

基於道金斯對“基因”一詞的定義,文章給出了科學模因的定義。科學模因,是文章中的一個短文本單位,在引用文章中複製,並以許多副本分發。一個特定的單詞序列越容易同時出現,且常常存在於引用文章中,就越容易成為科學模因。因此,從引用文章中複製單詞或短語的文章類似於從父母那裡繼承基因的後代有機體。

2.初探模因分佈——科研引文網絡的可視化

從4710萬論文大數據,看科學概念如何演化和傳播?

圖1

在進行建模之前,我們首先需要了解科學模因的特點,通過定性分析,把握科學模因分佈的定性規律。

如圖1(a)所示,基於Web of Science數據集的引文網絡包含超過3300萬篇文章。各類科學學科形成了相對緊密的群體:物理科學(青色)與網絡右上角的工程技術(洋紅色)非常接近,但與社會科學和人文科學(綠色)以及佔網絡左側的大部分的醫學和健康科學(紅色)卻相差甚遠。自然科學和農業科學介於兩者之間(藍色)。

如圖1(b)所示,在基於美國物理學會(APS)數據集的引文網絡中,不同的顏色標註出Physical Review中的五個最重要的期刊,每個都覆蓋物理的一個子領域。可以發現,儘管所採用的網絡佈局算法並沒有明確考慮科學學科和期刊信息,但在引用網絡中存在顯著的不同期刊的社團結構。

如圖1(c)所示,在圖1(b)的基礎上突出顯示了五個模因,可以發現,包含這些模因的文章在在引用網絡中形成緊密社團結構。量子模因(quantum)分佈較廣,但絕不是均勻分佈的,遍及幾個大團簇。包含裂變模因(fission)的文章形成了幾個相互連接的星團,這些星團侷限於一個區域,該區域構成了涵蓋核物理的《Physical Review C》雜誌。同樣,石墨烯(graphene)、自組織臨界性(self-organized criticality)、交通流(and traffic flow)都集中在各自的中型或小型社區。

3.模因的定量化描述——模型的建立

  • 模因得分

通過前面的分析,我們已經知道科學模因的分佈具有一定的規律,但要想在大量文字數據庫中準確的捕獲它們,我們就需要知道什麼樣的詞條可以作為模因?

首先,作為模因,該詞條一定具備較高的出現頻率,只有在多個文章中大量出現,該詞條才可能作為一種類似於生物中基因的物質在文章中複製並傳播。因此,作者定義了詞條出現頻率(f_m)來刻畫詞條的重要性。

那麼只要出現頻率足夠高的詞就一定可以稱為科學模因嗎?答案當然是否定的,幾乎每一篇文章(甚至每一段落中)都會出現大量的停用詞,如“the”、“of”等,這些詞本質上沒有明確的含義,但卻在語段中大量出現。此外,科學模因的定義更強調文章的“遺傳”屬性,在科研引文網絡中即為文章與其引文的關係。因此,作者基於詞條在文章及其引文中是否出現定義了傳播得分(p_m)來刻畫詞條的傳播價值。

此外,我們可以發現,由於科學模因的定義並不是十分明確的,那麼詞條能否被判定為科學模因就需要一個類似於概率的量來描述詞條被認為是科學模因的可能性。因此,作者定義了模因得分M_m:


從4710萬論文大數據,看科學概念如何演化和傳播?


其中,詞條出現頻率(f_m)是很容易計算得到的,需要注意的僅僅是需要對頻率做標準化處理,但如何定義傳播得分(p_m)使之能準確刻畫詞條的傳播價值呢?

  • 傳播得分

首先,作者發現,模因在文章與引文中出現與否的四種情況,如表1所示:

表1

從4710萬論文大數據,看科學概念如何演化和傳播?

其次,作者提出黏附因子(Sticking factor)和激發因子(Sparking factor)的概念,分別量化模因的複製比率和生成比率,複製比率越高,則傳播價值越大;生成比率越高,則傳播價值越低。

從4710萬論文大數據,看科學概念如何演化和傳播?

進一步,研究者可以發現,由於模型的比率形式,要求分母不等於零,與變量的實際意義矛盾,因此,我們引入參數——受控噪聲(delta),為避免delta取值對於稀有模因產生較大的影響,作者通過大量實驗,將delta值在未特殊說明的情況下固定為3。

從4710萬論文大數據,看科學概念如何演化和傳播?

此外,為避免“free-riding”問題,即存在某些較長的模因被錯誤識別為多個模因,作者在計算選出較長的模因計數。

  • 模型優勢:

作者建立的模型具有以下優勢:

1.可以精確計算,而不引入任意閾值及限制,例如:不限制最小出現次數;不限制詞條的長度;不需要過濾包含特殊字符的單詞;

2.不依賴外部數據庫,如詞典或其他語言數據;

3.不依賴過濾器,例如:不需要依賴停用詞表即可刪除最常見的單詞和短語;

4.非常簡單,只有一個參數(delta)。

4.實證分析

前文建立的模型,在理論分析中雖然具有諸多優勢,但能否真正準確快速的捕獲科學模因還需要進行實驗驗證。因此,本文作者通過隨機化、人工實驗及多模型比較三種方法進行驗證分析。

  • 圖隨機化方法
從4710萬論文大數據,看科學概念如何演化和傳播?

圖2(LOG-LOG圖)

計算所考慮的三個數據集中所有詞條的模因得分,得到了如圖2所示的結果。它們的相對頻率和傳播分數以對數尺度的熱圖形式進行繪製。其中圖2(a)是基於APS文章的題目和摘要數據,模因得分非零的詞條數為1372365;圖2(b)是基於經過保留時間順序的隨機化操作的APS文章的題目和摘要數據,模因得分非零的詞條數為89356;圖2(c)是基於PubMed Central文章的題目和摘要數據,模因得分非零的詞條數為1322013;圖2(d)是基於Web of Science文章的題目數據,模因得分非零的詞條數為7966731。四幅圖中,均有一條白線代表模因分數的99.9%分位數(M_0.999)。

在圖2(a)、2(c)和2(d)中,分析可知:

1.圖形具有一個向下傾斜的寬頻帶,表明更頻繁的模因通過引用網絡傳播的較少。

2.在每個圖形的下半部分,我們看到一個非常高密度的楔形,沿著左下邊緣的較大條帶,但向中間逐漸變窄到消失。儘管這一楔形對於Web of Science數據庫來說有一個更為圓潤和寬廣的形狀,但總體而言,這些圖形在所有數據集上都非常相似。這是科學模因分佈模式普遍性的一個標誌。

3.考慮到詞條數目的範圍超過5個數量級以上,99.9%分位數線(M_0.999)也非常穩定。

4.將前面提到的物理模因定位在APS數據集圖2(a)中,研究者發現它們位於帶右上方的非常邊緣,其中詞條的密度非常低。(一些停用詞如“of”或“the”出現在圖的頂部的微弱尖峰中,其中 ,頻率接近100%)

圖2(b)中的數據,經過了保留時間順序的隨機化操作,與原始網絡具有完全相同的拓撲結構,但是文章文本(即標題和摘要及其模因)被隨機分配給不同節點。對於保留時間順序的隨機化,我們只對在很短的連續時間窗口內發佈的文章進行無序處理。例如:使用了1000篇文章的時間窗口,意味著隨機化後沒有任何一篇文章從最初的時間順序向前或向後移動了超過1000個位置。因此,圖2(b)中的熱圖說明了APS引文圖隨機化後的情況,但文章的時間順序保存了信息。模因得分非零的詞條數量急劇減少(從圖2(a)中的約140萬減少到圖2(b)中的僅89356),科學模因的普遍分佈模式消失,排名靠前的模因所在的右上角部分消失。當然,如果APS引用網絡是完全隨機的,且不保留時間順序,那麼與圖2(a)中顯示的原始結果的差別會更大。

統計分析表明,隨機網絡獲得的模因得分中位數與原始引文圖的中位數相差超過1個數量級,不同隨機化數據的差異非常小。這些結果表明,僅拓撲結構和時間結構無法解釋分佈模式的普遍性。因此,模因得到高模因得分基於複雜的過程和機制。

  • 人工實驗

表2


從4710萬論文大數據,看科學概念如何演化和傳播?


表2所展示的是APS數據集中模因得分排名前50位的模因,可以發現,這些模因中的大多數是表示真實合理物理概念的名詞短語,這與文章中的關鍵詞往往是名詞有關。模型建立的過程中並不包含任何理論知識,且模型存在由兩個或三個詞組成模因,因此,該模型具有相當不錯的識別效果。

表3

從4710萬論文大數據,看科學概念如何演化和傳播?

如表3所示,研究者給出了由模因得分確定的詞條的兩次人工實驗的結果。

首先,作者從APS數據集中提取出模因得分最高的150個模因詞條,構成樣本1。其次,作者從至少在100篇文章中出現的所有詞條中完全隨機抽取150個詞條,構成樣本2。最後,作者出現頻率做權重從至少在100篇文章中出現的所有詞條中隨機抽取150個詞條,構成樣本3。此外,為了排除不同詞條長度的影響,我們確保兩批隨機抽取的樣本的長度分佈與基於模因提取的主樣本完全相同。三個樣本的450個詞條打入按順序後讓兩個物理學博士生分別識別這些詞條,兩次實驗的選項分別為:

實驗1:(i)短語不是一個有意義的詞條或不是一個重要的物理概念;(ii)短語是一個重要的物理概念或實體——它可以作為一個綜合百科全書條目的標題出現。

實驗2:(i)名詞短語,(ii)動詞,(iii)形容詞或副詞,(iv)其他。

實驗結果表明,在樣本1中,實驗1中86%左右的模因得分項是重要的物理概念,且兩個人在81.3%的情況下達成一致性判斷。實驗2中86.0%的模因得分項是名詞短語,且兩個人在82.7%的情況下達成一致性判斷。而對於隨機樣本,其類別判斷和判斷的一致性都很低。對於兩個博士生的一致性分類結果進行Fisher精確檢驗,p < 10^(-15),實驗結果非常顯著,證明了模因得分對名詞短語和重要概念具有顯著的偏好性。

  • 多模型比較
從4710萬論文大數據,看科學概念如何演化和傳播?

圖3

為了證明模因得分模型的有效性,作者引入了五個模因得分的替代指標:

(1)頻率——最頻繁項,可以選擇跳過前x個詞條;

(2)隨時間的最大絕對變化——最高得分項。尤其是頻率的最大絕對變化;

(3)隨時間的最大相對變化——與(2)相同,但基於相對變化;

(4)期刊之間的最大絕對差異——期刊之間頻率最大絕對差異的最高得分項;

(5)期刊之間的最大相對差異——與(4)相同,但基於相對差異。

度量(1)是基於重要的模因是相對高頻出現的假設(非停用詞)。

度量(2)和(3)基於有價值的模因隨著時間的推移呈現出趨勢的假設。

度量(4)和(5)基於作者的直覺提出的,即短語主要出現在特定的期刊上,而不是其他期刊上,必須是特定研究領域的特定概念。

如圖3所示,在右上角的小圖中,縱座標為詞條在維基百科(真值列表)中的比例,橫座標是模因得分最高的模因數,是對數座標。結果顯示,模因得分最高的前10個模因中,約70%對應於從維基百科中提取的詞條,前20個模因中的約55%、前50個模因中的約40%和前100個模因中的約26%。

此外,為了量化由特定指標delta確定的頂級模因與維基百科列表之間的一致性,研究者使用曲線下的標準化區域的面積大小A(Agreement),面積越大,則一致性越高。在右上角的小圖中,不同的藍色折線,代表不同的受控噪聲值delta。(delta取值在1到10之間;藍色粗線代表delta=4,其面積A最大)

在圖3的箱線圖中,比較了不同模型下關於A的大小。對於模因分數指標來說,存在當delta=1時,32.3%的孤立異常值。當delta取值在2到10之間時,A的值在40.9%到44.8%之間,敏感性較低。而其他指標的得分始終低於22%(包括離群值),相差較大,說明模因分數指標的有效性。

5.低頻高傳現象

從4710萬論文大數據,看科學概念如何演化和傳播?

圖4

詞條圖4(a)證實了在模因得分數較高(即大約99.9%的分位數M_0.999)的地區(右上角)的詞條往往顯示為維基百科物理文章的標題。此外,該圖顯示這是唯一的此類區域。有一些分散的離群值,但只有在99.9%的分位數附近發現了維基百科詞條密度高的唯一重要區域。

但在圖4(b)中,含有化學式的詞條(如BaFe2As2)的頻率相對較低(個別),但傳播分數較高,正如表2中的MgB2+和CuGeO3+所示的那樣。在99.9%的分位數上可以再次找到密度最高的區域,這與化學化合物作為物理研究的重要和有價值的實體的預期一致。

6.頂級模因的時間演化

從4710萬論文大數據,看科學概念如何演化和傳播?

圖5

圖5基於APS數據集獲得的模因得分的頂級物理模因的時間歷史。時間軸按發佈計數縮放。在顯示的911個時間點中,所有排名前十的模因都會顯示條形圖和標籤。灰色區域表示給定時間的第二級模因。

研究發現,頂級科學模因揭示了一種劇烈的時間動態,這反映了模因對科學家關注的有限和波動資源的激烈競爭。隨著時間推移的頂級模因的時間分佈可以用突發性動力學來解釋。這些爆發可能是許多科學模因受歡迎程度的快速上升和下降的反映。隨著新的科學範式的出現,舊的範式似乎很快就失去了吸引力,而且只有少數模因在很長一段時間內成功地登上了榜首。這種激烈的動態也支持這樣一種觀點,即科學範式的興衰都是由強大的自我組織原則驅動的。

7. 抽象化的科學模因

抽象化的科學模因類似於子女遺傳父母的習慣、性格、思想等潛在特徵。文章作者只考慮固定字符序列作為潛在的模因,但很明顯,模因不僅存在於這一較低的層次上,如果使用一些人類已有的數據庫,並通過有監督學習或強化學習的方式,研究者可以在更抽象的層次上捕捉科學模因。這種抽象化的模因可能由一組形態變體、詞的共同出現、多個模因的組合、語法結構,甚至是論證方案和修辭風格組成。

作者:趙子鳴、劉培源

編輯:張爽

從4710萬論文大數據,看科學概念如何演化和傳播?

"

相關推薦

推薦中...