Python程序員轉戰自然語言處理利器,學會spaCy實現年薪百萬!

spaCy是Python和Cython中的高級自然語言處理庫,它建立在最新的研究基礎之上,從一開始就設計用於實際產品。spaCy帶有預先訓練的統計模型和單詞向量,目前支持20多種語言的標記。它具有世界上速度最快的句法分析器,用於標籤的卷積神經網絡模型,解析和命名實體識別以及與深度學習整合。它是在MIT許可下發布的商業開源軟件。

spaCy項目由@honnibal和@ines維護,雖然無法通過電子郵件提供個人支持。但開源者相信,如果公開分享,會讓幫助更有價值,可以讓更多人從中受益。(Github官方地址:https://github.com/explosion/spaCy#spacy-industrial-strength-nlp)

spaCy的特徵:

  • 世界上最快的句法分析器

  • 實體命名識別

  • 非破壞性標記

  • 支持20多種語言

  • 預先訓練的統計模型和單詞向量

  • 易於深度學習模型的整合

  • 一部分語音標記

  • 標籤依賴分析

  • 語法驅動的句子分割

  • 可視化構建語法和NER

  • 字符串到哈希映射更便捷

  • 導出numpy數據數組

  • 有效的二進制序列化

  • 易於模型打包和部署

  • 最快的速度

  • 強烈嚴格的評估準確性

安裝spaCy

Python程序員轉戰自然語言處理利器,學會spaCy實現年薪百萬!

pip

使用pip,spaCy版本目前僅作為源包提供。

  • pip install spacy

在使用pip時,通常建議在虛擬環境中安裝軟件包以避免修改系統狀態:

  • venv .envsource .env/bin/activate

  • pip install spacy

conda

通過社區開發者的努力,終於重新添加了conda支持。現在可以通過conda-forge安裝spaCy:

  • conda config --add channels conda-forge

  • conda install spacy

更新spaCy

spaCy的一些更新可能需要下載新的統計模型,如果正在運行spaCy v2.0或更高版本,則可以使用validate命令來檢查安裝的模型是否兼容,如果不兼容,請打印有關如何更新的詳細信息:

  • pip install -U spacy

  • spacy validate

如果已經訓練了自己的模型,請記住,訓練和運行時的輸入必須匹配。在更新spaCy之後,建議用新版本重新訓練模型。

下載模型

從v1.7.0開始,spaCy的模型可以作為Python包安裝。這意味著它們是應用程序的組件,就像任何其他模塊一樣。 可以使用spaCy的下載命令來安裝模型,也可以通過將pip指向路徑或URL來手動安裝模型。

Python程序員轉戰自然語言處理利器,學會spaCy實現年薪百萬!

Python程序員轉戰自然語言處理利器,學會spaCy實現年薪百萬!

加載和使用模型

要加載模型,請在模型的快捷鏈接中使用spacy.load():

Python程序員轉戰自然語言處理利器,學會spaCy實現年薪百萬!

如果已經通過pip安裝了一個模型,也可以直接導入它,然後調用它的load()方法:

Python程序員轉戰自然語言處理利器,學會spaCy實現年薪百萬!

支持舊版本

如果使用的是舊版本(v1.6.0或更低版本),則仍然可以使用python -m spacy.en.download all或python -m spacy.de.download all從spaCy下載並安裝舊模型。.tar.gz存檔也附加到v1.6.0版本,要手動下載並安裝模型,請解壓存檔,將包含的目錄放入spacy / data,並通過spacy.load('en')或spacy.load('de')加載模型。

從源代碼編譯

另一種安裝spaCy的方法是克隆它的GitHub倉庫,並從源代碼構建它。 如果要更改代碼庫,常見方法是需要確保你有一個由包含頭文件,編譯器,pip,virtualenv和git的Python發行版組成的開發環境。編譯器部分是最棘手的。,如何做到這一點取決於你的系統。有關詳細信息,請參閱Ubuntu,OS X和Windows上的說明。

Python程序員轉戰自然語言處理利器,學會spaCy實現年薪百萬!

與通過pip進行常規安裝相比,requirements.txt會額外安裝Cython等開發人員依賴項。 有關更多詳細信息和說明,請參閱有關從源代碼編譯spaCy和快速啟動小部件的文檔,以獲取適用於您平臺和Python版本的正確命令,而不是上面的詳細命令,你也可以使用下面的結構命令,所有命令都假定虛擬環境位於一個目錄.env中。如果使用的是其他目錄,則可以通過環境變量VENV_DIR進行更改,例如VENV_DIR =“。custom-env”fab clean make。

Python程序員轉戰自然語言處理利器,學會spaCy實現年薪百萬!

Ubuntu

通過apt-get安裝系統級依賴關係:

  • sudo apt-get install build-essential python-dev git

macOS / OS X

安裝最新版本的XCode,包括所謂的“命令行工具”。 macOS和OS X預裝了Python和git。

Windows

安裝與用於編譯Python解釋器的版本相匹配的Visual Studio Express或更高版本。官方發行版是VS 2008(Python 2.7),VS 2010(Python 3.4)和VS 2015(Python 3.5)。

運行測試

spaCy帶有一個廣泛的測試套件。 首先,找出spaCy的安裝位置:

  • python -c "import os; import spacy; print(os.path.dirname(spacy.__file__))"

然後在該目錄下運行。The flags--vectors,--slow 和--model是可選的,並啟用額外的測試:

  • #make sure you are using recent pytest version

  • python -m pip install -U pytest

  • python -m pytest <

相關推薦

推薦中...