Github一週熱門項目總結:自然語言處理Python庫spaCy最熱!

過去一週,Github上最熱門的項目當屬自然語言處理Python庫spaCy,該項目最近更新到了2.0版本。SpaCy是一個基於自然語言處理研究創建的開源項目,目的是最終將其用於真實的產品和解決方案。2.0版本增加了幾個新功能,包括新的神經網絡模型,支持更多的語言和改進的文檔。

SpaCy的作者Matthew Honnibal在發行說明中寫道,新版本通過最新的深度學習技術對spaCy進行了更新,並使得在可擴展的雲計算工作流程中運行spaCy變得更加容易。

過去一週,Github上最熱門的項目當屬自然語言處理Python庫spaCy,該項目最近更新到了2.0版本。SpaCy是一個基於自然語言處理研究創建的開源項目,目的是最終將其用於真實的產品和解決方案。2.0版本增加了幾個新功能,包括新的神經網絡模型,支持更多的語言和改進的文檔。

SpaCy的作者Matthew Honnibal在發行說明中寫道,新版本通過最新的深度學習技術對spaCy進行了更新,並使得在可擴展的雲計算工作流程中運行spaCy變得更加容易。

Github一週熱門項目總結:自然語言處理Python庫spaCy最熱!

新版本包含了13種神經網絡模型,可用於七種以上語言。它還增加了對八種新語言(英語,德語,西班牙語,葡萄牙語,法語,意大利語,荷蘭語和多語言NER)的Alpha標記化支持。它使用bloom嵌入策略來支持小表中的大型詞彙表。核心神經網絡模型具有詞性標籤,依賴標籤和命名實體,小型模型將僅具有上下文特定的標記向量,而中等模型將具有詞向量。

對於這個版本,大部分使用指南,API文檔和代碼示例都被重寫了。該文檔包含有關自定義處理管道,可視化工具,培訓教程,單詞向量和基於規則的匹配信息。現在有一個spaCy 101指南,其中包含重要概念的解釋和說明以及庫的特色總結。

自從一個星期前更新到2.0版以來,已經發布了2.0.3版以解決一些bug,甚至通過添加視頻,更新培訓提示和建議等部分來進一步更新文檔。

Github上週其他五大熱門項目(根據Trending排行榜得出,感興趣可直接在Github中搜索項目名稱獲取詳細信息):

  • Git flight rules:使用Git的程序員指南。如果事情出錯,開發人員可以通過該項目看看可以做什麼。

  • State of the art result for machine learning problems:正如名稱所述,SoTA可以解決所有機器學習問題。

  • Node best practices:Node.js最佳實踐列表

  • JS code to SVG flowchart:用於將JS代碼轉換成SVG流程圖的可視化庫。

  • Tensorflow:機器學習開源軟件庫。

相關推薦

推薦中...