'Python必備庫-從數據處理到人工智能'

"

一、概述

1.1 從數據處理到人工智能

數據表示->數據清洗->數據統計->數據可視化->數據挖掘->人工智能

  • 數據表示:採用合適方式用程序表達數據
  • 數據清理:數據歸一化、數據轉換、異常值處理
  • 數據統計:數據的概要理解,數量、分佈、中位數等
  • 數據可視化:直觀展示數據內涵的方式
  • 數據挖掘:從數據分析獲得知識,產生數據外的價值
  • 人工智能:數據/語言/圖像/視覺等方面深度分析與決策
  • Python庫之數據分析
  • Python庫之數據可視化
  • Python庫之文本處理
  • Python庫之機器學習

二、Python庫之數據分析

2.1 numpy

Numpy: 表達N維數組的最基礎庫,http://www.numpy.org

  • Python接口使用,C語言實現,計算速度優異
  • Python數據分析及科學計算的基礎庫,支撐Pandas等
  • 提供直接的矩陣運算、廣播函數、線性代數等功能
import numpy as np
def np_sum():
a = np.array([0, 1, 2, 3, 4])
b = np.array([9, 8, 7, 6, 5])
c = a**2 + b**3
return c
print(np_sum())
[729 513 347 225 141]
def py_sum():
a = [0, 1, 2, 3, 4]
b = [9, 8, 7, 6, 5]
c = []
for i in range(len(a)):
c.append(a[i]**2 + b[i]**3)
return c
print(py_sum())
[729, 513, 347, 225, 141]

2.2 pandas

Pandas: Python數據分析高層次應用庫,http://pandas.pydata.org

  • 提供了簡單易用的數據結構和數據分析工具
  • 理解數據類型與索引的關係,操作索引即操作數據
  • Python最主要的數據分析功能庫,基於Numpy開發
  • 能操作sql、json、pickle、csv、excel、ini等文件
  • Series = 索引 + 一維數據
  • DataFrame = 行列索引 + 二維數據

2.3 scipy

SciPy: 數學、科學和工程計算功能庫,http://www.scipy.org

  • 提供了一批數學算法及工程數據運算功能
  • 類似Matlab,可用於如傅里葉變換、信號處理等應用
  • Python最主要的科學計算功能庫,基於Numpy開發
"

一、概述

1.1 從數據處理到人工智能

數據表示->數據清洗->數據統計->數據可視化->數據挖掘->人工智能

  • 數據表示:採用合適方式用程序表達數據
  • 數據清理:數據歸一化、數據轉換、異常值處理
  • 數據統計:數據的概要理解,數量、分佈、中位數等
  • 數據可視化:直觀展示數據內涵的方式
  • 數據挖掘:從數據分析獲得知識,產生數據外的價值
  • 人工智能:數據/語言/圖像/視覺等方面深度分析與決策
  • Python庫之數據分析
  • Python庫之數據可視化
  • Python庫之文本處理
  • Python庫之機器學習

二、Python庫之數據分析

2.1 numpy

Numpy: 表達N維數組的最基礎庫,http://www.numpy.org

  • Python接口使用,C語言實現,計算速度優異
  • Python數據分析及科學計算的基礎庫,支撐Pandas等
  • 提供直接的矩陣運算、廣播函數、線性代數等功能
import numpy as np
def np_sum():
a = np.array([0, 1, 2, 3, 4])
b = np.array([9, 8, 7, 6, 5])
c = a**2 + b**3
return c
print(np_sum())
[729 513 347 225 141]
def py_sum():
a = [0, 1, 2, 3, 4]
b = [9, 8, 7, 6, 5]
c = []
for i in range(len(a)):
c.append(a[i]**2 + b[i]**3)
return c
print(py_sum())
[729, 513, 347, 225, 141]

2.2 pandas

Pandas: Python數據分析高層次應用庫,http://pandas.pydata.org

  • 提供了簡單易用的數據結構和數據分析工具
  • 理解數據類型與索引的關係,操作索引即操作數據
  • Python最主要的數據分析功能庫,基於Numpy開發
  • 能操作sql、json、pickle、csv、excel、ini等文件
  • Series = 索引 + 一維數據
  • DataFrame = 行列索引 + 二維數據

2.3 scipy

SciPy: 數學、科學和工程計算功能庫,http://www.scipy.org

  • 提供了一批數學算法及工程數據運算功能
  • 類似Matlab,可用於如傅里葉變換、信號處理等應用
  • Python最主要的科學計算功能庫,基於Numpy開發
Python必備庫-從數據處理到人工智能

三、Python庫之數據可視化

3.1 matplotlib

Matplotlib: 高質量的二維數據可視化功能庫,http://matplotlib.org

  • 提供了超過100種數據可視化展示效果
  • 通過matplotlib.pyplot子庫調用各可視化效果
  • Python最主要的數據可視化功能庫,基於Numpy開發
"

一、概述

1.1 從數據處理到人工智能

數據表示->數據清洗->數據統計->數據可視化->數據挖掘->人工智能

  • 數據表示:採用合適方式用程序表達數據
  • 數據清理:數據歸一化、數據轉換、異常值處理
  • 數據統計:數據的概要理解,數量、分佈、中位數等
  • 數據可視化:直觀展示數據內涵的方式
  • 數據挖掘:從數據分析獲得知識,產生數據外的價值
  • 人工智能:數據/語言/圖像/視覺等方面深度分析與決策
  • Python庫之數據分析
  • Python庫之數據可視化
  • Python庫之文本處理
  • Python庫之機器學習

二、Python庫之數據分析

2.1 numpy

Numpy: 表達N維數組的最基礎庫,http://www.numpy.org

  • Python接口使用,C語言實現,計算速度優異
  • Python數據分析及科學計算的基礎庫,支撐Pandas等
  • 提供直接的矩陣運算、廣播函數、線性代數等功能
import numpy as np
def np_sum():
a = np.array([0, 1, 2, 3, 4])
b = np.array([9, 8, 7, 6, 5])
c = a**2 + b**3
return c
print(np_sum())
[729 513 347 225 141]
def py_sum():
a = [0, 1, 2, 3, 4]
b = [9, 8, 7, 6, 5]
c = []
for i in range(len(a)):
c.append(a[i]**2 + b[i]**3)
return c
print(py_sum())
[729, 513, 347, 225, 141]

2.2 pandas

Pandas: Python數據分析高層次應用庫,http://pandas.pydata.org

  • 提供了簡單易用的數據結構和數據分析工具
  • 理解數據類型與索引的關係,操作索引即操作數據
  • Python最主要的數據分析功能庫,基於Numpy開發
  • 能操作sql、json、pickle、csv、excel、ini等文件
  • Series = 索引 + 一維數據
  • DataFrame = 行列索引 + 二維數據

2.3 scipy

SciPy: 數學、科學和工程計算功能庫,http://www.scipy.org

  • 提供了一批數學算法及工程數據運算功能
  • 類似Matlab,可用於如傅里葉變換、信號處理等應用
  • Python最主要的科學計算功能庫,基於Numpy開發
Python必備庫-從數據處理到人工智能

三、Python庫之數據可視化

3.1 matplotlib

Matplotlib: 高質量的二維數據可視化功能庫,http://matplotlib.org

  • 提供了超過100種數據可視化展示效果
  • 通過matplotlib.pyplot子庫調用各可視化效果
  • Python最主要的數據可視化功能庫,基於Numpy開發
Python必備庫-從數據處理到人工智能

3.2 Seaborn

Seaborn: 統計類數據可視化功能庫,http://seaborn.pydata.org/

  • 提供了一批高層次的統計類數據可視化展示效果
  • 主要展示數據間分佈、分類和線性關係等內容
  • 基於Matplotlib開發,支持Numpy和Pandas
"

一、概述

1.1 從數據處理到人工智能

數據表示->數據清洗->數據統計->數據可視化->數據挖掘->人工智能

  • 數據表示:採用合適方式用程序表達數據
  • 數據清理:數據歸一化、數據轉換、異常值處理
  • 數據統計:數據的概要理解,數量、分佈、中位數等
  • 數據可視化:直觀展示數據內涵的方式
  • 數據挖掘:從數據分析獲得知識,產生數據外的價值
  • 人工智能:數據/語言/圖像/視覺等方面深度分析與決策
  • Python庫之數據分析
  • Python庫之數據可視化
  • Python庫之文本處理
  • Python庫之機器學習

二、Python庫之數據分析

2.1 numpy

Numpy: 表達N維數組的最基礎庫,http://www.numpy.org

  • Python接口使用,C語言實現,計算速度優異
  • Python數據分析及科學計算的基礎庫,支撐Pandas等
  • 提供直接的矩陣運算、廣播函數、線性代數等功能
import numpy as np
def np_sum():
a = np.array([0, 1, 2, 3, 4])
b = np.array([9, 8, 7, 6, 5])
c = a**2 + b**3
return c
print(np_sum())
[729 513 347 225 141]
def py_sum():
a = [0, 1, 2, 3, 4]
b = [9, 8, 7, 6, 5]
c = []
for i in range(len(a)):
c.append(a[i]**2 + b[i]**3)
return c
print(py_sum())
[729, 513, 347, 225, 141]

2.2 pandas

Pandas: Python數據分析高層次應用庫,http://pandas.pydata.org

  • 提供了簡單易用的數據結構和數據分析工具
  • 理解數據類型與索引的關係,操作索引即操作數據
  • Python最主要的數據分析功能庫,基於Numpy開發
  • 能操作sql、json、pickle、csv、excel、ini等文件
  • Series = 索引 + 一維數據
  • DataFrame = 行列索引 + 二維數據

2.3 scipy

SciPy: 數學、科學和工程計算功能庫,http://www.scipy.org

  • 提供了一批數學算法及工程數據運算功能
  • 類似Matlab,可用於如傅里葉變換、信號處理等應用
  • Python最主要的科學計算功能庫,基於Numpy開發
Python必備庫-從數據處理到人工智能

三、Python庫之數據可視化

3.1 matplotlib

Matplotlib: 高質量的二維數據可視化功能庫,http://matplotlib.org

  • 提供了超過100種數據可視化展示效果
  • 通過matplotlib.pyplot子庫調用各可視化效果
  • Python最主要的數據可視化功能庫,基於Numpy開發
Python必備庫-從數據處理到人工智能

3.2 Seaborn

Seaborn: 統計類數據可視化功能庫,http://seaborn.pydata.org/

  • 提供了一批高層次的統計類數據可視化展示效果
  • 主要展示數據間分佈、分類和線性關係等內容
  • 基於Matplotlib開發,支持Numpy和Pandas
Python必備庫-從數據處理到人工智能

3.3 Mayavi

Mayavi:三維科學數據可視化功能庫,http://docs.enthought.com/mayavi/mayavi/

  • 提供了一批簡單易用的3D科學計算數據可視化展示效果
  • 目前版本是Mayavi2,三維可視化最主要的第三方庫
  • 支持Numpy、TVTK、Traits、Envisage等第三方庫
"

一、概述

1.1 從數據處理到人工智能

數據表示->數據清洗->數據統計->數據可視化->數據挖掘->人工智能

  • 數據表示:採用合適方式用程序表達數據
  • 數據清理:數據歸一化、數據轉換、異常值處理
  • 數據統計:數據的概要理解,數量、分佈、中位數等
  • 數據可視化:直觀展示數據內涵的方式
  • 數據挖掘:從數據分析獲得知識,產生數據外的價值
  • 人工智能:數據/語言/圖像/視覺等方面深度分析與決策
  • Python庫之數據分析
  • Python庫之數據可視化
  • Python庫之文本處理
  • Python庫之機器學習

二、Python庫之數據分析

2.1 numpy

Numpy: 表達N維數組的最基礎庫,http://www.numpy.org

  • Python接口使用,C語言實現,計算速度優異
  • Python數據分析及科學計算的基礎庫,支撐Pandas等
  • 提供直接的矩陣運算、廣播函數、線性代數等功能
import numpy as np
def np_sum():
a = np.array([0, 1, 2, 3, 4])
b = np.array([9, 8, 7, 6, 5])
c = a**2 + b**3
return c
print(np_sum())
[729 513 347 225 141]
def py_sum():
a = [0, 1, 2, 3, 4]
b = [9, 8, 7, 6, 5]
c = []
for i in range(len(a)):
c.append(a[i]**2 + b[i]**3)
return c
print(py_sum())
[729, 513, 347, 225, 141]

2.2 pandas

Pandas: Python數據分析高層次應用庫,http://pandas.pydata.org

  • 提供了簡單易用的數據結構和數據分析工具
  • 理解數據類型與索引的關係,操作索引即操作數據
  • Python最主要的數據分析功能庫,基於Numpy開發
  • 能操作sql、json、pickle、csv、excel、ini等文件
  • Series = 索引 + 一維數據
  • DataFrame = 行列索引 + 二維數據

2.3 scipy

SciPy: 數學、科學和工程計算功能庫,http://www.scipy.org

  • 提供了一批數學算法及工程數據運算功能
  • 類似Matlab,可用於如傅里葉變換、信號處理等應用
  • Python最主要的科學計算功能庫,基於Numpy開發
Python必備庫-從數據處理到人工智能

三、Python庫之數據可視化

3.1 matplotlib

Matplotlib: 高質量的二維數據可視化功能庫,http://matplotlib.org

  • 提供了超過100種數據可視化展示效果
  • 通過matplotlib.pyplot子庫調用各可視化效果
  • Python最主要的數據可視化功能庫,基於Numpy開發
Python必備庫-從數據處理到人工智能

3.2 Seaborn

Seaborn: 統計類數據可視化功能庫,http://seaborn.pydata.org/

  • 提供了一批高層次的統計類數據可視化展示效果
  • 主要展示數據間分佈、分類和線性關係等內容
  • 基於Matplotlib開發,支持Numpy和Pandas
Python必備庫-從數據處理到人工智能

3.3 Mayavi

Mayavi:三維科學數據可視化功能庫,http://docs.enthought.com/mayavi/mayavi/

  • 提供了一批簡單易用的3D科學計算數據可視化展示效果
  • 目前版本是Mayavi2,三維可視化最主要的第三方庫
  • 支持Numpy、TVTK、Traits、Envisage等第三方庫
Python必備庫-從數據處理到人工智能

四、Python庫之文本處理

4.1 PyPDF2

PyPDF2:用來處理pdf文件的工具集,http://mstamy2.github.io/PyPDF2

  • 提供了一批處理PDF文件的計算功能
  • 支持獲取信息、分隔/整合文件、加密解密等
  • 完全Python語言實現,不需要額外依賴,功能穩定
from PyPDF2 import PdfFileReader, PdfFileMerger
merger = PdfFileMerger()
input1 = open("document1.pdf", "rb")
input2 = open("document2.pdf", "rb")
merger.append(fileobj=input1, pages=(0, 3))
merger.merge(position=2, fileobj=input2, pages=(0, 1))
output = open("document-output.pdf", "wb")
merger.write(output)

4.2 NLTK

NLTK:自然語言文本處理第三方庫,http://www.nltk.org/

  • 提供了一批簡單易用的自然語言文本處理功能
  • 支持語言文本分類、標記、語法句法、語義分析等
  • 最優秀的Python自然語言處理庫
from nltk.corpus import treebank
t = treebank.parsed_sents('wsj_0001.mrg')[0]
t.draw()
"

一、概述

1.1 從數據處理到人工智能

數據表示->數據清洗->數據統計->數據可視化->數據挖掘->人工智能

  • 數據表示:採用合適方式用程序表達數據
  • 數據清理:數據歸一化、數據轉換、異常值處理
  • 數據統計:數據的概要理解,數量、分佈、中位數等
  • 數據可視化:直觀展示數據內涵的方式
  • 數據挖掘:從數據分析獲得知識,產生數據外的價值
  • 人工智能:數據/語言/圖像/視覺等方面深度分析與決策
  • Python庫之數據分析
  • Python庫之數據可視化
  • Python庫之文本處理
  • Python庫之機器學習

二、Python庫之數據分析

2.1 numpy

Numpy: 表達N維數組的最基礎庫,http://www.numpy.org

  • Python接口使用,C語言實現,計算速度優異
  • Python數據分析及科學計算的基礎庫,支撐Pandas等
  • 提供直接的矩陣運算、廣播函數、線性代數等功能
import numpy as np
def np_sum():
a = np.array([0, 1, 2, 3, 4])
b = np.array([9, 8, 7, 6, 5])
c = a**2 + b**3
return c
print(np_sum())
[729 513 347 225 141]
def py_sum():
a = [0, 1, 2, 3, 4]
b = [9, 8, 7, 6, 5]
c = []
for i in range(len(a)):
c.append(a[i]**2 + b[i]**3)
return c
print(py_sum())
[729, 513, 347, 225, 141]

2.2 pandas

Pandas: Python數據分析高層次應用庫,http://pandas.pydata.org

  • 提供了簡單易用的數據結構和數據分析工具
  • 理解數據類型與索引的關係,操作索引即操作數據
  • Python最主要的數據分析功能庫,基於Numpy開發
  • 能操作sql、json、pickle、csv、excel、ini等文件
  • Series = 索引 + 一維數據
  • DataFrame = 行列索引 + 二維數據

2.3 scipy

SciPy: 數學、科學和工程計算功能庫,http://www.scipy.org

  • 提供了一批數學算法及工程數據運算功能
  • 類似Matlab,可用於如傅里葉變換、信號處理等應用
  • Python最主要的科學計算功能庫,基於Numpy開發
Python必備庫-從數據處理到人工智能

三、Python庫之數據可視化

3.1 matplotlib

Matplotlib: 高質量的二維數據可視化功能庫,http://matplotlib.org

  • 提供了超過100種數據可視化展示效果
  • 通過matplotlib.pyplot子庫調用各可視化效果
  • Python最主要的數據可視化功能庫,基於Numpy開發
Python必備庫-從數據處理到人工智能

3.2 Seaborn

Seaborn: 統計類數據可視化功能庫,http://seaborn.pydata.org/

  • 提供了一批高層次的統計類數據可視化展示效果
  • 主要展示數據間分佈、分類和線性關係等內容
  • 基於Matplotlib開發,支持Numpy和Pandas
Python必備庫-從數據處理到人工智能

3.3 Mayavi

Mayavi:三維科學數據可視化功能庫,http://docs.enthought.com/mayavi/mayavi/

  • 提供了一批簡單易用的3D科學計算數據可視化展示效果
  • 目前版本是Mayavi2,三維可視化最主要的第三方庫
  • 支持Numpy、TVTK、Traits、Envisage等第三方庫
Python必備庫-從數據處理到人工智能

四、Python庫之文本處理

4.1 PyPDF2

PyPDF2:用來處理pdf文件的工具集,http://mstamy2.github.io/PyPDF2

  • 提供了一批處理PDF文件的計算功能
  • 支持獲取信息、分隔/整合文件、加密解密等
  • 完全Python語言實現,不需要額外依賴,功能穩定
from PyPDF2 import PdfFileReader, PdfFileMerger
merger = PdfFileMerger()
input1 = open("document1.pdf", "rb")
input2 = open("document2.pdf", "rb")
merger.append(fileobj=input1, pages=(0, 3))
merger.merge(position=2, fileobj=input2, pages=(0, 1))
output = open("document-output.pdf", "wb")
merger.write(output)

4.2 NLTK

NLTK:自然語言文本處理第三方庫,http://www.nltk.org/

  • 提供了一批簡單易用的自然語言文本處理功能
  • 支持語言文本分類、標記、語法句法、語義分析等
  • 最優秀的Python自然語言處理庫
from nltk.corpus import treebank
t = treebank.parsed_sents('wsj_0001.mrg')[0]
t.draw()
Python必備庫-從數據處理到人工智能

4.3 Python-docx

Python-docx:創建或更新Microsoft Word文件的第三方庫,http://python-docx.readthedocs.io/en/latest/index.html

  • 提供創建或更新.doc .docx等文件的計算功能
  • 增加並配置段落、圖片、表格、文字等,功能全面
from docx import Document
document = Document()
document.add_heading('Document Title', 0)
p = document.add_paragraph('A plain paragraph having some ')
document.add_page_break()
document.save('demo.docx')

五、Python庫之機器學習

5.1 Scikit-learn

Scikit-learn:機器學習方法工具集,與數據處理相關的第三方庫,http://scikit-learn.org/

  • 提供一批統一化的機器學習方法功能接口
  • 提供聚類、分類、迴歸、強化學習等計算功能
  • 機器學習最基本且最優秀的Python第三方庫
"

一、概述

1.1 從數據處理到人工智能

數據表示->數據清洗->數據統計->數據可視化->數據挖掘->人工智能

  • 數據表示:採用合適方式用程序表達數據
  • 數據清理:數據歸一化、數據轉換、異常值處理
  • 數據統計:數據的概要理解,數量、分佈、中位數等
  • 數據可視化:直觀展示數據內涵的方式
  • 數據挖掘:從數據分析獲得知識,產生數據外的價值
  • 人工智能:數據/語言/圖像/視覺等方面深度分析與決策
  • Python庫之數據分析
  • Python庫之數據可視化
  • Python庫之文本處理
  • Python庫之機器學習

二、Python庫之數據分析

2.1 numpy

Numpy: 表達N維數組的最基礎庫,http://www.numpy.org

  • Python接口使用,C語言實現,計算速度優異
  • Python數據分析及科學計算的基礎庫,支撐Pandas等
  • 提供直接的矩陣運算、廣播函數、線性代數等功能
import numpy as np
def np_sum():
a = np.array([0, 1, 2, 3, 4])
b = np.array([9, 8, 7, 6, 5])
c = a**2 + b**3
return c
print(np_sum())
[729 513 347 225 141]
def py_sum():
a = [0, 1, 2, 3, 4]
b = [9, 8, 7, 6, 5]
c = []
for i in range(len(a)):
c.append(a[i]**2 + b[i]**3)
return c
print(py_sum())
[729, 513, 347, 225, 141]

2.2 pandas

Pandas: Python數據分析高層次應用庫,http://pandas.pydata.org

  • 提供了簡單易用的數據結構和數據分析工具
  • 理解數據類型與索引的關係,操作索引即操作數據
  • Python最主要的數據分析功能庫,基於Numpy開發
  • 能操作sql、json、pickle、csv、excel、ini等文件
  • Series = 索引 + 一維數據
  • DataFrame = 行列索引 + 二維數據

2.3 scipy

SciPy: 數學、科學和工程計算功能庫,http://www.scipy.org

  • 提供了一批數學算法及工程數據運算功能
  • 類似Matlab,可用於如傅里葉變換、信號處理等應用
  • Python最主要的科學計算功能庫,基於Numpy開發
Python必備庫-從數據處理到人工智能

三、Python庫之數據可視化

3.1 matplotlib

Matplotlib: 高質量的二維數據可視化功能庫,http://matplotlib.org

  • 提供了超過100種數據可視化展示效果
  • 通過matplotlib.pyplot子庫調用各可視化效果
  • Python最主要的數據可視化功能庫,基於Numpy開發
Python必備庫-從數據處理到人工智能

3.2 Seaborn

Seaborn: 統計類數據可視化功能庫,http://seaborn.pydata.org/

  • 提供了一批高層次的統計類數據可視化展示效果
  • 主要展示數據間分佈、分類和線性關係等內容
  • 基於Matplotlib開發,支持Numpy和Pandas
Python必備庫-從數據處理到人工智能

3.3 Mayavi

Mayavi:三維科學數據可視化功能庫,http://docs.enthought.com/mayavi/mayavi/

  • 提供了一批簡單易用的3D科學計算數據可視化展示效果
  • 目前版本是Mayavi2,三維可視化最主要的第三方庫
  • 支持Numpy、TVTK、Traits、Envisage等第三方庫
Python必備庫-從數據處理到人工智能

四、Python庫之文本處理

4.1 PyPDF2

PyPDF2:用來處理pdf文件的工具集,http://mstamy2.github.io/PyPDF2

  • 提供了一批處理PDF文件的計算功能
  • 支持獲取信息、分隔/整合文件、加密解密等
  • 完全Python語言實現,不需要額外依賴,功能穩定
from PyPDF2 import PdfFileReader, PdfFileMerger
merger = PdfFileMerger()
input1 = open("document1.pdf", "rb")
input2 = open("document2.pdf", "rb")
merger.append(fileobj=input1, pages=(0, 3))
merger.merge(position=2, fileobj=input2, pages=(0, 1))
output = open("document-output.pdf", "wb")
merger.write(output)

4.2 NLTK

NLTK:自然語言文本處理第三方庫,http://www.nltk.org/

  • 提供了一批簡單易用的自然語言文本處理功能
  • 支持語言文本分類、標記、語法句法、語義分析等
  • 最優秀的Python自然語言處理庫
from nltk.corpus import treebank
t = treebank.parsed_sents('wsj_0001.mrg')[0]
t.draw()
Python必備庫-從數據處理到人工智能

4.3 Python-docx

Python-docx:創建或更新Microsoft Word文件的第三方庫,http://python-docx.readthedocs.io/en/latest/index.html

  • 提供創建或更新.doc .docx等文件的計算功能
  • 增加並配置段落、圖片、表格、文字等,功能全面
from docx import Document
document = Document()
document.add_heading('Document Title', 0)
p = document.add_paragraph('A plain paragraph having some ')
document.add_page_break()
document.save('demo.docx')

五、Python庫之機器學習

5.1 Scikit-learn

Scikit-learn:機器學習方法工具集,與數據處理相關的第三方庫,http://scikit-learn.org/

  • 提供一批統一化的機器學習方法功能接口
  • 提供聚類、分類、迴歸、強化學習等計算功能
  • 機器學習最基本且最優秀的Python第三方庫
Python必備庫-從數據處理到人工智能

5.2 TensorFlow

TensorFlow:AlphaGo背後的機器學習計算框架,https://www.tensorflow.org/

  • 谷歌公司推動的開源機器學習框架
  • 將數據流圖作為基礎,圖節點代表運算,邊代表張量
  • 應用機器學習方法的一種方式,支撐谷歌人工智能應用
import tensorflow as tf
init = tf.global_variables_initializer()
sess = tf.Session()
sess.run(init)
res = sess.run(result)
print('result:', res)
"

一、概述

1.1 從數據處理到人工智能

數據表示->數據清洗->數據統計->數據可視化->數據挖掘->人工智能

  • 數據表示:採用合適方式用程序表達數據
  • 數據清理:數據歸一化、數據轉換、異常值處理
  • 數據統計:數據的概要理解,數量、分佈、中位數等
  • 數據可視化:直觀展示數據內涵的方式
  • 數據挖掘:從數據分析獲得知識,產生數據外的價值
  • 人工智能:數據/語言/圖像/視覺等方面深度分析與決策
  • Python庫之數據分析
  • Python庫之數據可視化
  • Python庫之文本處理
  • Python庫之機器學習

二、Python庫之數據分析

2.1 numpy

Numpy: 表達N維數組的最基礎庫,http://www.numpy.org

  • Python接口使用,C語言實現,計算速度優異
  • Python數據分析及科學計算的基礎庫,支撐Pandas等
  • 提供直接的矩陣運算、廣播函數、線性代數等功能
import numpy as np
def np_sum():
a = np.array([0, 1, 2, 3, 4])
b = np.array([9, 8, 7, 6, 5])
c = a**2 + b**3
return c
print(np_sum())
[729 513 347 225 141]
def py_sum():
a = [0, 1, 2, 3, 4]
b = [9, 8, 7, 6, 5]
c = []
for i in range(len(a)):
c.append(a[i]**2 + b[i]**3)
return c
print(py_sum())
[729, 513, 347, 225, 141]

2.2 pandas

Pandas: Python數據分析高層次應用庫,http://pandas.pydata.org

  • 提供了簡單易用的數據結構和數據分析工具
  • 理解數據類型與索引的關係,操作索引即操作數據
  • Python最主要的數據分析功能庫,基於Numpy開發
  • 能操作sql、json、pickle、csv、excel、ini等文件
  • Series = 索引 + 一維數據
  • DataFrame = 行列索引 + 二維數據

2.3 scipy

SciPy: 數學、科學和工程計算功能庫,http://www.scipy.org

  • 提供了一批數學算法及工程數據運算功能
  • 類似Matlab,可用於如傅里葉變換、信號處理等應用
  • Python最主要的科學計算功能庫,基於Numpy開發
Python必備庫-從數據處理到人工智能

三、Python庫之數據可視化

3.1 matplotlib

Matplotlib: 高質量的二維數據可視化功能庫,http://matplotlib.org

  • 提供了超過100種數據可視化展示效果
  • 通過matplotlib.pyplot子庫調用各可視化效果
  • Python最主要的數據可視化功能庫,基於Numpy開發
Python必備庫-從數據處理到人工智能

3.2 Seaborn

Seaborn: 統計類數據可視化功能庫,http://seaborn.pydata.org/

  • 提供了一批高層次的統計類數據可視化展示效果
  • 主要展示數據間分佈、分類和線性關係等內容
  • 基於Matplotlib開發,支持Numpy和Pandas
Python必備庫-從數據處理到人工智能

3.3 Mayavi

Mayavi:三維科學數據可視化功能庫,http://docs.enthought.com/mayavi/mayavi/

  • 提供了一批簡單易用的3D科學計算數據可視化展示效果
  • 目前版本是Mayavi2,三維可視化最主要的第三方庫
  • 支持Numpy、TVTK、Traits、Envisage等第三方庫
Python必備庫-從數據處理到人工智能

四、Python庫之文本處理

4.1 PyPDF2

PyPDF2:用來處理pdf文件的工具集,http://mstamy2.github.io/PyPDF2

  • 提供了一批處理PDF文件的計算功能
  • 支持獲取信息、分隔/整合文件、加密解密等
  • 完全Python語言實現,不需要額外依賴,功能穩定
from PyPDF2 import PdfFileReader, PdfFileMerger
merger = PdfFileMerger()
input1 = open("document1.pdf", "rb")
input2 = open("document2.pdf", "rb")
merger.append(fileobj=input1, pages=(0, 3))
merger.merge(position=2, fileobj=input2, pages=(0, 1))
output = open("document-output.pdf", "wb")
merger.write(output)

4.2 NLTK

NLTK:自然語言文本處理第三方庫,http://www.nltk.org/

  • 提供了一批簡單易用的自然語言文本處理功能
  • 支持語言文本分類、標記、語法句法、語義分析等
  • 最優秀的Python自然語言處理庫
from nltk.corpus import treebank
t = treebank.parsed_sents('wsj_0001.mrg')[0]
t.draw()
Python必備庫-從數據處理到人工智能

4.3 Python-docx

Python-docx:創建或更新Microsoft Word文件的第三方庫,http://python-docx.readthedocs.io/en/latest/index.html

  • 提供創建或更新.doc .docx等文件的計算功能
  • 增加並配置段落、圖片、表格、文字等,功能全面
from docx import Document
document = Document()
document.add_heading('Document Title', 0)
p = document.add_paragraph('A plain paragraph having some ')
document.add_page_break()
document.save('demo.docx')

五、Python庫之機器學習

5.1 Scikit-learn

Scikit-learn:機器學習方法工具集,與數據處理相關的第三方庫,http://scikit-learn.org/

  • 提供一批統一化的機器學習方法功能接口
  • 提供聚類、分類、迴歸、強化學習等計算功能
  • 機器學習最基本且最優秀的Python第三方庫
Python必備庫-從數據處理到人工智能

5.2 TensorFlow

TensorFlow:AlphaGo背後的機器學習計算框架,https://www.tensorflow.org/

  • 谷歌公司推動的開源機器學習框架
  • 將數據流圖作為基礎,圖節點代表運算,邊代表張量
  • 應用機器學習方法的一種方式,支撐谷歌人工智能應用
import tensorflow as tf
init = tf.global_variables_initializer()
sess = tf.Session()
sess.run(init)
res = sess.run(result)
print('result:', res)
Python必備庫-從數據處理到人工智能

5.3 MXNet

MXNet:基於神經網絡的深度學習計算框架,https://mxnet.incubator.apache.org/

  • 提供可擴展的神經網絡及深度學習計算功能
  • 可用於自動駕駛、機器翻譯、語音識別等眾多領域
  • Python最重要的深度學習計算框架
"

一、概述

1.1 從數據處理到人工智能

數據表示->數據清洗->數據統計->數據可視化->數據挖掘->人工智能

  • 數據表示:採用合適方式用程序表達數據
  • 數據清理:數據歸一化、數據轉換、異常值處理
  • 數據統計:數據的概要理解,數量、分佈、中位數等
  • 數據可視化:直觀展示數據內涵的方式
  • 數據挖掘:從數據分析獲得知識,產生數據外的價值
  • 人工智能:數據/語言/圖像/視覺等方面深度分析與決策
  • Python庫之數據分析
  • Python庫之數據可視化
  • Python庫之文本處理
  • Python庫之機器學習

二、Python庫之數據分析

2.1 numpy

Numpy: 表達N維數組的最基礎庫,http://www.numpy.org

  • Python接口使用,C語言實現,計算速度優異
  • Python數據分析及科學計算的基礎庫,支撐Pandas等
  • 提供直接的矩陣運算、廣播函數、線性代數等功能
import numpy as np
def np_sum():
a = np.array([0, 1, 2, 3, 4])
b = np.array([9, 8, 7, 6, 5])
c = a**2 + b**3
return c
print(np_sum())
[729 513 347 225 141]
def py_sum():
a = [0, 1, 2, 3, 4]
b = [9, 8, 7, 6, 5]
c = []
for i in range(len(a)):
c.append(a[i]**2 + b[i]**3)
return c
print(py_sum())
[729, 513, 347, 225, 141]

2.2 pandas

Pandas: Python數據分析高層次應用庫,http://pandas.pydata.org

  • 提供了簡單易用的數據結構和數據分析工具
  • 理解數據類型與索引的關係,操作索引即操作數據
  • Python最主要的數據分析功能庫,基於Numpy開發
  • 能操作sql、json、pickle、csv、excel、ini等文件
  • Series = 索引 + 一維數據
  • DataFrame = 行列索引 + 二維數據

2.3 scipy

SciPy: 數學、科學和工程計算功能庫,http://www.scipy.org

  • 提供了一批數學算法及工程數據運算功能
  • 類似Matlab,可用於如傅里葉變換、信號處理等應用
  • Python最主要的科學計算功能庫,基於Numpy開發
Python必備庫-從數據處理到人工智能

三、Python庫之數據可視化

3.1 matplotlib

Matplotlib: 高質量的二維數據可視化功能庫,http://matplotlib.org

  • 提供了超過100種數據可視化展示效果
  • 通過matplotlib.pyplot子庫調用各可視化效果
  • Python最主要的數據可視化功能庫,基於Numpy開發
Python必備庫-從數據處理到人工智能

3.2 Seaborn

Seaborn: 統計類數據可視化功能庫,http://seaborn.pydata.org/

  • 提供了一批高層次的統計類數據可視化展示效果
  • 主要展示數據間分佈、分類和線性關係等內容
  • 基於Matplotlib開發,支持Numpy和Pandas
Python必備庫-從數據處理到人工智能

3.3 Mayavi

Mayavi:三維科學數據可視化功能庫,http://docs.enthought.com/mayavi/mayavi/

  • 提供了一批簡單易用的3D科學計算數據可視化展示效果
  • 目前版本是Mayavi2,三維可視化最主要的第三方庫
  • 支持Numpy、TVTK、Traits、Envisage等第三方庫
Python必備庫-從數據處理到人工智能

四、Python庫之文本處理

4.1 PyPDF2

PyPDF2:用來處理pdf文件的工具集,http://mstamy2.github.io/PyPDF2

  • 提供了一批處理PDF文件的計算功能
  • 支持獲取信息、分隔/整合文件、加密解密等
  • 完全Python語言實現,不需要額外依賴,功能穩定
from PyPDF2 import PdfFileReader, PdfFileMerger
merger = PdfFileMerger()
input1 = open("document1.pdf", "rb")
input2 = open("document2.pdf", "rb")
merger.append(fileobj=input1, pages=(0, 3))
merger.merge(position=2, fileobj=input2, pages=(0, 1))
output = open("document-output.pdf", "wb")
merger.write(output)

4.2 NLTK

NLTK:自然語言文本處理第三方庫,http://www.nltk.org/

  • 提供了一批簡單易用的自然語言文本處理功能
  • 支持語言文本分類、標記、語法句法、語義分析等
  • 最優秀的Python自然語言處理庫
from nltk.corpus import treebank
t = treebank.parsed_sents('wsj_0001.mrg')[0]
t.draw()
Python必備庫-從數據處理到人工智能

4.3 Python-docx

Python-docx:創建或更新Microsoft Word文件的第三方庫,http://python-docx.readthedocs.io/en/latest/index.html

  • 提供創建或更新.doc .docx等文件的計算功能
  • 增加並配置段落、圖片、表格、文字等,功能全面
from docx import Document
document = Document()
document.add_heading('Document Title', 0)
p = document.add_paragraph('A plain paragraph having some ')
document.add_page_break()
document.save('demo.docx')

五、Python庫之機器學習

5.1 Scikit-learn

Scikit-learn:機器學習方法工具集,與數據處理相關的第三方庫,http://scikit-learn.org/

  • 提供一批統一化的機器學習方法功能接口
  • 提供聚類、分類、迴歸、強化學習等計算功能
  • 機器學習最基本且最優秀的Python第三方庫
Python必備庫-從數據處理到人工智能

5.2 TensorFlow

TensorFlow:AlphaGo背後的機器學習計算框架,https://www.tensorflow.org/

  • 谷歌公司推動的開源機器學習框架
  • 將數據流圖作為基礎,圖節點代表運算,邊代表張量
  • 應用機器學習方法的一種方式,支撐谷歌人工智能應用
import tensorflow as tf
init = tf.global_variables_initializer()
sess = tf.Session()
sess.run(init)
res = sess.run(result)
print('result:', res)
Python必備庫-從數據處理到人工智能

5.3 MXNet

MXNet:基於神經網絡的深度學習計算框架,https://mxnet.incubator.apache.org/

  • 提供可擴展的神經網絡及深度學習計算功能
  • 可用於自動駕駛、機器翻譯、語音識別等眾多領域
  • Python最重要的深度學習計算框架
Python必備庫-從數據處理到人工智能

六、單元小結

6.1 從數據處理到人工智能

  • Numpy、Pandas、SciPy
  • Matplotlib、Seaborn、Mayavi
  • PyPDF2、NLTK、python-docx
  • Scikit-learn、TensorFlow、MXNet
"

相關推薦

推薦中...