詳解Tesseract之安裝及基本使用

Ubuntu Python 軟件腳本語言自由軟件技術 Google Bash GitHub Apache 姑涼愛爬蟲 2019-06-22

詳解Tesseract之安裝及基本使用

前言

現在圖像識別技術非常普遍，各大雲廠商也都提供了對應的OCR服務，同時隨著5G的發展，對圖像的識別和處理也會產生更多的應用場景。對於我們來說了解開源的Tesseract很有必要。

什麼是OCR

OCR技術是光學字符識別的縮寫(Optical Character Recognition)，是通過掃描等光學輸入方式將各種票據、報刊、書籍、文稿及其它印刷品的文字轉化為圖像信息，再利用文字識別技術將圖像信息轉化為可以使用的計算機輸入技術。

Tesseract基本介紹

Tesseract，是一款由HP實驗室開發並由Google維護的開源OCR引擎。

它是基於Apache許可證的自由軟件，自2006 年起由Google贊助開發。在2006年，Tesseract被認為是最精準的開源光學字符識別引擎之一。

Ubuntu下Tesseract安裝

在ubuntu環境下安裝非常簡單，只需要一行命令：

sudo apt install tesseract-ocr

安裝完畢後，你可以通過tesseract --version命令行來確認版本信息

當然現在最新的已經是4.0了, 如果想使用v4.0, 可以按照以下辦法來安裝：

sudo add-apt-repository ppa:alex-p/tesseract-ocr
sudo apt-get update 
sudo apt-get install tesseract-ocr

默認語言包是英語，當然你如果需要識別中文，則需要安裝對應的中文語言包

#簡體中文
sudo apt-get install tesseract-ocr-chi-sim 
#繁體中文
sudo apt-get install tesseract-ocr-chi-tra

也可以從Tesseract數據目錄下載，放到Tesseract-OCR項目的tessdata文件夾裡面。

Tesseract命令行參數

我們先通過tesseract --help-extra看看幫助說明，

-v, --version

查看當前版本

--list-langs

查看有哪些可用的 "語言"

識別命令

tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]

參數說明：

參數名稱說明imagename圖片文件outputbase輸出文件，也可以選擇命令行輸出stdout

-psm說明：

0 方向和腳本檢測（OSD）
1 使用OSD自動分頁
2 自動分頁，但沒有OSD或OCR
3 全自動頁面分割，但沒有OSD（默認）
4 假設一列可變大小的文本
5 假定一個統一的垂直排列文本塊
6 假設一個統一的文本塊
7 將圖像視為單個文本行
8 將圖像視為一個單詞
9 將圖像視為一個圓圈中的單個單詞
10 將圖像視為單個字符

注意：在4.0多增加了三個參數選項

Tesseract實際使用

我們以兔子先生的一個測試圖片為例子：

通過命令行執行：

tesseract test.jpg result --psm 4 -l chi_sim

查看reslut.txt文件

發現可以正常識別

遇到的坑

問題1 Ubuntu無法找到add-apt-repository

root@vps:~# add-apt-repository ppa:alex-p/tesseract-ocr
-bash: add-apt-repository: 未找到命令

原因：

當前環境需要安裝python-software-properties

解決辦法：

apt-get install python-software-properties
apt-get install software-properties-common

問題2 Tesseract無法安裝中文

root@vps:~# sudo apt-get install tesseract-ocr-chi_sim
正在讀取軟件包列表... 完成
正在分析軟件包的依賴關係樹
正在讀取狀態信息... 完成
E: 無法定位軟件包 tesseract-ocr-chi_sim

原因：

被github上的說明給誤導了，tesseract-ocr-chi_sim不是正確的名稱。

解決辦法：

改為tesseract-ocr-chi-sim

sudo apt-get install tesseract-ocr-chi-sim

相關推薦

'明年天津濱海新區基本實現5G網絡全覆蓋'

"中國經濟導報中國發展網王建喜記者王敏報道天津濱海新區將搶抓新一輪科技革命和產業變革的機遇，全力打造5G產業創新發展高地，加快推進高質量發展。預計到2020年，根據實際需求，新區基本實現5G網絡全覆蓋，應用及產業示範效應初步顯現；到2022年5G在經濟社會各領域廣泛...

我的第一部5G手機天津技術經濟通信軟件交通 2019-09-19

'PyQt5 GUI程序的基本框架'

"本節先通過一個簡單的示例程序介紹PyQt5 GUI應用程序的基本框架。啟動Python自帶的編程和交互式環境IDLE，點擊“File”→“New File”菜單項，打開一個文件編輯窗口，在此窗口中輸入下面的程序，並保存為文件demo2_1Hello.py，此文件保存在隨書...

Python 2019-09-19

'分佈式之 Nginx'

"本篇一句話總結：Nginx是一款輕量級的Web 服務器，也可以用做反向代理、負載均衡、動靜分離和 HTTP緩存。正文開始：什麼是Nginx？為什麼選擇Nginx?怎麼用Nginx？上面這幾個問題，是每個剛接觸 Nginx 的人都想知道的。下面小兵綜合自己的理解和使用情況，...

Nginx Tomcat Apache CentOS 瀏覽器 HTML Wget GCC OpenSSL Java JSP 2019-09-19

'餘承東：若GSM不能用，華為P40或將使用鴻蒙系統'

"9月8日消息 B站UP主鵬鵬君駕到放出了自己翻譯的華為餘承東在IFA記者見面會的採訪。採訪中，當被問及華為是否考慮將麒麟芯片出售的時候，餘承東表示，其實有很多人在問這個問題，實話說，我們很猶豫，目前我們只生產給自己使用，但是我們也在考慮銷售芯片給其他產業，像IoT領域等...

餘承東華為手機華為公司 Google IFA 2019-09-18

'Deepin Linux安裝篇之系統盤刻錄'

"1、前述前面兩篇扯了這麼多廢話，也該進入正題了。都說：“工欲善其事必先利其器”，“磨刀不誤砍柴工”，對於安裝Deepin Linux系統也是一樣的。不管是任何操作系統，在安裝操作系統之前我們都需要進行系統盤的刻錄，Windows、Linux、MacOS都一樣，只是現在很多...

Deepin Linux 操作系統 U盤軟件電腦 Windows 阿里雲計算迅雷讀書 2019-09-18

'中國將用3年基本形成完善的農村養老服務兜底保障網絡'

"中新社北京9月16日電 (記者王祖敏)記者16日從中國民政部獲悉，中國將用3年左右的時間，基本形成縣、鄉供養服務設施相銜接，佈局科學、配置均衡、服務完善的農村養老服務兜底保障網絡。資料圖：社區養老中心。中新社記者韓蘇原攝日前，中國民政部、發改委、財政部印發《關於實施...

農村軟件 2019-09-18

'劉德華拒絕女粉絲求婚：分寸感是男人的基本修養'

"01這兩天很多人都在朋友圈裡刷屏中秋節的動態，點讚了一圈突然在裡面發現有個朋友轉發了一條新浪娛樂對劉德華演唱會的報道。原本以為只是個普通的通稿，結果去微博搜了一下才發現在前幾天劉德華馬來西亞的個人演唱會上，有個粉絲在現場穿著白色的婚紗向劉德華表白求婚。看到粉絲對自己求婚，...

劉德華不完美媽媽戀愛朱麗倩文章新浪黃磊軟件 2019-09-18

'花唄這幾個紅線，不知道的只能與之漸行漸遠'

"支付寶最為阿里巴巴旗下一個非常重要的產業板塊，同樣也是國內最大的支付平臺。目前支付寶的使用用戶已經達到了很多，基本上很多人都會去使用支付寶，也算得上一個時代的產物，最重要的就是掃碼支付的普及成就了支付寶，但是除了掃碼支付，支付寶還有很多的功能值得我們去使用！就比如花唄，大...

支付寶移動支付芝麻信用信用記錄關愛日軟件螞蟻阿里巴巴集團芝麻 2019-09-18

'《西遊記之大聖歸來》獲TGS 2019媒體評選大獎'

"即將於10月17日發售的《西遊記之大聖歸來》在今天獲得了東京電玩展2019媒體評選大獎中 4Gamer 網站的「GRAND PRIZE」。「GRAND PRIZE」的評選範圍包括了所有在東京電玩展中出展的 3A 作品、手遊以及獨立遊戲，並且獲獎作品只有一部。每年東京電玩展...

西遊記之大聖歸來西遊記 Fami通東京電玩展 PlayStation 獨立遊戲日本 Bash 2019-09-18

'Photoshop CC2019安裝包免費下載附安裝教程'

"一、軟件簡介：Adobe Photoshop CC 2019是一款號稱是Adobe公司歷史上最大規模的一次產品升級，集圖像掃描、編輯修改、圖像製作、廣告創意，圖像輸入與輸出於一體的圖形圖像處理軟件，深受廣大平面設計人員和電腦美術愛好者的喜愛。【Photoshop CC ...

Photoshop 軟件 Adobe Systems 電腦平面設計技術殺毒軟件 2019-09-18

'謠言終結者之阿里/騰訊背後的那個人'

"各位親愛的觀眾老爺們，大家好啊！又到了一週一次米寇瞎扯淡的時間了。本週大馬哥-馬雲“退休”的新聞應該都在各位的手機資訊APP裡刷了屏，各種分析大馬哥去當老師以後阿里會走向何方的文章也是把米寇給繞暈了頭。然而，互聯網行業最大的弊端就是什麼都能說還不用負責任。部分純為流量的文...

騰訊阿里巴巴集團標準銀行軟體銀行工商銀行銀行南非風險投資投資文章新聞證券投資基金創投圈 Google 英國日本馬雲人生第一份工作孫正義約翰內斯堡馬化騰 2019-09-18

'使用WIN10系統必須要關閉的功能'

"我們在日常使用WIN10系統的時候，系統默認開啟了系統自動更新，即 Windows Update。當然這個功能本意是好的，他可以及時的修復我們的系統漏洞，讓我們的系統更安全。避免黑客的攻擊。電腦自動配置更新，還可以優化操作系統，提高操作系統處理速度。可是在使用過程中我們發...

Windows Windows 10 操作系統電腦 PowerPoint Excel 軟件 Word 黑客水煮魚 2019-09-18

'iPad Pro 2018個人使用半個月，屏幕體驗很好'

"首先，我是這個ipad是在蘋果官網購買的，在這裡，我談談我過去半個月的使用心得流暢性無話可說，iPad Pro 2018的屏幕刷新率為120 HZ，並配備了A12X芯片（足以用於計算機芯片的性能），因此根本不會使用，圖像將非常一致，乍一看它將非常舒適和柔軟。感覺很好（玩了...

iPad iPad Pro iPhone 軟件音箱 Wi-Fi 耳機騰訊QQ 電腦 QQ空間音樂網易雲音樂 2019-09-17

'水電改造，你不瞭解的設計之美'

"強電的處理對象主要是電力，指的是照明系統等供配電系統。一般包括照明線路、空調線路、插座線、動力線等線路。1、強電基本功能目前軟件中提供四種強電器材的佈置，分別是強電箱、開關（單聯、雙聯、三聯）、插座（三孔、五孔、單開五孔）、燈具（吊燈、壁燈）。2、強電佈置流程（這裡以客廳...

水電改造設計軟件家用電器良心國貨大賞電腦 2019-09-17

'華為最新：頂級旗艦沒火，良心機降價千元！系統與騰訊微信之爭？'

"華為Mate 20X：7.2英寸大屏的頂級旗艦沒火！大智能手機都在不斷的追求更高的屏佔比，於是華為推出了一款擁有7.2英寸大屏的旗艦手機Mate 20X，搭配納米工藝的麒麟980處理器，採用了5000毫安時的高密度大電池，擁有比同級別機型更長的續航能力。華為頂級旗艦這款手...

華為Mate 微信華為公司華為手機騰訊智能手機軟件騰訊遊戲騰訊視頻支付寶蘋果公司銀行技術設計騰訊QQ 硬件編譯器網易我的第一部5G手機步步高vivo 京東商城時尚新聞物聯網操作系統淘寶網完美世界網絡技術有限公司金山軟件 2019-09-17

'IOS13.1beta3+PS4手柄，附上描述文件安裝方法'

"AppStore中最好的三國策略遊戲沒有之一為迎iPhone11發售，亞雷出品的人氣遊戲限免7天AppStore今日分享亞雷出品的移動端3A大作彷彿置身科幻世界中還有需要嚐鮮iOS13.1開發者Beta3的朋友可以私信57，長按私信地址複製在蘋果瀏覽器中打開，一定要在...

PlayStation Mac App Store 瀏覽器 Safari 策略遊戲軟件蘋果公司 iPad 2019-09-17

'崛起的超級智能十問之八：怎樣看待國內智能駕駛的發展水平？'

"《崛起的超級智能：互聯網大腦如何影響科技未來》2019年7月由中信出版社出版，劉鋒著，這本書受到包括張亞勤，劉慈欣、周鴻禕、王飛躍，約翰.翰茲在內的國內外著名專家、企業家的聯合推薦。關於這本書的創作起源，核心觀點，以及對產業究竟有什麼啟發意義，頭條科技對本書作者劉鋒進行了...

技術想象偉大的一平方公里人工智能張亞勤劉慈欣人機交互周鴻禕雷達百度華為公司機器人經濟 Google Uber 劉鋒人造衛星中信出版社 2019-09-17

'遊戲的無障礙之戰：讓快樂屬於每個人'

"問世幾十年以來，電子遊戲從其不起眼的起源發展成為一種完全成熟（更不用說盈利豐厚的）藝術形式。《上古卷軸 5》和《塞爾達傳說》成為了全世界玩家逃離現實之所，《艾迪芬奇的記憶》等含有精彩故事情節的遊戲震撼了無數人。很大一部分消費者和開發者經常宣揚「遊戲屬於每個人」的理念。但是...

微軟索尼硬件軟件 Xbox PlayStation 電子遊戲 Xbox One 上古卷軸塞爾達傳說神祕海域任天堂戰神設計藝術軟件設計 2019-09-17

'全系90HZ+30W！一加7T發佈時間基本確定，依然2999元起？'

"今年的一加7Pro真的是讓所有人都大吃一驚，誰也沒想到一個市場份額只有零頭的小廠竟然如此大手筆。不僅敢給三星砸錢訂製屏幕，而且還敢衝擊5000元價位，最重要的是居然真的成功了。決定一個品牌貴賤的不是實力，而是基因。一想到小米9現在都跌到2000元出頭了，小米MIX系列越做...

一加手機劉作虎小米科技魅族科技三星集團華為公司照相機 Google 設計 2019-09-17

'後期方便升級獨顯十分適合偏高端的遊戲玩家、遊戲主播使用'

"I7-9700K搭配七彩虹GeForce GTX 1660Ti AD Special OC 臺式電腦配置方案I7-9700K作為次旗艦的代表，8700K的升級產品，9700K提升了睿頻，採用了八核心八線程設計，主頻3.6GHz，最大睿頻達到了4.9GHz，缺點就是多線程缺...

中央處理器酷冷至尊西部數據世和資訊固態硬盤微星科技臺式電腦遊戲主播威剛科技創作者來直播筆記本電腦設計軟件 2019-09-17

推薦中...