tesseract-ocr
差分
このページの2つのバージョン間の差分を表示します。
両方とも前のリビジョン前のリビジョン次のリビジョン | 前のリビジョン | ||
tesseract-ocr [2020/03/11 12:30] – [使い方] nabezo | tesseract-ocr [2020/12/11 17:10] (現在) – nabezo | ||
---|---|---|---|
行 3: | 行 3: | ||
Tesseract OCRで文字認識をする https:// | Tesseract OCRで文字認識をする https:// | ||
7セグメント読み取り [[ssocr]] | 7セグメント読み取り [[ssocr]] | ||
+ | 7セグメント読み取り https:// | ||
Pythonで書くTesseract 4の基本的な使い方。APIとCLIからOCRを実行する方法 | Pythonで書くTesseract 4の基本的な使い方。APIとCLIからOCRを実行する方法 | ||
+ | ===== 日本語学習データ ===== | ||
+ | ubuntu package(精度が一番良さそう) | ||
+ | github | ||
===== インストール ===== | ===== インストール ===== | ||
- | | + | |
+ | sudo apt install tesseract-ocr-jp | ||
===== 使い方 ===== | ===== 使い方 ===== | ||
tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...] | tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...] | ||
- | tesseract infile outfile --psm 6 | + | tesseract infile outfile --psm 6 -l jpn |
+ | |||
+ | tesseract infile.png stdout | ||
+ | |||
+ | |||
+ | ===== 画像を修正して認識率を上げる ===== | ||
+ | pdfから画像へ | ||
+ | pdfimages orgpin.pdf.pdf orgpic | ||
+ | 2値化 | ||
+ | convert orgpic.png -threshold 9000 convpic.png | ||
+ | 解像度の変更 | ||
+ | convert orgpic.png -resize 200% convpic.png | ||
+ | |||
===== 日本語を認識させる ===== | ===== 日本語を認識させる ===== | ||
- | == データの場所 | + | https:// |
- | / | + | |
+ | apt install tesseract-ocr-jp で以下の場所に日本語データがインストールされる | ||
+ | / | ||
+ | | ||
+ | |||
+ | ===== 再学習 ===== | ||
+ | https:// | ||
+ | |||
+ | |||
+ | 文字認識エンジンTesseract OCRで学習(jTessBoxEditor) | ||
+ | http:// | ||
+ | |||
+ | Tesseract4の再学習・追加学習手順まとめ | ||
+ | http:// | ||
+ |
tesseract-ocr.1583897414.txt.gz · 最終更新: 2020/03/11 12:30 by nabezo