tesseract-ocr
差分
このページの2つのバージョン間の差分を表示します。
両方とも前のリビジョン前のリビジョン次のリビジョン | 前のリビジョン | ||
tesseract-ocr [2020/05/18 16:49] – [使い方] nabezo | tesseract-ocr [2020/12/11 17:10] (現在) – nabezo | ||
---|---|---|---|
行 3: | 行 3: | ||
Tesseract OCRで文字認識をする https:// | Tesseract OCRで文字認識をする https:// | ||
7セグメント読み取り [[ssocr]] | 7セグメント読み取り [[ssocr]] | ||
+ | 7セグメント読み取り https:// | ||
Pythonで書くTesseract 4の基本的な使い方。APIとCLIからOCRを実行する方法 | Pythonで書くTesseract 4の基本的な使い方。APIとCLIからOCRを実行する方法 | ||
+ | ===== 日本語学習データ ===== | ||
+ | ubuntu package(精度が一番良さそう) | ||
+ | github | ||
===== インストール ===== | ===== インストール ===== | ||
行 14: | 行 18: | ||
tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...] | tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...] | ||
tesseract infile outfile --psm 6 -l jpn | tesseract infile outfile --psm 6 -l jpn | ||
+ | | ||
+ | tesseract infile.png stdout | ||
===== 画像を修正して認識率を上げる ===== | ===== 画像を修正して認識率を上げる ===== | ||
+ | pdfから画像へ | ||
+ | pdfimages orgpin.pdf.pdf orgpic | ||
2値化 | 2値化 | ||
convert orgpic.png -threshold 9000 convpic.png | convert orgpic.png -threshold 9000 convpic.png | ||
解像度の変更 | 解像度の変更 | ||
- | convert orgpic.png -density 600 -units PixelsPerInch | + | convert orgpic.png -resize 200% convpic.png |
行 31: | 行 39: | ||
/ | / | ||
/ | / | ||
+ | |||
+ | ===== 再学習 ===== | ||
+ | https:// | ||
+ | |||
+ | |||
+ | 文字認識エンジンTesseract OCRで学習(jTessBoxEditor) | ||
+ | http:// | ||
+ | |||
+ | Tesseract4の再学習・追加学習手順まとめ | ||
+ | http:// | ||
tesseract-ocr.1589788185.txt.gz · 最終更新: 2020/05/18 16:49 by nabezo