tesseractを使って画像から文字を取得する
はじめに
tesseractを使って画像から文字列を取得したい場面があったので試してみる。
いわゆるOCR
OCRとは
OCR(Optical character recognition)とは光学文字認識のこと。
光学文字認識(こうがくもじにんしき、英: Optical character recognition)は、活字、手書きテキストの画像を文字コードの列に変換するソフトウェアである。画像はイメージスキャナーや写真で取り込まれた文書、風景写真(風景内の看板の文字など)、画像内の字幕(テレビ放送画像内など)が使われる[1]。
Wikipediaより引用 (https://ja.wikipedia.org/wiki/%E5%85%89%E5%AD%A6%E6%96%87%E5%AD%97%E8%AA%8D%E8%AD%98)
準備
OCRする画像を用意してみた。これはできるのか…
tesseractのインストール
|
|
tesseractを使う
|
|
↓こんなのがでてきた…。日本語はそもそも対応していないようね。URL
の部分だけそれっぽいけど、それでも間違えてるな。
|
|
参考
- How to use OCR from the command line in Linux? https://unix.stackexchange.com/questions/377359/how-to-use-ocr-from-the-command-line-in-linux
おわりに
あまり期待はできなかったけど、このコマンドのOCRの精度はそこまで高くないようだった。
他の方法もあり、PDFにして pdftotext
をするという方法もあるようだが、それも同じくらいの精度になりそう。
最近、GPT-4が出たので、どうやらそれの画像認識はかなり精度が高いみたい。
有料会員じゃないので試せないけど、API提供が来たら画像入れて試してみようかな。