TroLUG 2021-06#

Datum: 2021-06-03
Thema: Scannen und Texterkennung (OCR)

Anmeldungen#

  • Gunnar
  • Andy //logge mich nur als stiller Zuhörer ein und versuche soviel wie möglich mitzukriegen, trotz Besuch von der Buckligen Verw. zum Essen etc. … ;-)
  • Thorsten
  • Arne
  • Maic
  • Jonas
  • Harald
  • Sandro

Videokonferenz: https://bbb.daten.reisen/b/jon-mqr-zwu

Vorabinformationen:
https://wiki.ubuntuusers.de/SANE-Scanserver_im_Netzwerk/
https://wiki.ubuntuusers.de/scanbd/
https://de.wikipedia.org/wiki/Tesseract_%28Software%29
https://ocrmypdf.readthedocs.io/en/latest/index.html

Installation von ocrmypdf am Beispiel von Debian / Ubuntu:

sudo apt install ocrmypdf

Zusätzliche Sprache (deutsch) für Tesseract installieren:

sudo apt-get install tesseract-ocr-deu

git clone https://github.com/agl/jbig2enc
./autogen.sh
./configure && make
sudo make install

Umwandeln PDF-Datei in PDF-Datei mit durchsuchbarem Text (OCR):

ocrmypdf -l deu –output-type pdf input.pdf output+ocr.pdf

Quelle: https://ocrmypdf.readthedocs.io/en/latest/introduction.html

Protokoll#

Dokumentenscanner
https://www.brother.de/scanner/ads-2700w

Schrifterkennung in einer PNG Datei auf Standardausgabe. Für “-l deu” muss die deutsche Sprachunterstützung installiert sein.
$ tesseract -l deu Eingabe.png stdout

tesseract kann in den neueren Versionen zumindest Einzelseiten PDFs direkt ohne Umwandlung in PNG

meld: graphisches Frontend für diff
http://meldmerge.org/
https://repology.org/project/meld/versions

OCR-Layer einer PDF Datei hinzufügen. Die sidecar-Option speichert den erkannten Text zusätzlich in einer Textdatei.
$ ocrmypdf -l deu -sidecar datei.txt datei.pdf datei-ocr.pdf

Simple-scan: einfaches, aber praktisches Scan-Programm

ocrmypdf: PDF in durchsuchbares PDF umwandeln, gleichzeitig eine Textdatei mit dem erkannten Text erzeugen (– sidecar), Schrägscan korrigieren (–deskew) und Flecken entfernen (–clean-final und –remove background)
ocrmypdf –sidecar text.txt –deskew –clean-final –remove-background input.pdf output.pdf

bild im kitty terminal anzeigen
kitty +kitten icat bild.png