OCR-Software für Linux installiert
Ich habe mir mal des Themas OCR (optical character recognition) also Texterkennung in Linux angenähert.
In der Vergangenheit habe ich die von der Post eingegangenen Sendungen zwar immer eingescannt, aber dann „nur“ als PDF-Datei abgespeichert. Gleichzeitig habe ich in meiner MongoDB Datenbank Collections erstellt, wo ich die einzelnen Postsendungen eingetragen habe. Jetzt ist mir aber die Idee gekommen, auch den Text von der Postsendung in die MongoDB Datenbank zu übertragen.
Klar man könnte alles abtippen, was bei meiner Zehnfingersysteme (gelernt in der Ausbildung zum Bürokaufmann noch auf Schreibmaschine) doch recht flott gehen kann, aber ich wollte es auch endlich elektronisch machen.
Bei meinem zweiten Job in Köln bei einer kleinen Firma, wo ich die ganzen Ausschreibungen eingescannt hatte und mit einer OCR-Software unter Windows erkannt hatte. Auch damals hatte ich das in eine Datenbank übertragen. Wir hatten damals die Texte für Kunden veröffentlicht.
Jetzt wollte ich das knapp 8 Jahre später auch mit Linux machen. Unter Linux ist das eher amateurhaft, aber für den Privatgebrauch für kleine Texte wie bei mir aber ausreichend.
Erst einmal habe ich mich auf die für die Linux-Welt bekannte Seite vom Wiki von Ubuntuusers geschaut. Es dient für eine generelle Übersicht allemal, auch für andere User. Das Wiki von Arch Linux ist auch sehr ausführlich. Es sei gesagt, dass die Programme von den einzelnen Distributionswelten etwas anders heißen, aber wie gesagt als erste Anlaufstation immer gut geeignet.
Man braucht erst einmal das Programm tesseract . Mit
dnf info *tesser*
habe ich allgemein gesucht, wie das nun in Fedora heißt, weil in Ubuntu heißt es tesseract-ocr und wurde auch gefunden. Es gibt ein Paket tesseract. Mit
dnf info tesseract
habe ich mir weitere Informationen geholt und wollte es mit
sudo dnf install tesseract
installieren, doch es war bereits installiert. Doch ich wollte mal ausnahmsweise etwas für den Einstieg mit grafischer Oberfläche. Mit Sicherheit werde ich auch ausloten, wie das rein auf der Kommandozeile funktioniert. Auf der allgemeinen Seite einer Übersicht von Texterkennungs-Software von Ubuntuusers habe ich mir das Programm gImageReader näher angeschaut. Ich brauche für den Privatgebrauch etwas einfaches.
Um den Fedora Namen für das Programm zu finden, bin ich auf die Seite von den Fedora Packages gegangen und dort einfach „gImageReader“ eingegeben und somit hatte ich den richtigen Programmnamen. Mit
sudo dnf install gimagereader-gtk
installiert und fertig.
Die Vorgehensweise ist recht einfach.
Ich scanne erst das Dokument mit dem Programm Simple-Scan ein. Dann öffne ich gImageReader und lade die Datei hoch. Dann mache ich einen ersten Testlauf und wenn die Erkennung doch recht bescheiden ist, muss man mit der Helligkeit und dem Kontrast im Programm gImageReader etwas spielen. Danach wird die Erkennung besser.
Um eine Nachbearbeitung kommt man auf keinen Fall herum.
Klar, wenn man das massenhaft machen möchte, müsste man sich andere Programme suchen. Aber für 1 oder 2 Dokumente pro Monat, wo man das als Privatperson braucht, ist dieses einfache Programm vollkommen ausreichend – aus meiner Sicht.
Ich kopiere dann den Text in meine MongoDB Datenbank über MongoDB Compass. Es ist möglich, den Text vom rechten Fenster (Unbenannt1) auch als Textdatei zu speichern.