Durchsuchen nach
Schlagwort: Tesseract

Linux: Convert a png file into a pdf file

Linux: Convert a png file into a pdf file

Important: I have only tested with png files. Other important notes: You have to install the programs tesseract and pandoc for this script. What is tesseract? A commercial quality OCR engine originally developed at HP between 1985 and 1995. In 1995, this engine was among the top 3 evaluated by UNLV. It was open-sourced by HP and UNLV in 2005. The website of tesseract. What is pandoc? This package provides a command-line executable that uses the pandoc library to convert…

Weiterlesen Weiterlesen

OCR-Software für Linux installiert

OCR-Software für Linux installiert

Ich habe mir mal des Themas OCR (optical character recognition) also Texterkennung in Linux angenähert. In der Vergangenheit habe ich die von der Post eingegangenen Sendungen zwar immer eingescannt, aber dann „nur“ als PDF-Datei abgespeichert. Gleichzeitig habe ich in meiner MongoDB Datenbank Collections erstellt, wo ich die einzelnen Postsendungen eingetragen habe. Jetzt ist mir aber die Idee gekommen, auch den Text von der Postsendung in die MongoDB Datenbank zu übertragen. Klar man könnte alles abtippen, was bei meiner Zehnfingersysteme (gelernt…

Weiterlesen Weiterlesen