1.8k Aufrufe
Gefragt in SW-Sonstige von
Hallo,

arbeite unter WinXP mit dem MS Office Document Imaging-Programm "MSPVIEW.EXE" (C:\Program Files\Common Files\Microsoft Shared\MODI\11.0).

Hier kann man wunderbar ein *.tif textmäßig auslesen und nach Word übertragen. Dazu wird nach dem Button "Texterkennung mittels OCR" der erkannte Text in einen vorgegebenen Pfad als *.htm abgespeichert. Dieses *.htm wird dann automatisch im Word importiert.

Die Stelle zur Pfadänderung habe ich enddeckt. Aber wie kann ich das OCR-Ausfgabeformat *.htm in *.txt ändern?
In der Hilfe dazu habe ich nix gefunden. Oder muß generell eine Treiber-Einstellung angepasst werden?

Vielen Dank für Eure Hilfe.

Gruß, netkid

3 Antworten

0 Punkte
Beantwortet von stk Mitglied (257 Punkte)
Hallo,

ich glaube nicht, dass du das Format ändern kannst, da MS in der htm-Datei noch Formatierungsangaben unterbringt.
Lasse mich aber auch gern eines Besseren belehren.
Wofür brauchst du es denn als txt, wenn die Frage erlaubt ist.

Gruß, Steffen
0 Punkte
Beantwortet von
Hallo Steffen,

das txt-Format brauche ich, weil ich die darin enthaltenen Daten weiterverarbeiten will. Das kann man gut mit einem vbs-Script oder in vba. (In Html bin ich kein Experte)

Gruß, Netkid
0 Punkte
Beantwortet von stk Mitglied (257 Punkte)
Ich weiß nicht obs dir hilft, aber wie wäre es, wenn du das resultierende Word-Dokument als txt abspeicherst und mit diesem weiter arbeitest.
...