Die hohe Größe kommt zustande, da die Seiten als Bilder gespeichert werden.
Je nachdem, was das für Dokumente sind, also Computer-/Handgeschrieben, Schriftart, Aufbau des Dokuments, Qualität des Drucks und Scans, könnte man die Seiten durch ein OCR-Programm jagen.
Dabei werden die Bilddaten wieder in Textdaten gewandelt, entsprechend geht die Größe von 8MB auf vielleicht 50-100kB runter, je nachdem was sonst noch drin ist.
Aber das funktioniert nur unter guten Bedingungen.
Computergeschrieben ist Pflicht. Die Schriftart sollte möglichst einfach sein (Arial z.B.). Kniffe, Falten und Verknitterungen sind ungünstig. Schiefe Scans sind schlecht, da durch eventuelles Drehen die Qualität gesenkt wird. Die Scanauflösung sollte möglichst hoch sein.
Beispiele wären z.B. Abbyy FineReader oder FreeOCR.
Ele