Supportnet / Forum / Datenbanken
DB2 Large Objects
Frage
Ich verzweifle mal wieder an der DB2-Hilfe. Und beim Googlen finde ich auch nichts außer XML-bezogene Infos.
Also, ich möchte ganz viele PDF-Files in eine DB2-Datenbank packen. Eine Volltextsuche soll in diesen Objekten möglich sein.
Ich habe schon herausgefunden, daß es
[*]CLOB für Text-Objekte
[*]BLOB
[*]DBCLOB (?)
gibt. Ich weiß auch, daß ich in CLOBs irgendwie Volltextsuche machen kann.
Ist ein PDF-File ein Text-Objekt? Oder sollte ich es lieber als BLOB oder DBCLOB abspeichern? Was wäre besser? Wo genau ist der Unterschied zwischen BLOB und DBCLOB?
Danke!
Schnoof
Antwort 1 von draack
Hi,
schon mal einen Blick in ein PDF-Dokument mit einem normalen Texteditor geworfen? Sie dass wie Text aus? Wie willst Du darauf eine Volltextsuche machen? Dazu müsste die DB das PDF-Dokument selbst lesen können (ein eingebauter Acrobat Reader) - und mir ist nicht bekannt, dass es so etwas z.Zt. gibt.
DBCLOB steht für "DoubleByte"-CLOB.
BLOB ist als "Binary Large OBject" für Binärdaten gedacht (z.B. Grafiken, Filme, PDF-Dateien ...)
Tschö,
Volker
schon mal einen Blick in ein PDF-Dokument mit einem normalen Texteditor geworfen? Sie dass wie Text aus? Wie willst Du darauf eine Volltextsuche machen? Dazu müsste die DB das PDF-Dokument selbst lesen können (ein eingebauter Acrobat Reader) - und mir ist nicht bekannt, dass es so etwas z.Zt. gibt.
DBCLOB steht für "DoubleByte"-CLOB.
BLOB ist als "Binary Large OBject" für Binärdaten gedacht (z.B. Grafiken, Filme, PDF-Dateien ...)
Tschö,
Volker
Antwort 2 von Schnoof
Nu nicht so aggressiv, lieber Volker. Es ist mir durchaus klar, daß das nicht so einfach ist. Allerdings können Suchmaschinen (siehe Google) auch in pdf-Dateien suchen, und Lotus Notes kann es auch.
Nun reicht Lotus Notes nun leider nicht für diesen Fall aus. Also muß etwas Großes wie DB2 her. Mein Arbeitgeber stellt sich das einfach vor: wenn es in Lotus Notes geht, muß es auch in DB2 gehen. Ich selbst war auch skeptisch. Aber in Lotus Notes klappt das wirklich!
Sicher müßte da einen Art interner Leser integriert sein, um PDF-Files durchsuchen zu können.
Daher meine Frage: Welches Objekt ist allgemein für PDF-Dokumente passend? Deine Antwort ist BLOB. Sehr schön, bin ich schon um eins schlauer. Und dann meine zweite Frage: Ist in DB2 irgendetwas integriert, daß Volltextsuche auch in PDF-Dateien ermöglicht?
Danke!
Schnoof
Nun reicht Lotus Notes nun leider nicht für diesen Fall aus. Also muß etwas Großes wie DB2 her. Mein Arbeitgeber stellt sich das einfach vor: wenn es in Lotus Notes geht, muß es auch in DB2 gehen. Ich selbst war auch skeptisch. Aber in Lotus Notes klappt das wirklich!
Sicher müßte da einen Art interner Leser integriert sein, um PDF-Files durchsuchen zu können.
Daher meine Frage: Welches Objekt ist allgemein für PDF-Dokumente passend? Deine Antwort ist BLOB. Sehr schön, bin ich schon um eins schlauer. Und dann meine zweite Frage: Ist in DB2 irgendetwas integriert, daß Volltextsuche auch in PDF-Dateien ermöglicht?
Danke!
Schnoof
Antwort 3 von Nessus
Hi,
warum so kompliziert.....
Außerdem PDF in einer DB abzulegen...*aua*
Ich würde etwas anderst vorgehen. Es gibt das Kommandozeilentool "pdf2txt". Damit kannst Du aus einem PDF-File einen ASCII-Text erstellen. Diesen legst Du in die DB und lässt sie dann mit einer Volltextsuche laufen. Die PDF`s liegen außerhalb der DB und sind nur verlinkt.
Mit einen kleinen Batchfile sollte das alles zu erledigen sein.
Damit hast Du eine performantere Suche und hälst die DB recht klein und schnell.
HTH
Nessus
PS: Der Vergleich mit Google ist Müll, da Du gerade Äpfel mit Birnen vergleichst.
warum so kompliziert.....
Außerdem PDF in einer DB abzulegen...*aua*
Ich würde etwas anderst vorgehen. Es gibt das Kommandozeilentool "pdf2txt". Damit kannst Du aus einem PDF-File einen ASCII-Text erstellen. Diesen legst Du in die DB und lässt sie dann mit einer Volltextsuche laufen. Die PDF`s liegen außerhalb der DB und sind nur verlinkt.
Mit einen kleinen Batchfile sollte das alles zu erledigen sein.
Damit hast Du eine performantere Suche und hälst die DB recht klein und schnell.
HTH
Nessus
PS: Der Vergleich mit Google ist Müll, da Du gerade Äpfel mit Birnen vergleichst.
Antwort 4 von Schnoof
Ich werde drüber nachdenken, Nessus. Dieses Kommandozeilentool ist allerdings ein Unix-Tool, oder? Derzeit steht mir auf Arbeit noch kein Unix-Rechner zur Verfügung. Ich weiß auch nicht, ob ich so schnell einen kriege.
Warum vergleiche ich Äpfel mit Birnen, wenn ich feststelle, daß Google Volltextsuche auf PDF-Files machen kann?
Noch mal rein theoretisch (ohne Sinn und Unsinn zu diskutieren): Könnte ich eine solche Volltextsuche auf PDF-Dokumenten wie in Lotus Notes auch in DB2 machen?
Danke!
Schnoof
Warum vergleiche ich Äpfel mit Birnen, wenn ich feststelle, daß Google Volltextsuche auf PDF-Files machen kann?
Noch mal rein theoretisch (ohne Sinn und Unsinn zu diskutieren): Könnte ich eine solche Volltextsuche auf PDF-Dokumenten wie in Lotus Notes auch in DB2 machen?
Danke!
Schnoof
Antwort 5 von Nessus
Hi,
das Tool ist gibt es auch für Win.
Das vergleichen ist so zu verstehen, das Google über ganz andere technische Möglichkeiten verfügt.
Zu deiner theoretischen Frage: IMHO nein.
Nessus
das Tool ist gibt es auch für Win.
Das vergleichen ist so zu verstehen, das Google über ganz andere technische Möglichkeiten verfügt.
Zu deiner theoretischen Frage: IMHO nein.
Nessus
Antwort 6 von Schnoof
Hmm, dann habe ich bald ein kleines Problem am Hals, schätze ich. Ich durfte mir heute nämlich mal ein Beispiel ansehen.
Jede PDF-Datei besteht aus einer Ausgabe der hiesigen Tageszeitung. Und Zeitungslayout ist ja nun etwas komplex. Ich schätze, da kommt nur Blödsinn raus, wenn ich das in txt-Files umwandele.
Ich habe inzwischen herausgefunden, daß der DB2 Net Search Extender PDF-Dateien konvertieren kann, um in ihnen zu suchen. Hat irgendjemand Erfahrungen, wie intelligent die Konvertierung ist?
Danke!
Schnoof
Jede PDF-Datei besteht aus einer Ausgabe der hiesigen Tageszeitung. Und Zeitungslayout ist ja nun etwas komplex. Ich schätze, da kommt nur Blödsinn raus, wenn ich das in txt-Files umwandele.
Ich habe inzwischen herausgefunden, daß der DB2 Net Search Extender PDF-Dateien konvertieren kann, um in ihnen zu suchen. Hat irgendjemand Erfahrungen, wie intelligent die Konvertierung ist?
Danke!
Schnoof
Antwort 7 von draack
Hi,
wenn ich die Doku richtig verstehe, unterstützt "DB2 Net Search Extender" selbst nur Text, XML und HTML. Für PDF wäre wohl ein entsprechendes Plugin (welches bitte?) fällig.
Tschö,
Volker
wenn ich die Doku richtig verstehe, unterstützt "DB2 Net Search Extender" selbst nur Text, XML und HTML. Für PDF wäre wohl ein entsprechendes Plugin (welches bitte?) fällig.
Tschö,
Volker
Antwort 8 von Schnoof
Ich schätze, Du hast dann keine solchen Erfahrungen?
Ich weiß nicht mehr, in welchem der vielen Doks ich den Satz gefunden habe. Ich finde leider es leider auch nicht mehr. Ich weiß auch gar nicht mehr, ob es nun englisch oder deutsch war. Aber irgendwo stand drin, daß PDF-Dateien konvertiert werden können.
Da bin ich auch eher zufällig drüber gestolpert.
Wenn ich es doch noch finden sollte, dann poste ich es sofort.
Danke!
Schnoof
Ich weiß nicht mehr, in welchem der vielen Doks ich den Satz gefunden habe. Ich finde leider es leider auch nicht mehr. Ich weiß auch gar nicht mehr, ob es nun englisch oder deutsch war. Aber irgendwo stand drin, daß PDF-Dateien konvertiert werden können.
Da bin ich auch eher zufällig drüber gestolpert.
Wenn ich es doch noch finden sollte, dann poste ich es sofort.
Danke!
Schnoof

