Generierung von HTML aus PDF



  • Hallo Ihr,

    habt Ihr eine Idee, wie man zum Beispiel mit Hilfe von Java folgendes Problem lösen kann ?
    Ich will ein Programm schreiben, welches eine HTML-Seite generiert. Basis sind zwei Dateien: eine PDF-Datei, die von den Formatierungen, Schriften und Grafiken, als dem Gesamtaufbau, genau so aussieht, wie die HTML-Seite später aussehen soll. Zudem habe ich eine JPEG- und zugehörige JavaScript-Datei, aus denen spätere Linksensitive Flächen abgeleitet werden sollen. Die JavaScript-Datei enthält also Positions- und Größenangaben von Rechtecken, die beim Überfahren mit der Maus Rahmen zeigen. Innerhalb dieser Rahmen soll das Rechteck dann anklickbar sein (Beispiel: www.epaper.rhein-zeitung.de/04/12/24/BK/02/seite.html).
    Konkret geht es darum, automatisch aus einer E-Paper-Zeitungsversion eine HTML-Seite in Zeitungsseitendesign zu generieren. Das heißt, ich lade die PDF-Datei und z.B. die JavaScript-Datei mit den Postionsangaben in einen Ordner und das Java-Programm baut daraus einen HTML-Quellcode.
    Das Programm PDFtoHTML geht so nicht, da der HTML-Code eben in einer bestimmten Form sein muss. Da muss ich wohl selbst etwas tippen... Oder eben ein anderes Programm abändern. Aber welches ?? 😕
    Ich weiß, dass das eine sehr komplexe Sache ist, ich möchte aber lediglich einen Einstieg in das Problem finden. Ich weiß zur Zeit nicht, wie ich wo ansetzen kann.
    Bitte fragt nicht nach dem Sinn dieses Programm, es hat einen Sinn, das könnt Ihr glauben. Ich muss definitiv eine HTML-Seite ohne JPEG's haben.

    Vielen Dank Euch allen schonmal im Voraus !



  • Hi

    gibts vileicht ne möglichkeit etwas vorher aufzusetzen? Bervor die daten in ein PDF convertiert worden sind. (irgendwoher müssen die Texte ja stammen, und irgendwer muss ja eine bearbeitbares format haben).

    Solang nur text drinn ist könnte man auch mit OCR arbeiten. pdf in hochauflösendes bild umwandeln umd ocr drüberlaufen lassen. danach den generirten text weiterverwenden. ( problem wird die ocr machen. stabilität, fehleranfälligkeit, performance )

    PDF direcktauslesen. Problem ist, das das pdf gewissen anforderungen genügen muss. Text muss als text abgespeichert sein, Text muss auslesbar sein. und ob es dazu programme gibt die du unter java verwenden kanst weiss ich nicht. standalone programme gibt es scheindsich. hab mal in der ct was darüber gelesen.

    gruss



  • Naja, also ich habe eigentlich nur die erwähnten Dateien, wenn ich die Texte selbst hätte und die Vorgabe, wie sie auszusehen haben, dann wäre ich nicht aufs PDF angewiesen. Die Frage ist eben, wie man an den Quellcode einer PDF-Datei rankommt. Ich meine, es gibt ja schon PDFtoHTML-Konverter, die müssen ja gewissermaßen auch an die Texte und die Formatierungen der PDF-Dokumente rankommen. Eigentlich muss ich nur wissen, wie man automatisiert, also ohne selbst ein OCR-Programm öffnen zu müssen, an den Inhalt eines PDFs ran kommt. Denn das was ich berarbeiten will umfasst so viele Seiten, da wären Handgriffe zu aufwendig.



  • Bidde sehr, hier sind zwei Parser-APIs für Java:
    http://www.jpedal.org/
    http://www.lowagie.com/iText/

    PS: Hab nur mal schnell bei Google gesucht, also weiß ich jetzt nicht 100% ob es das ist was du suchst.



  • endscheid dich mal wo weitergepostet werden soll.

    copy past und einfach die programiersprache austauschen find ich zumindestens nicht net



  • hallo,
    coock dir diesen link . vielleicht ist das interessant für dich
    http://www.javamagazin.de/itr/online_artikel/psecom,id,441,nodeid,11.html

    Gruss
    youssef



  • Mit iText existiert eine leistungsfähige Bibliothek für die Erstellung von PDF-Dateien.

    Mit iText existiert in der Java-Welt eine leistungsfähige und stabile Bibliothek für die Erzeugung von PDF-Dateien.

    Danke, aber ich suche genau das Gegenteil ! PDF in HTML !


Anmelden zum Antworten