Y
Hi(gh)!
@Swordfish sagte in In Strings nach regulären Ausdrücken suchen:
Vielleicht erzählst Du mal zur Abwechslung was Du konkret erreichen willst anstatt wild rumzuschießen. HTML kannst Du mit regex sowieso nicht parsen.
Also: Mein Programm "oac" (Organ Ad Compressor) soll auf Festplatte gespeicherte eBay-Kleinanzeigen elektronischer Orgeln auf ihre essentielle Information reduzieren: Anzeigentext, Benutzername, Anzeigendatum, Ort und Preis und diese Informationen in ein rudimentäres HTML-Gerüst, gerade umfangreich genug, um als fehlerfreier HTML-Code angezeigt zu werden, einfügen; ferner sollen auch alle großformatigen Fotos des angebotenen Artikels eingebunden werden (im Original zu erkennen am Dateinamen "72_[kein Zeichen oder dreistellige laufende Nummer mit führenden Nullen].JPG"). Außerdem sollen die reduzierten HTML-Dateien mitsamt ihren Bilddateien in Ordner geschrieben werden, die fortlaufend nach dem Schema "YYYYMMDD_%03d" benannt sind, dies soll ebenfalls der Name der jeweiligen HTML-Datei sein.
Warum ich das mache? Es handelt sich um mehrere zehntausend Dateien, die mit all dem Overhead, der heutzutage mit kommerziellen HTML-Dateien einhergeht, rund 300 GB auf meiner Festplatte einnehmen. Nach einer solchen Reduktion auf die Kerninformation werden es voraussichtich noch 6 GB sein... die Dummenlösung wäre, jetzt einfach noch eine externe Festplatte zu kaufen (prollerolleroll) - aber dafür fehlt mir das Geld.
Die Kerninformationen der Anzeigen (darunter selbstverständlich auch das entweder aus dem Anzeigentext oder den Fotos ersichtliche Orgelmodell) will ich im Rahmen meiner GREENBOOK-E-Orgel-Datenbank in eine Marktspiegel-Statistik einpflegen - dies dann natürlich manuell.
Bis bald im Khyberspace!
Yadgar