HTML "extracten"



  • Hi !

    Kann mir Jemand Tips geben wie ich Daten aus einer Webpage am besten "rausfiltere". ( Stelle mir das zB so vor, das ich eine Webpage habe mit einer Tabelle darauf, und das Programm den Inhalt jedes Tabellenkästchens in nen EditFeld oder so einträgt (oder in einer Var speichert wie auch immer).

    Bin für alle tips dankbar !

    (Benutze Borland C++ Builder 6)


  • Mod

    sag mal was du machen willst...

    momentan weiss ich nur, dass du irgendwelche Daten aus irgendeiner datei extrahieren willst...

    Idee: nimm nen HTML Parser - dann sollte das ja kein problem sein.

    Tags filtern geht auch easy, alles zwischen < und > ist n tag



  • Ich möchte eine HTML tabelle auslesen so das ich also mit den werten in der tabelle arbeiten kann... ist so ein html parser schon im c builder enthalten oder mus ich den selber programmieren ?



  • Weiss das keiner mehr ?



  • Auch wenn ich mich mit dem BCB nicht so gut auskenne, sollte sowas doch recht leicht machbar sein, einfach um Quelltext nach <table ...> suchen und dann entsprechend alle Tags rausfiltern, also <tr><td><th>, unter umständen auch noch <tbody> und solche Sachen.

    Da kannst dir natürlich auch den Source von nem offenem Browser ala Amaya oder Mozilla schnappen und ihn entsprechend umwandeln, wenn du HTML parsen willst.



  • Hab sowas mit einem XML-Parser recht flott gemacht.
    Zuerst schauen, dass das Dokument "well-formed" ist, also alle Tags, die keinen schließenden Tag haben wie z.B. br, rausfiltern und dann einfach über XPath auf den Inhalt zugreifen.


Anmelden zum Antworten