Suche Script um Wikipedia Tabelle in SQL Datenbank einzutragen
-
Auf der engl. Wikipedia gibt es ja immer diese Comparison Charts mit vielen Tabellen und Daten.
z.B. diese beiden Beispiele da:
http://en.wikipedia.org/wiki/Comparison_of_media_players
http://en.wikipedia.org/wiki/Comparison_of_text_editorsDummerweise kann man diese Tabellen leider nur sortieren, aber ich kann nicht sagen filter mir alle aus, die
1. nur unter Linux laufen
und
2. unter der GPL stehen.
Denn diese Informationen stehen in der Regel in 2 unterschiedlichen Tabellen.Da aber eine gute Datenbank so etwas schön und einfach ausfiltern kann wäre es toll ein Script zu haben, daß die Daten des Wikipedia Artikels in SQL Befehle umwandelt, so daß man das nur noch in seine Datenbank einzufügen braucht.
Meine Frage ist nun.
Hat von euch schon jemand so ein Script geschrieben, denn ich könnte es gut gebrauchen.
Ansonsten muß ich mir halt selber eines schreiben, aber ich wollte mir eigentlich die Arbeit sparen, daher frage ich erstmal hier.
-
Die Mediawiki-Syntax ist sehr mühsam zu parsen, insbesondere die für Tabellen. Kopier Dir das Zeug einfach in eine Tabellenkalkulation, da kannst Du dann auch sortieren und Filter drüberlegen, bzw. wenn Du unbedingt eine DB damit befüllen möchtest, exportierst Du eben als CSV. Der Import von CSV in eine Datenbank ist dann trivial.
-
Dieser Thread wurde von Moderator/in rüdiger aus dem Forum Rund um die Programmierung in das Forum Datenbanken verschoben.
Im Zweifelsfall bitte auch folgende Hinweise beachten:
C/C++ Forum :: FAQ - Sonstiges :: Wohin mit meiner Frage?Dieses Posting wurde automatisch erzeugt.
-
nman schrieb:
Die Mediawiki-Syntax ist sehr mühsam zu parsen, insbesondere die für Tabellen. Kopier Dir das Zeug einfach in eine Tabellenkalkulation, da kannst Du dann auch sortieren und Filter drüberlegen, bzw. wenn Du unbedingt eine DB damit befüllen möchtest, exportierst Du eben als CSV. Der Import von CSV in eine Datenbank ist dann trivial.
Danke, der Tipp ist genial.
Da muß man erstmal selbst drauf kommen, aber ich denk wohl immer zu kompliziert auch wenn's wohl einfach geht.
-
Ich habe jetzt auch mal nach Parser für die Mediawikie Syntax gesucht und bin dabei auf folgende gestoßen:
Für Python:
mwlib
http://code.pediapress.com/wiki/wiki/mwlib-installFür Ruby:
Mediacloth
http://mediacloth.rubyforge.org/Hat einer von euch diese beiden Parser mal ausprobiert?