Filter für Webseitensuche



  • Hi,

    ich will alle Wikipedia-Seiten, auf denen das Wort Xperia und stift vorkommen, suchen. Kennt sich zufällig jemand mit der erweiterten Googlesuche oder einer anderen Suchmachine aus, und kann mir sagen, wie ich das hinbekomme?

    Versucht habe ich das: site:de.wikipedia.org stift AND "Xperia"
    Aber das funktioniert nicht so richtig. Es fehlt z.B. eine Seite, in der das Wort Bleistift vorkommt.

    Ich hoffe, jemand kann mir weiterhelfen 🙂

    Danke im Voraus.


  • Mod

    out schrieb:

    Versucht habe ich das: site:de.wikipedia.org stift AND "Xperia"
    Aber das funktioniert nicht so richtig. Es fehlt z.B. eine Seite, in der das Wort Bleistift vorkommt.

    Soweit ich mich mit dieser Art von Datenbanken auskenne (und ich weiß auch nicht 100%, was Google genau benutzt) ist es eher unwahrscheinlich, dass das möglich ist. An ein Wort was dranhängen, also Blei -> Bleistift, könnte gehen, aber nicht Stift -> Bleistift.

    Soweit ich weiß, und die Googleanleitung bestätigt dies, unterstützt Google aber nur kleine Variationen (Also z.B. Stift -> Stifte) und führt diese auch automatisch aus. Große Ersetzungen wie Blei -> Bleistift kann man jedoch nicht erzwingen.

    Möglicherweise können andere Maschinen so etwas wie Blei -> Bleistift, aber wie schon gesagt, ist Stift -> Bleistift aus technischen Gründen eher unwahrscheinlich.

    Es ist möglich, die gesamte Wikipedia herunterzuladen und dann direkt zu durchsuchen. Da du keine Suchindex aufbauen möchtest, wärst du dann nicht durch die technischen Möglichkeiten eingeschränkt.



  • SeppJ schrieb:

    out schrieb:

    Versucht habe ich das: site:de.wikipedia.org stift AND "Xperia"
    Aber das funktioniert nicht so richtig. Es fehlt z.B. eine Seite, in der das Wort Bleistift vorkommt.

    Soweit ich mich mit dieser Art von Datenbanken auskenne (und ich weiß auch nicht 100%, was Google genau benutzt) ist es eher unwahrscheinlich, dass das möglich ist. An ein Wort was dranhängen, also Blei -> Bleistift, könnte gehen, aber nicht Stift -> Bleistift.

    Soweit ich weiß, und die Googleanleitung bestätigt dies, unterstützt Google aber nur kleine Variationen (Also z.B. Stift -> Stifte) und führt diese auch automatisch aus. Große Ersetzungen wie Blei -> Bleistift kann man jedoch nicht erzwingen.

    Möglicherweise können andere Maschinen so etwas wie Blei -> Bleistift, aber wie schon gesagt, ist Stift -> Bleistift aus technischen Gründen eher unwahrscheinlich.

    Jop, da hast du wohl Recht. Nachdem ich nun alle Google Search Operators angeschaut habe und mir etwas zu Word Stemming durchgelesen habe, kann eine Suchmaschine (zumindest Google) nicht von Stift auf Bleistift schließen.

    Wäre cool, wenn Google eine Suche mit Regex können würde. Aber das ist wohl eher ein Wunschtraum 😃

    SeppJ schrieb:

    Es ist möglich, die gesamte Wikipedia herunterzuladen und dann direkt zu durchsuchen. Da du keine Suchindex aufbauen möchtest, wärst du dann nicht durch die technischen Möglichkeiten eingeschränkt.

    Stimmt, daran habe ich nicht gedacht. Eine einfache und effektive Methode 🙂


  • Mod

    out schrieb:

    Wäre cool, wenn Google eine Suche mit Regex können würde. Aber das ist wohl eher ein Wunschtraum 😃

    Dafür müsste der Suchmaschine der gesamte Klartext des Internets (beziehungsweise der zu durchsuchenden Seiten) vorliegen. Ich glaube, das hat nicht einmal die NSA. Üblicherweise haben die (ganz einfach ausgedrückt) einen Index mit allen möglichen Worten und eine Tabelle, auf welchen Seiten dieses Wort vorkommt.



  • @SeppJ
    Klartext hat Google genug vorliegen ("webcache.googleusercontent.com").
    Nur nicht in einer Form die LIKE '%foo%' -artige Queries unterstützt.

    @out
    Mit der Mächtigkeit oder nicht-Mächtigkeit des Stemmers hat das nun weniger zu tun.
    Was Google z.B. sehrwohl kann und macht ist nach Wörtern mit gleicher oder ähnlicher Bedeutung zu suchen. Anders gesagt: Google verwendet einen Thesaurus.

    Beispiel:
    https://www.google.com/search?q=site%3Awww.motor-talk.de+selbstmord+doors&safe=off
    Im ersten Ergebnis ist hier das "Suizid" in "Suizid Doors" fett gedruckt, was Bedeutet dass Google es für eine Übereinstimmung mit dem Suchtext darstellt.
    D.h. Google findet "Suizid" obwohl man nach "Selbstmord" gesucht hat.

    Was zu funktionieren scheint, obwohl es micht selbst etwas wundert:
    site:de.wikipedia.org (Stift OR Bleistift) AND "Xperia"


Anmelden zum Antworten