Unerwünschte Bots/Spider/Crawler



  • Hallo,

    ich hab neulich mal in das Logfile meiner Webseite rein geschaut und festgestellt, dass da sehr viel Besuch von Bots kommt, deren Absicht mir nicht klar ist.

    Da es realtiv mühsam ist alle Bots einzeln zu recherchieren suche ich nun eine zuverlässige Liste die mir Auskunft gibt. Beim Googlen bin ich da z.B. auf http://www.bot-trap.de gestoßen. Da muss man sich aber erst anmelden und ich weiß auch nicht, ob die vertrauenswürdig sind.

    Wie geht Ihr gegen unerwünschte Bots vor und welche Methode nutzt Ihr, um sie auszusperren (o. ignorieren)?

    BTW: Wisst Ihr zufällig, was der Sistrix-Bot oder der Turnitin-Bot für Insekten sind? Ein Blick auf die Herrsteller-Seiten macht mir einen unsympathischen Eindruck.


  • Mod

    Erzeugen sie zuviel Traffic? Dann IP sperren.
    Ansonsten einfach ignorieren.



  • Halten die sich nicht an eine robots.txt oder hast du gar keine?



  • @shade: Zu viel Traffic erzeugen sie im Moment nocht nicht. Aber ich möchte nicht, dass meine Seite automatisch von Kriechern durchwühlt wird, von denen ich nicht weiß zu welchem Zweck bzw. für wen sie das tun.

    @geeky: Doch, die robots.txt gibts, hab da aber keine user-agents ausgesperrt, da eben oft grade die unerwünschten Kriecher sich nicht dran halten.

    Da ich ohnehin überall PHP-Seiten verwende, werde ich wohl einfach eine Blacklist von user-agents erstellen und denen eine leere oder Dummy Seite präsentieren. Klar man das mit einen Fake-Agent-String umgehen, aber es ist schonmal ein erster Schritt.



  • robot schrieb:

    @shade: Zu viel Traffic erzeugen sie im Moment nocht nicht. Aber ich möchte nicht, dass meine Seite automatisch von Kriechern durchwühlt wird, von denen ich nicht weiß zu welchem Zweck bzw. für wen sie das tun.

    Kannst du eh nicht verhindern, insofern ist Shades Rat genau der richtige: Wenn sie keine spürbare Last verursachen, sind sie deine Zeit nicht wert. Sie schaden dir ja schließlich nicht.

    robot schrieb:

    @geeky: Doch, die robots.txt gibts, hab da aber keine user-agents ausgesperrt, da eben oft grade die unerwünschten Kriecher sich nicht dran halten.

    Woher weißt du das, wenn du keine User-Agents ausgesperrt hast? Bots, die robots.txt ignorieren, werden wohl kaum einen konstanten User-Agent-String senden, damit du sie dann einfach mit deinem PHP-Trick aussperren kannst.



  • er kann ja einfach alle unbekannten usr agents sperren.
    Klar kann er somit unerwünscht irgendwelche exoten aussperren aber die idee ist, wie andere schon sagten, ja sowieso nicht geeignet.



  • Einfach die IP´s sperren. Mit der htacces da braucht es am wenigsten Rechenzeit:

    order allow,deny
    deny from 192.168.2.100
    allow from all
    

  • Mod

    Garnicht - du sperrst die IPs die die ungewünschte Last erzeugen. Und diese Info steht in deinen eigenen Logdateien.

    Generell willst du aber dass deine Seite gecrawlt wird - also wäre ein generelles sperren unpraktisch.



  • Bot-trap kannst du aber ruhig verwenden. Habe das selbst im Einsatz. Die Anmeldung ist etwas nervig. Damals musste ich auf der Seite auch erstmal das Script finden. Aber danach lief alles bestens. Das Script lässt sich mit einem include einbinden.



  • fffffffg schrieb:

    er kann ja einfach alle unbekannten usr agents sperren.

    Großartige Idee. Einfach mal ne Liste von 10000 UA bei jedem request durchsuchen.


Anmelden zum Antworten