![]() |
![]() ![]() |
![]() |
![]()
Post
#1
|
|
Grupa: Zarejestrowani Postów: 45 Pomógł: 0 Dołączył: 30.04.2006 Ostrzeżenie: (0%) ![]() ![]() |
Od pewnego czasu mam problem z niechcianym botem ktory przedstawia się jako:
Cytat SimilarPages/Nutch-1.0-dev (SimilarPages Nutch Crawler; http://www.similarpages.com; info at similarpages dot com) Bot wpada co jakiś czas do mojego serwisu z kilkudziesięciu jak nie kilkuset IPków na raz... Przykładowe IP: Cytat 67.202.8.122 75.101.225.66 67.202.44.12 67.202.20.85 75.101.214.94 174.129.82.95 75.101.228.138 174.129.87.231 174.129.173.123 67.202.3.197 75.101.195.157 67.202.25.181 174.129.179.146 67.202.43.196 174.129.179.71 174.129.81.100 174.129.160.119 67.202.2.237 67.202.9.246 75.101.254.25 67.202.2.237 174.129.124.210 174.129.95.209 174.129.191.125 174.129.173.51 174.129.174.165 174.129.175.236 Na razie zbanowałem przez .htaccess całą klasę 174.129.* bo z niej najwięcej jest IPków tylko teraz pytanie co "wyciąłem" ? Czy userzy z PL mogą mieć IPki w tej klasie? Dodatkowo jak zbanować tego bota po useragencie? Próbowałem na wiele sposobów i żaden nie skutkuje :/ Co musze dokładnie wklepać do .htaccess aby go wyciąć? -------------------- Pozdrawiam,
Michał Kryński |
|
|
![]()
Post
#2
|
|
![]() Grupa: Moderatorzy Postów: 15 467 Pomógł: 1451 Dołączył: 25.04.2005 Skąd: Szczebrzeszyn/Rzeszów ![]() |
Utwórz sobie robots.txt z odpowiednim user-agent, który wykluczy tego pajączka.
-------------------- ![]() ZCE :: Pisząc PW załączaj LINK DO TEMATU i TYLKO w sprawach moderacji :: jakiś błąd - a TREŚĆ BŁĘDU? :: nie ponaglaj z odpowiedzią via PW! |
|
|
![]()
Post
#3
|
|
![]() Developer Grupa: Moderatorzy Postów: 3 045 Pomógł: 290 Dołączył: 20.01.2007 ![]() |
Najszybszy sposób to dodać w indexie:
Utwórz sobie robots.txt z odpowiednim user-agent, który wykluczy tego pajączka. Wątpię że taki bot będzie czytał plik robot.txt |
|
|
![]()
Post
#4
|
|
Grupa: Zarejestrowani Postów: 45 Pomógł: 0 Dołączył: 30.04.2006 Ostrzeżenie: (0%) ![]() ![]() |
Cytat Wątpię że taki bot będzie czytał plik robot.txt W logach apache widziałem że sprawdza plik robots.txt tyle że tam już to zablokowalem ale jakoś mało skutecznie.Na razie po blokowałem 4 zakresy IP z których korzysta bot. Ogólnie w necie znalazłem liste ponad 300 adresów IP tego bota... A jeżeli chce zbanować useragenta to mam wklepać cały useragent: Cytat SimilarPages/Nutch-1.0-dev (SimilarPages Nutch Crawler; http://www.similarpages.com; info at similarpages dot com) czy wystarczy (tak jak to ma miejsce między innymi z Googlebotem) Cytat SimilarPages/Nutch-1.0-dev ?
-------------------- Pozdrawiam,
Michał Kryński |
|
|
![]()
Post
#5
|
|
![]() Grupa: Zarejestrowani Postów: 2 148 Pomógł: 230 Dołączył: 26.03.2008 Ostrzeżenie: (0%) ![]() ![]() |
wystarczy samo SimilarPages
![]() -------------------- ET LINGUA EIUS LOQUETUR IUDICIUM
|
|
|
![]()
Post
#6
|
|
![]() Grupa: Moderatorzy Postów: 15 467 Pomógł: 1451 Dołączył: 25.04.2005 Skąd: Szczebrzeszyn/Rzeszów ![]() |
Cytat Wątpię że taki bot będzie czytał plik robot.txt To chyba typowy bot jakiejś wyszukiwarki; myślę, że powinien bez problemu czytać robots.txt. -------------------- ![]() ZCE :: Pisząc PW załączaj LINK DO TEMATU i TYLKO w sprawach moderacji :: jakiś błąd - a TREŚĆ BŁĘDU? :: nie ponaglaj z odpowiedzią via PW! |
|
|
![]() ![]() |
![]() |
Wersja Lo-Fi | Aktualny czas: 22.06.2025 - 18:08 |