![]() |
![]() |
![]()
Post
#1
|
|
Grupa: Zarejestrowani Postów: 117 Pomógł: 0 Dołączył: 12.11.2008 Ostrzeżenie: (0%) ![]() ![]() |
1. Na jakiej zasadzie Google uznaje mnie za bota (częstotliwość żądań itp.)?
2. Po ilu żądaniach (jeśli blokada występuje po x ż/h czy coś takiego) Google blokuje mnie i wysyła na http://www.google.com/sorry/ ? 3. Po jakim czasie blokada mija? 4. To już bardziej programistyczne: używam file_get_contents(link do wyszukiwania w google). Da się ominąć tę blokadę (bo curlem chyba można zapisywać cookies do podanego pliku (chyba CURLOPT_COOKIEJAR => nazwa_pliku), a potem ręcznie dopisać do tego pliku ciacho, które dostanę po przepisaniu kodu)? 5. Albo co zrobić, aby Google nie wykryło mojego skryptu? 6. I nie chcę skryptem łamać captchy - dla mnie to niewykonalne, bo w ogóle nie znam GD. |
|
|
![]() |
![]()
Post
#2
|
|
Grupa: Zarejestrowani Postów: 65 Pomógł: 9 Dołączył: 22.09.2006 Ostrzeżenie: (0%) ![]() ![]() |
1. Na jakiej zasadzie Google uznaje mnie za bota (częstotliwość żądań itp.)? 2. Po ilu żądaniach (jeśli blokada występuje po x ż/h czy coś takiego) Google blokuje mnie i wysyła na http://www.google.com/sorry/ ? 3. Po jakim czasie blokada mija? 4. To już bardziej programistyczne: używam file_get_contents(link do wyszukiwania w google). Da się ominąć tę blokadę (bo curlem chyba można zapisywać cookies do podanego pliku (chyba CURLOPT_COOKIEJAR => nazwa_pliku), a potem ręcznie dopisać do tego pliku ciacho, które dostanę po przepisaniu kodu)? 5. Albo co zrobić, aby Google nie wykryło mojego skryptu? 6. I nie chcę skryptem łamać captchy - dla mnie to niewykonalne, bo w ogóle nie znam GD. 1. tak, częstotliwość i niepoprawne nagłówki 2. 3. sprawdź i się podziel informacją 4. nie wiem o co chodzi, ale da się edytować cookie. 5. jedyną możliwością jest odpytywanie z różnych ip (choć całkiem możliwe, że częściowo różne nagłówki wystarczą, np. zmieniać przeglądarki i wtedy również ciastka różne przechowywać) |
|
|
![]()
Post
#3
|
|
Grupa: Zarejestrowani Postów: 117 Pomógł: 0 Dołączył: 12.11.2008 Ostrzeżenie: (0%) ![]() ![]() |
Cytat niepoprawne nagłówki Jakie i jak je zmienić?Cytat sprawdź i się podziel informacją 2. Może około 1500: dla 3 słów kluczowych, pierwsze 1000 wyników (10 zapytań z $_GET['num']=100), odświeżałem stronę podczas robienia skryptu około 50 razy, więc: 3*10*50=1500. Jutro sprawdzę dokładniej (bo jeszcze mam bana ;p): zapamiętam, ile razy odświeżałem stronę. 3. Godzina minęła, ban aktywny. Czekam dalej.Cytat nie wiem o co chodzi, ale da się edytować cookie. Jak wchodzisz skryptem na jakąś stronę, to na tej stronie nie widać cookies z Twojej przeglądarki. CURL'em (setopt) się da, ale cURL'a nie używam, bo mi na localhoście nie działa (nie jest zainstalowany, a wgranie i aktywowanie liba niczego nie zmienia).Cytat jedyną możliwością jest odpytywanie z różnych ip (choć całkiem możliwe, że częściowo różne nagłówki wystarczą, np. zmieniać przeglądarki i wtedy również ciastka różne przechowywać) Inne IP powinno wystarczyć... Następne pytanie: da się skryptem zmienić IP (ale nie przez jakieś proxy, bo bym musiał dać ini_set('max_execution_time',1000000)).
|
|
|
![]()
Post
#4
|
|
Grupa: Zarejestrowani Postów: 65 Pomógł: 9 Dołączył: 22.09.2006 Ostrzeżenie: (0%) ![]() ![]() |
Jakie i jak je zmienić? 2. Może około 1500: dla 3 słów kluczowych, pierwsze 1000 wyników (10 zapytań z $_GET['num']=100), odświeżałem stronę podczas robienia skryptu około 50 razy, więc: 3*10*50=1500. Jutro sprawdzę dokładniej (bo jeszcze mam bana ;p): zapamiętam, ile razy odświeżałem stronę. 3. Godzina minęła, ban aktywny. Czekam dalej. Jak wchodzisz skryptem na jakąś stronę, to na tej stronie nie widać cookies z Twojej przeglądarki. CURL'em (setopt) się da, ale cURL'a nie używam, bo mi na localhoście nie działa (nie jest zainstalowany, a wgranie i aktywowanie liba niczego nie zmienia). Inne IP powinno wystarczyć... Następne pytanie: da się skryptem zmienić IP (ale nie przez jakieś proxy, bo bym musiał dać ini_set('max_execution_time',1000000)). Wszystkie jakie wysyła przeglądarka należałoby zasymulować. Podejrzeć je możesz jakąś wtyczką, np. tamper data dla ff. Przez fsockopen i file_get_contents da się odczytać zwracane cookie zapewne. Inne IP na pewno wystarczy, ale ip nie da się w łatwy sposób "zmienić" (programowo się nie da), dlatego podsunąłem pomysł z nagłówkami, które da się łatwo zmieniać. Powinno to działać, albo chociaż zwiększyć możliwy limit. |
|
|
![]()
Post
#5
|
|
Developer Grupa: Moderatorzy Postów: 2 844 Pomógł: 20 Dołączył: 25.11.2003 Skąd: Olkusz ![]() |
Nic na to nie poradzisz, za częste requesty - możesz próbować przez proxy ale to na dłuższa metę i tak nic nie da. Bardzo często też tak się dzieje jak jest się w sieci osiedlowej i dużo osób na jednym IP korzystań z google.
Google zapamiętuje adres IP i częstotliwość pobierania danych przez nie. |
|
|
![]()
Post
#6
|
|
Grupa: Zarejestrowani Postów: 65 Pomógł: 9 Dołączył: 22.09.2006 Ostrzeżenie: (0%) ![]() ![]() |
Nic na to nie poradzisz, za częste requesty - możesz próbować przez proxy ale to na dłuższa metę i tak nic nie da. Bardzo często też tak się dzieje jak jest się w sieci osiedlowej i dużo osób na jednym IP korzystań z google. Google zapamiętuje adres IP i częstotliwość pobierania danych przez nie. Właśnie z tego powodu (sieci osiedlowych z jednym IP) wywnioskowałem, że powinni blokować nie tylko po samym IP. Powinni to mieć jakoś bardziej liberalnie zrobione. Może będąc zalogowanym na google, limity są przypisywane do konta i mimo wykorzystania "puli" dla adresu IP, osoba zalogowana może nadal korzystać? |
|
|
![]()
Post
#7
|
|
Grupa: Zarejestrowani Postów: 300 Pomógł: 32 Dołączył: 31.07.2006 Ostrzeżenie: (0%) ![]() ![]() |
Zalogowanie na konto nie pomaga.
|
|
|
![]()
Post
#8
|
|
Grupa: Moderatorzy Postów: 15 467 Pomógł: 1451 Dołączył: 25.04.2005 Skąd: Szczebrzeszyn/Rzeszów ![]() |
A może by się tak zainteresować Google Search API...?
|
|
|
![]() ![]() |
![]() |
Aktualny czas: 23.08.2025 - 08:20 |