Witaj Gościu! ( Zaloguj | Rejestruj )

Forum PHP.pl

> Pytania dotyczące blokady Google - 403, http://www.google.com/sorry/
infoo1
post
Post #1





Grupa: Zarejestrowani
Postów: 117
Pomógł: 0
Dołączył: 12.11.2008

Ostrzeżenie: (0%)
-----


1. Na jakiej zasadzie Google uznaje mnie za bota (częstotliwość żądań itp.)?
2. Po ilu żądaniach (jeśli blokada występuje po x ż/h czy coś takiego) Google blokuje mnie i wysyła na http://www.google.com/sorry/ ?
3. Po jakim czasie blokada mija?
4. To już bardziej programistyczne: używam file_get_contents(link do wyszukiwania w google). Da się ominąć tę blokadę (bo curlem chyba można zapisywać cookies do podanego pliku (chyba CURLOPT_COOKIEJAR => nazwa_pliku), a potem ręcznie dopisać do tego pliku ciacho, które dostanę po przepisaniu kodu)?
5. Albo co zrobić, aby Google nie wykryło mojego skryptu?
6. I nie chcę skryptem łamać captchy - dla mnie to niewykonalne, bo w ogóle nie znam GD.
Go to the top of the page
+Quote Post
 
Start new topic
Odpowiedzi (1 - 7)
djstrong
post
Post #2





Grupa: Zarejestrowani
Postów: 65
Pomógł: 9
Dołączył: 22.09.2006

Ostrzeżenie: (0%)
-----


Cytat(infoo1 @ 24.01.2009, 16:53:25 ) *
1. Na jakiej zasadzie Google uznaje mnie za bota (częstotliwość żądań itp.)?
2. Po ilu żądaniach (jeśli blokada występuje po x ż/h czy coś takiego) Google blokuje mnie i wysyła na http://www.google.com/sorry/ ?
3. Po jakim czasie blokada mija?
4. To już bardziej programistyczne: używam file_get_contents(link do wyszukiwania w google). Da się ominąć tę blokadę (bo curlem chyba można zapisywać cookies do podanego pliku (chyba CURLOPT_COOKIEJAR => nazwa_pliku), a potem ręcznie dopisać do tego pliku ciacho, które dostanę po przepisaniu kodu)?
5. Albo co zrobić, aby Google nie wykryło mojego skryptu?
6. I nie chcę skryptem łamać captchy - dla mnie to niewykonalne, bo w ogóle nie znam GD.

1. tak, częstotliwość i niepoprawne nagłówki
2. 3. sprawdź i się podziel informacją
4. nie wiem o co chodzi, ale da się edytować cookie.
5. jedyną możliwością jest odpytywanie z różnych ip (choć całkiem możliwe, że częściowo różne nagłówki wystarczą, np. zmieniać przeglądarki i wtedy również ciastka różne przechowywać)
Go to the top of the page
+Quote Post
infoo1
post
Post #3





Grupa: Zarejestrowani
Postów: 117
Pomógł: 0
Dołączył: 12.11.2008

Ostrzeżenie: (0%)
-----


Cytat
niepoprawne nagłówki
Jakie i jak je zmienić?
Cytat
sprawdź i się podziel informacją
2. Może około 1500: dla 3 słów kluczowych, pierwsze 1000 wyników (10 zapytań z $_GET['num']=100), odświeżałem stronę podczas robienia skryptu około 50 razy, więc: 3*10*50=1500. Jutro sprawdzę dokładniej (bo jeszcze mam bana ;p): zapamiętam, ile razy odświeżałem stronę. 3. Godzina minęła, ban aktywny. Czekam dalej.
Cytat
nie wiem o co chodzi, ale da się edytować cookie.
Jak wchodzisz skryptem na jakąś stronę, to na tej stronie nie widać cookies z Twojej przeglądarki. CURL'em (setopt) się da, ale cURL'a nie używam, bo mi na localhoście nie działa (nie jest zainstalowany, a wgranie i aktywowanie liba niczego nie zmienia).
Cytat
jedyną możliwością jest odpytywanie z różnych ip (choć całkiem możliwe, że częściowo różne nagłówki wystarczą, np. zmieniać przeglądarki i wtedy również ciastka różne przechowywać)
Inne IP powinno wystarczyć... Następne pytanie: da się skryptem zmienić IP (ale nie przez jakieś proxy, bo bym musiał dać ini_set('max_execution_time',1000000)).
Go to the top of the page
+Quote Post
djstrong
post
Post #4





Grupa: Zarejestrowani
Postów: 65
Pomógł: 9
Dołączył: 22.09.2006

Ostrzeżenie: (0%)
-----


Cytat(infoo1 @ 24.01.2009, 17:31:41 ) *
Jakie i jak je zmienić?
2. Może około 1500: dla 3 słów kluczowych, pierwsze 1000 wyników (10 zapytań z $_GET['num']=100), odświeżałem stronę podczas robienia skryptu około 50 razy, więc: 3*10*50=1500. Jutro sprawdzę dokładniej (bo jeszcze mam bana ;p): zapamiętam, ile razy odświeżałem stronę. 3. Godzina minęła, ban aktywny. Czekam dalej.
Jak wchodzisz skryptem na jakąś stronę, to na tej stronie nie widać cookies z Twojej przeglądarki. CURL'em (setopt) się da, ale cURL'a nie używam, bo mi na localhoście nie działa (nie jest zainstalowany, a wgranie i aktywowanie liba niczego nie zmienia).
Inne IP powinno wystarczyć... Następne pytanie: da się skryptem zmienić IP (ale nie przez jakieś proxy, bo bym musiał dać ini_set('max_execution_time',1000000)).

Wszystkie jakie wysyła przeglądarka należałoby zasymulować. Podejrzeć je możesz jakąś wtyczką, np. tamper data dla ff.
Przez fsockopen i file_get_contents da się odczytać zwracane cookie zapewne.
Inne IP na pewno wystarczy, ale ip nie da się w łatwy sposób "zmienić" (programowo się nie da), dlatego podsunąłem pomysł z nagłówkami, które da się łatwo zmieniać. Powinno to działać, albo chociaż zwiększyć możliwy limit.
Go to the top of the page
+Quote Post
hwao
post
Post #5


Developer


Grupa: Moderatorzy
Postów: 2 844
Pomógł: 20
Dołączył: 25.11.2003
Skąd: Olkusz




Nic na to nie poradzisz, za częste requesty - możesz próbować przez proxy ale to na dłuższa metę i tak nic nie da. Bardzo często też tak się dzieje jak jest się w sieci osiedlowej i dużo osób na jednym IP korzystań z google.

Google zapamiętuje adres IP i częstotliwość pobierania danych przez nie.
Go to the top of the page
+Quote Post
djstrong
post
Post #6





Grupa: Zarejestrowani
Postów: 65
Pomógł: 9
Dołączył: 22.09.2006

Ostrzeżenie: (0%)
-----


Cytat(hwao @ 24.01.2009, 22:25:54 ) *
Nic na to nie poradzisz, za częste requesty - możesz próbować przez proxy ale to na dłuższa metę i tak nic nie da. Bardzo często też tak się dzieje jak jest się w sieci osiedlowej i dużo osób na jednym IP korzystań z google.

Google zapamiętuje adres IP i częstotliwość pobierania danych przez nie.

Właśnie z tego powodu (sieci osiedlowych z jednym IP) wywnioskowałem, że powinni blokować nie tylko po samym IP. Powinni to mieć jakoś bardziej liberalnie zrobione. Może będąc zalogowanym na google, limity są przypisywane do konta i mimo wykorzystania "puli" dla adresu IP, osoba zalogowana może nadal korzystać?
Go to the top of the page
+Quote Post
ucho
post
Post #7





Grupa: Zarejestrowani
Postów: 300
Pomógł: 32
Dołączył: 31.07.2006

Ostrzeżenie: (0%)
-----


Zalogowanie na konto nie pomaga.
Go to the top of the page
+Quote Post
erix
post
Post #8





Grupa: Moderatorzy
Postów: 15 467
Pomógł: 1451
Dołączył: 25.04.2005
Skąd: Szczebrzeszyn/Rzeszów




A może by się tak zainteresować Google Search API...?
Go to the top of the page
+Quote Post

Reply to this topicStart new topic
2 Użytkowników czyta ten temat (2 Gości i 0 Anonimowych użytkowników)
0 Zarejestrowanych:

 



RSS Aktualny czas: 23.08.2025 - 08:20