Witaj Gościu! ( Zaloguj | Rejestruj )

Forum PHP.pl

> Jak zablokować parsowanie strony?, czyli antidotum na pasożyty ;)
fluffy
post
Post #1





Grupa: Zarejestrowani
Postów: 25
Pomógł: 0
Dołączył: 26.01.2006

Ostrzeżenie: (0%)
-----


Witam,

Czy ktoś zna sposób na zablokowanie parsowania własnej strony internetowej, tak aby użytkownicy innych stron nie byli w stanie tego robić korzystając np. z funkcji: curl_init?
Wiem, że istnieją takie sposoby, bo np. onet blokował taką możliwość w stosunku do strony głównej. Niemniej jednak nie znalazłem rozwiązania w internecie.

Nie jestem pewien czy jest to odpowiedni dział na forum. Jeżeli nie to przepraszam i proszę o przeniesienie go w odpowiednie miejsce.

A przede wszystkim mam nadzieję, że osoby, które znają rozwiązanie tego problemu, podzielą się wiedzą. Za co z góry dziękuję! (IMG:http://forum.php.pl/style_emoticons/default/smile.gif)
Go to the top of the page
+Quote Post
 
Start new topic
Odpowiedzi (1 - 10)
wookieb
post
Post #2





Grupa: Moderatorzy
Postów: 8 989
Pomógł: 1550
Dołączył: 8.08.2008
Skąd: Słupsk/Gdańsk




Przy korzystaniu z wyszukiwarki można zrobić tokena graficznego. Metody na zablokowanie cUrl nie ma. Można próbować ze sprawdzaniem http_referer ale to mozna obejść curlem. Wiec skutecznej metody nie ma. Poza tym jak wtedy roboty miałyby indeksować twoją stronę?
Go to the top of the page
+Quote Post
mike
post
Post #3





Grupa: Przyjaciele php.pl
Postów: 7 494
Pomógł: 302
Dołączył: 31.03.2004

Ostrzeżenie: (0%)
-----


Nie da się. Pomysł równie niewykonalny co zabezpieczenie obrazka przed skopiowaniem ze strony.
Skoro już wyśiwetlasz stronę to nie masz możliwości zablokowania czytania jej.
Go to the top of the page
+Quote Post
fluffy
post
Post #4





Grupa: Zarejestrowani
Postów: 25
Pomógł: 0
Dołączył: 26.01.2006

Ostrzeżenie: (0%)
-----


Nie blokowałbym podstron a jedynie stronę główną, tak więc informacje byłyby indeksowane. No bo w końcu informacje z onetu są indeksowane mimo tego że ma zablokowaną możliwość parsowania strony głównej.
Go to the top of the page
+Quote Post
mike
post
Post #5





Grupa: Przyjaciele php.pl
Postów: 7 494
Pomógł: 302
Dołączył: 31.03.2004

Ostrzeżenie: (0%)
-----


~fluffy Onet nie ma żadnej blokady parsowania strony głównej. Swobodnie możesz sobie ją przeczytać dowolną funkcją.
Jedyne co jesteś w stanie zrobić to nafaszerować wszystko AJAXem żeby treści były zasysane przez JavaScript. Tego się nie przeskoczy.
Go to the top of the page
+Quote Post
wookieb
post
Post #6





Grupa: Moderatorzy
Postów: 8 989
Pomógł: 1550
Dołączył: 8.08.2008
Skąd: Słupsk/Gdańsk




Jakąś tam ma ale to da się obejść. Trzeba tylko wiedzieć jak.
Kod
$ch=curl_init('http://onet.pl');

curl_exec($ch);

Da nam tylko link do onetu. Natomiast file_get_contents juz przechodzi.

Ten post edytował wookieb 26.08.2008, 10:16:58
Go to the top of the page
+Quote Post
fluffy
post
Post #7





Grupa: Zarejestrowani
Postów: 25
Pomógł: 0
Dołączył: 26.01.2006

Ostrzeżenie: (0%)
-----


Kiedyś próbowałem to się nie dało... może po zmianie szaty graficznej strony głównej z tego zrezygnowali, teraz tego nie sprawdziłem (IMG:http://forum.php.pl/style_emoticons/default/winksmiley.jpg) Skoro mówicie że się nie da to się nie da ;P

Mike jeżeli dobrze Cię zrozumiałem to jak się będzie zasysać dane przez ajax'ik to curl nie pobierze już danych zassanych po załadowaniu podstawowej konstrukcji strony, tak?
Go to the top of the page
+Quote Post
wookieb
post
Post #8





Grupa: Moderatorzy
Postów: 8 989
Pomógł: 1550
Dołączył: 8.08.2008
Skąd: Słupsk/Gdańsk




Tak. Ale jezeli ktoś się uprze to sobie wejdzie na strone i zobaczy które pliki ajaxowe pobierać.
Go to the top of the page
+Quote Post
mike
post
Post #9





Grupa: Przyjaciele php.pl
Postów: 7 494
Pomógł: 302
Dołączył: 31.03.2004

Ostrzeżenie: (0%)
-----


Cytat(fluffy @ 26.08.2008, 11:17:56 ) *
Mike jeżeli dobrze Cię zrozumiałem to jak się będzie zasysać dane przez ajax'ik to curl nie pobierze już danych zassanych po załadowaniu podstawowej konstrukcji strony, tak?
Dokładnie. Ponieważ funkcje typu file_get_contents() czy mechanizmy cURL nie potrafia wykonywać JavaScriptu. Większość robotów i pająków zresztą też.
Go to the top of the page
+Quote Post
kwiateusz
post
Post #10


Admin Techniczny


Grupa: Administratorzy
Postów: 2 072
Pomógł: 93
Dołączył: 5.07.2005
Skąd: Olsztyn




a co do curla i onetu moze po prostu sprawdzaja jak przegladarka w naglowkach sie przedstawia? i jak nie ejst to zadna znana to zwraca link do onetu itp
Go to the top of the page
+Quote Post
VGT
post
Post #11





Grupa: Zarejestrowani
Postów: 63
Pomógł: 9
Dołączył: 19.11.2004
Skąd: Iława

Ostrzeżenie: (0%)
-----


Gdy pobieracie strone onetu, czy to curl'em czy socketami czy co jeszcze wybierzecie, dodajcie do adresu "www"

Dostajecie tylko link (a konkretnie, to "HTTP/1.0 301 Moved Permanently") bo pobieracie strone http://onet.pl, zamiast http://www.onet.pl

Ten post edytował Bonastick 26.08.2008, 11:32:23
Go to the top of the page
+Quote Post

Reply to this topicStart new topic
2 Użytkowników czyta ten temat (2 Gości i 0 Anonimowych użytkowników)
0 Zarejestrowanych:

 



RSS Aktualny czas: 17.09.2025 - 16:03