Witaj Gościu! ( Zaloguj | Rejestruj )

Forum PHP.pl

> [curl] szukanie wgłąb strony
PawelC
post
Post #1





Grupa: Zarejestrowani
Postów: 1 173
Pomógł: 121
Dołączył: 24.09.2007
Skąd: Toruń

Ostrzeżenie: (0%)
-----


witam (IMG:http://forum.php.pl/style_emoticons/default/smile.gif)
problem polega na tym napisałem sobie w php, robota sieciowego i szuka on tego co chcę jednak tylko na stronie głównej, jak zrobić w php aby robot wszedł po linkach wgłąb strony. Prosiłbym o jakieś wskazówki, i jeżeli to możliwe jakiś przykład.

offtop Jaki język według was jest najlepszy do napisania robota sieciowego?
Cytat
Pająk powinien być widoczny
Kolejnym dobrym sposobem zapewnienia, że inni będą wiedzieli o naszym pająku, jest
zawarcie w klauzuli
User-Agent
pająka danych kontaktowych [Sposób 11.] Może to
być adres poczty elektronicznej lub adres strony. Trzeba pamiętać potem o sprawdzaniu
tego adresu i zapewnieniu, że znajdą się pod nim oczekiwane informacje

Czy w php jest możliwość zrobienia tego, że jak robot wejdzie np na forum to zamiast gość wyświetli nazwe robota którą mu nadam? Jeżeli tak to w jaki sposób?

Ten post edytował ExPlOiT 15.11.2007, 09:03:13
Go to the top of the page
+Quote Post
 
Start new topic
Odpowiedzi (1 - 5)
morrison
post
Post #2





Grupa: Zarejestrowani
Postów: 117
Pomógł: 0
Dołączył: 24.05.2004
Skąd: krakow

Ostrzeżenie: (10%)
X----


dolacze sie fo tematu.
najlepsza technologia do takich rzeczy to z pewnoscia J2EE.
pisze aplikacje ktora sama laczy sie z roznymi serwisami www ktore pozwalaja wyszukiwac numer telefonu na podstawie danych osobowych - nastepnie odbiera wyniki i wyswietla je. wyszukiwanie z serwisu PLUS i Dialog juz mi dziala, ale mam problem z tym:
http://www.sferia.pl/index.php?action=page...130&pid=169
czy zechce ktos zerknac na ten formularz i powiedziec mi na co powinienem zwrocic uwage? czy powinienem wysylac rowniez pole takie:
<input type="hidden" name="tc" value="" />
jesli nie ma zadnej wartosci? jesli tak to jak? druga rzecz to nazwy pol ktore wygladaja tak:
name="dane[nazwa_firmy]"
czy wysylajac w taki sposob: dane[nazwa_firmy]=costam ma prawo to dzialac? bo w input jest jeszcze ustawione to:
tabindex="3", nie bardzo wiem jak to dokladnie dziala.

generalnie pisze to w java z wyk. biblioteki java.net.HttpUrlConnection, ale mechanizm ten dziala chyba na podobnie jak Curl w php.
czyli w jednym miejscu podaje adres skryptu/serwletu do ktorego wysylam zadanie, a w dodatkowej zmiennej skladam ja z lancucha zawierajacego ciag zmiennych i ich wartosci, tak jak wyglada to w url'u.
i jeszcze to:
<form action="index.php?action=page&cid=130&pid=169&url=aHR0cDovL3d3dy5zZmVyaWEucGwvaW5kZXgucGhwP2FjdGlvbj1wYWdlJmNpZD0xMzAmcGlk
TE2OQ==" method="post">
moze mnie ktos upewnic czym tutaj jest zmienna 'url' i dlaczego ma taka wartosc? czyzby identyfikator sesji? jak moge to obejsc?

bede wdzieczny za pomoc w dostaniu sie do ich skryptu..

Ten post edytował morrison 16.11.2007, 09:48:18
Go to the top of the page
+Quote Post
PawelC
post
Post #3





Grupa: Zarejestrowani
Postów: 1 173
Pomógł: 121
Dołączył: 24.09.2007
Skąd: Toruń

Ostrzeżenie: (0%)
-----


No więc wie ktoś może jak zrobić aby zamiast:
Cytat
Gość
IP: 78.46.*.*


Wyświetliła się moja nazwa jak np tutaj:
Cytat
GoogleBot
IP: 66.249.*.*



Bo napisałem prostego robota który sprawdza czy są nowe posty na forum, ale wyświetla mi zamiast jego nazwy to gość, sprawdzałem w php ale chyba coś źle robiłem.
Go to the top of the page
+Quote Post
Kicok
post
Post #4





Grupa: Zarejestrowani
Postów: 1 033
Pomógł: 125
Dołączył: 17.09.2005
Skąd: Żywiec

Ostrzeżenie: (0%)
-----


1. Musisz wysyłać także nagłówek User-Agent z jakimś swoim tekstem, np.: "Pająk/0.7 http://www.pajak.com/bot/info.html"

2. Musisz dodać do skryptu forum funkcję rozpoznawania swojego UserAgenta
Go to the top of the page
+Quote Post
PawelC
post
Post #5





Grupa: Zarejestrowani
Postów: 1 173
Pomógł: 121
Dołączył: 24.09.2007
Skąd: Toruń

Ostrzeżenie: (0%)
-----


ok dzięki zobacze (IMG:http://forum.php.pl/style_emoticons/default/smile.gif) a wie ktoś może jak wygląda wyrażenie regularne które wyszuka mi linki na stronie, zawarte w <a href="http://www.adres-strony.pl/">, tak aby robot mógł znaleźć linki i po nich iść dalej. Cały czas próbuje i zero efektu

Ten post edytował ExPlOiT 16.11.2007, 13:40:54
Go to the top of the page
+Quote Post
franki01
post
Post #6





Grupa: Zarejestrowani
Postów: 508
Pomógł: 75
Dołączył: 2.11.2005
Skąd: Bydgoszcz

Ostrzeżenie: (0%)
-----


  1. <?php
  2. preg_match_all("(<a(?:.*?)?href=\"(.*?)\"(?:.*?)?>)si", $text, $array);


W $array[1] powinny byc wszystkie linki. Nie jestem pewien czy dobrze dziala bo pisalem "z palca"..
Go to the top of the page
+Quote Post

Reply to this topicStart new topic
2 Użytkowników czyta ten temat (2 Gości i 0 Anonimowych użytkowników)
0 Zarejestrowanych:

 



RSS Aktualny czas: 23.12.2025 - 06:02