Witaj Gościu! ( Zaloguj | Rejestruj )

Forum PHP.pl

 
Reply to this topicStart new topic
> robot indeksujacy w php, wykrywanie linkow
edious
post
Post #1





Grupa: Zarejestrowani
Postów: 13
Pomógł: 0
Dołączył: 26.01.2005

Ostrzeżenie: (0%)
-----


Opis skryptu:

Skrypt ma na celu pobrac strone z podanego linku, nastepnie przzeglada kod html w poszukiwaniu linkow. po znalezieniu linku, wykrywa do jakiego pliku prowadzi i wybiera ten, ktory prowadzi do pliku o zadanym rozszerzeniu np:pdf

Jesli znajdzie takie linki, tworzy z nich tablice w ktorej zapisuje nazwe linku oraz adres url linka. Nastepnie sprawdza czy plik podany w linkach naprawde istnieje, a jesli tak, sprawdza jego rozmiar (kb), po czym zapisuje info o tych linkach w bazie. (nazwa linku, adres linku, typ pliku, rozmiar pliku, url strony).

Poradze sobie z: wczytaniem strony, zapisem danych do bazy, wyborem linkow z tablicy, sprawdzeniem cy pliki istnieja. reszta jest dla mnie jak narazie niewiadoma.

Czy ktosbwie, jak wykonac reszte zadan? jakie funkcje?
Go to the top of the page
+Quote Post
piczu
post
Post #2





Grupa: Zarejestrowani
Postów: 182
Pomógł: 0
Dołączył: 4.01.2005
Skąd: piczu.info

Ostrzeżenie: (10%)
X----


czyli co ci zostalo bo trudno mi sie doczytac
Go to the top of the page
+Quote Post
SongoQ
post
Post #3





Grupa: Przyjaciele php.pl
Postów: 2 923
Pomógł: 9
Dołączył: 25.10.2004
Skąd: Rzeszów - studia / Warszawa - praca

Ostrzeżenie: (0%)
-----


OK pliki pobierasz funkcja np fopen zaczytujesz i sprawdzasz rozmiary. Nic latwiejszego.
Go to the top of the page
+Quote Post
piczu
post
Post #4





Grupa: Zarejestrowani
Postów: 182
Pomógł: 0
Dołączył: 4.01.2005
Skąd: piczu.info

Ostrzeżenie: (10%)
X----


jesli chodzi o rozmiar plik to filesize_remote
Go to the top of the page
+Quote Post
edious
post
Post #5





Grupa: Zarejestrowani
Postów: 13
Pomógł: 0
Dołączył: 26.01.2005

Ostrzeżenie: (0%)
-----


zostalo do zrobienia: wykluczenie kodu html i pozostawienie tylko linkow czyli <a href=xxx> i ulozenie ich w tablicy. Nie wiem jak sprawdzic tez ich rozmiar, filesize(); odpada. Musze tez sprawdzic jaki typ pliku kryje sie pod linkiem.

zostalo do zrobienia: wykluczenie kodu html i pozostawienie tylko linkow czyli <a href=xxx> i ulozenie ich w tablicy. Nie wiem jak sprawdzic tez ich rozmiar, filesize(); odpada. Musze tez sprawdzic jaki typ pliku kryje sie pod linkiem.
Go to the top of the page
+Quote Post
erix
post
Post #6





Grupa: Moderatorzy
Postów: 15 467
Pomógł: 1451
Dołączył: 25.04.2005
Skąd: Szczebrzeszyn/Rzeszów




eregi" title="Zobacz w manualu php" target="_manual
masz tam przyklad
Go to the top of the page
+Quote Post
edious
post
Post #7





Grupa: Zarejestrowani
Postów: 13
Pomógł: 0
Dołączył: 26.01.2005

Ostrzeżenie: (0%)
-----


z tym ze trzeba zauwazyc to, ze strona lezy na innym serwerze i jest wczytywana poprzez http. Druga sprawa to wyczyscic caly kod html pozostawiajac tylko linki <a href.....
Go to the top of the page
+Quote Post
dyktek
post
Post #8





Grupa: Zarejestrowani
Postów: 240
Pomógł: 0
Dołączył: 18.01.2004
Skąd: rzeszów / kraków

Ostrzeżenie: (0%)
-----


preg-match-all

http://forum.php.pl/index.php?showtopic=47488&hl= - tutaj masz przykład z ta funkcją musisz zmienić tylko wyrażenie regularne
Go to the top of the page
+Quote Post
Jim
post
Post #9





Grupa: Zarejestrowani
Postów: 111
Pomógł: 0
Dołączył: 27.07.2005

Ostrzeżenie: (0%)
-----


  1. <?php
  2. preg_match_all('/<.*?a.*?href=s*?['"](.+)['"].*?>.*?</.*?a.*?>/i', $line, $matches);


Ten post edytował Jim 7.06.2006, 19:27:14
Go to the top of the page
+Quote Post
edious
post
Post #10





Grupa: Zarejestrowani
Postów: 13
Pomógł: 0
Dołączył: 26.01.2005

Ostrzeżenie: (0%)
-----


No chlopaki, dzieki wielkie (IMG:http://forum.php.pl/style_emoticons/default/smile.gif) tak wlasnie myslalem z tymi wyrazeniami (IMG:http://forum.php.pl/style_emoticons/default/smile.gif) pokombinuje, teraz to juz z gorki....

poprawnie:
  1. <?php
  2. '/<a.*?href=s*?['"](.+)['"].*?>.*?</a>/'
pytanko: a jak dopisac do tego zeby znalazl tylko te linki, ktore prowadza do pliku pdf np: www.xxx.pl/plik.pdf (IMG:http://forum.php.pl/style_emoticons/default/questionmark.gif)
Go to the top of the page
+Quote Post
erix
post
Post #11





Grupa: Moderatorzy
Postów: 15 467
Pomógł: 1451
Dołączył: 25.04.2005
Skąd: Szczebrzeszyn/Rzeszów




Kod
'/<a.*?href=s*?[\'"](.+)\.pdf[\'"].*?>.*?<\/a>/'

chyba tak...
Go to the top of the page
+Quote Post
edious
post
Post #12





Grupa: Zarejestrowani
Postów: 13
Pomógł: 0
Dołączył: 26.01.2005

Ostrzeżenie: (0%)
-----


wlasnie tak probowalem, no niestety cos nie dzialalo zbytnio. ponadto, nie wyrzuca wszystkiego. co prawda zostawia ten kod, co potrzeba, jednak zostawia takze inne, niedokonczone tagi html. To sie robi coraz trudniejsze.
Go to the top of the page
+Quote Post

Reply to this topicStart new topic
2 Użytkowników czyta ten temat (2 Gości i 0 Anonimowych użytkowników)
0 Zarejestrowanych:

 



RSS Aktualny czas: 22.12.2025 - 23:45