![]() |
![]() |
![]()
Post
#1
|
|
Grupa: Zarejestrowani Postów: 1 Pomógł: 0 Dołączył: 23.02.2010 Ostrzeżenie: (0%) ![]() ![]() |
wie ktos moze jak napisac robota ktory wchodzi na przykladowa strone np www.wp.pl i zczytuje wszystkie linki ktore sa na pierwszej stronie i zapisuje je do jakiejs bazy, pozniej wchodzi na podstrone i robi to samo, jezeli jest juz ten link to go nie zapisuje i wszystkie te linki oznacza flaga na poziomie drugim, wchodzi na kolejna podstrone i konczy indeksowanie bo ten robot ma sie zaglebić tylko do trzeciej podstrony
z gory dziekuje |
|
|
![]() |
![]()
Post
#2
|
|
Grupa: Zarejestrowani Postów: 144 Pomógł: 25 Dołączył: 2.02.2009 Ostrzeżenie: (0%) ![]() ![]() |
Ale w czym masz problem? Z pobraniem strony? Czy ze znalezieniem linków w tekście czy zapisaniu do bazy?
Do pobierania strony możesz użyć fopen. Do znalezienia linków wyrażenia regularne. I w bazie dla każdego adresu sprawdzasz czy adres istnieje jak istnieje to zwiększasz licznik o jeden, a jak nie ma to dodajesz adres z ilością 1. |
|
|
![]()
Post
#3
|
|
Grupa: Zarejestrowani Postów: 143 Pomógł: 19 Dołączył: 7.09.2009 Skąd: Rzeszów Ostrzeżenie: (0%) ![]() ![]() |
K1.Wchodzisz np Curlem albo fopen, pobierasz zawartosc, wyrazeniem regularnym zbierasz linki, zapisujesz do tablicy
K2. Przelatujesz po tablicy, jesli link jest te tej samej domenie(odpowiedni warunek) wchodzisz jescze raz w to(patrz krok 1) i zapisuesz do innej tablicy <- i masz uz 2 poziom zagnieżdżenia K2. Ponawiaj krok 2 ale dla innej tablicy Potem wqzsyustkie tablice mozesz scalić, dać potem array_unique na nich, przefiltowac i zapisac Powodzenia |
|
|
![]() ![]() |
![]() |
Aktualny czas: 22.08.2025 - 18:09 |