Forum PHP.pl

Forum PHP.pl > Forum > Przedszkole

Reply to this topic

Start new topic

[PHP]Crawler PHP

vegeta Zobacz profil	23.03.2011, 15:18:06 Post #1
Grupa: Zarejestrowani Postów: 122 Pomógł: 0 Dołączył: 9.11.2008 Ostrzeżenie: (10%)	Mam oto sobie taki crawlerek: [PHP] pobierz, plaintext set_time_limit (0); function DawajAdresy($strona) { $original_file = file_get_contents($strona); $stripped_file = strip_tags($original_file, "<a>"); preg_match_all('#href="(http://[^/"]+)/?"#is', $stripped_file, $matches); $unikat = array_unique($matches[1]); //Usuwa powtarzajace sie wartosci return $unikat; } function ClearArray($arr) //Czysci tablice z pustych kluczy { foreach($arr as $val) { if(!empty($val)) { $cleared_arr[] = $val; } } return $cleared_arr; } $poprawne = 0; $i = 0; $strona = "http://it-maniak.pl/"; $unikat = DawajAdresy($strona); if (empty($unikat)) { echo 'Brak adresów na '.$strona.'<br />'; } else { $tablica = ClearArray($unikat); echo '<h1>Linki znalezione na '.$strona.'</h1>'; foreach ($tablica as $tab) { if (!preg_match('#\.blip\.pl\|\.sympatia\.onet\.pl\|\.codeplex\.com#is', $tab)) { (sprawdzanie czy URL istnieje w bazie, wyświetlanie, dodawanie do bazy) } } foreach ($tablica as $tab) { //Druga rudka $strona = $tab; $unikat = DawajAdresy($strona); if (!empty($unikat)) { $tablica2 = ClearArray($unikat); foreach ($tablica2 as $tab2) { if (!preg_match('#\.blip\.pl\|\.sympatia\.onet\.pl\|\.codeplex\.com#is', $tab2)) { (sprawdzanie czy URL istnieje w bazie, wyświetlanie, dodawanie do bazy) } } } } } echo '<br />Poprawne strony: '.$poprawne.'/'.$i; [PHP] pobierz, plaintext 1. Jak w prosty sposób zrobić, aby w przypadku blokowania robotów w meta (nofollow, noindex, none itp) wyrzucało adres z tablicy? 2. Da się zrobić w prosty sposób, aby robot pobierał robots.txt i przetwarzał je jak normalny robot? Jak? 3. Czy cURL jest szybszy od file_get_contents? Jakie są argumenty za i przeciw cURL? Ludzie

darko Zobacz profil	23.03.2011, 15:29:34 Post #2
Grupa: Zarejestrowani Postów: 2 885 Pomógł: 463 Dołączył: 3.10.2009 Skąd: Wrocław Ostrzeżenie: (0%)	1. Sprawdzasz z pobranej treści strony sekcję head i jeżeli znajdziesz informacje nofollow czy noindex to pomijasz taką stronę 2. ? 3. Podobno cUrl jest znacznie szybszy.

sn1p3r Zobacz profil	23.03.2011, 15:29:42 Post #3
Grupa: Zarejestrowani Postów: 19 Pomógł: 0 Dołączył: 9.03.2011 Ostrzeżenie: (0%)	czytasz plik robots.txt i postępujesz według opisu (IMG:style_emoticons/default/wink.gif) cURL jest "mocniej" customizowalny, możesz na przykład nie podążać za 302, dokładać własne nagłówki i tak dalej

« Następny starszy · Przedszkole · Następny nowszy »

Reply to this topic

Start new topic

2 Użytkowników czyta ten temat (2 Gości i 0 Anonimowych użytkowników)

0 Zarejestrowanych:

Tryb wyświetlania: Standardowy · Przełącz na: Linearny+ · Przełącz na: Drzewo

Śledź ten temat · Wyślij temat na e-mail · Wydrukuj ten temat · Subskrybuj to forum

Aktualny czas: 17.09.2025 - 13:42

Powered By IP.Board © 2025 IPS, Inc.
All changes by PHP.pl Administrators

Hosting zapewnia

NQ.pl hosting, trac, svn