[PHP]Crawler PHP - Forum PHP.pl

[PHP]Crawler PHP

vegeta Zobacz profil	23.03.2011, 15:18:06 Post #1
Grupa: Zarejestrowani Postów: 122 Pomógł: 0 Dołączył: 9.11.2008 Ostrzeżenie: (10%)	Mam oto sobie taki crawlerek: [PHP] pobierz, plaintext set_time_limit (0); function DawajAdresy($strona) { $original_file = file_get_contents($strona); $stripped_file = strip_tags($original_file, "<a>"); preg_match_all('#href="(http://[^/"]+)/?"#is', $stripped_file, $matches); $unikat = array_unique($matches[1]); //Usuwa powtarzajace sie wartosci return $unikat; } function ClearArray($arr) //Czysci tablice z pustych kluczy { foreach($arr as $val) { if(!empty($val)) { $cleared_arr[] = $val; } } return $cleared_arr; } $poprawne = 0; $i = 0; $strona = "http://it-maniak.pl/"; $unikat = DawajAdresy($strona); if (empty($unikat)) { echo 'Brak adresów na '.$strona.'<br />'; } else { $tablica = ClearArray($unikat); echo '<h1>Linki znalezione na '.$strona.'</h1>'; foreach ($tablica as $tab) { if (!preg_match('#\.blip\.pl\|\.sympatia\.onet\.pl\|\.codeplex\.com#is', $tab)) { (sprawdzanie czy URL istnieje w bazie, wyświetlanie, dodawanie do bazy) } } foreach ($tablica as $tab) { //Druga rudka $strona = $tab; $unikat = DawajAdresy($strona); if (!empty($unikat)) { $tablica2 = ClearArray($unikat); foreach ($tablica2 as $tab2) { if (!preg_match('#\.blip\.pl\|\.sympatia\.onet\.pl\|\.codeplex\.com#is', $tab2)) { (sprawdzanie czy URL istnieje w bazie, wyświetlanie, dodawanie do bazy) } } } } } echo '<br />Poprawne strony: '.$poprawne.'/'.$i; [PHP] pobierz, plaintext 1. Jak w prosty sposób zrobić, aby w przypadku blokowania robotów w meta (nofollow, noindex, none itp) wyrzucało adres z tablicy? 2. Da się zrobić w prosty sposób, aby robot pobierał robots.txt i przetwarzał je jak normalny robot? Jak? 3. Czy cURL jest szybszy od file_get_contents? Jakie są argumenty za i przeciw cURL? Ludzie

Odpowiedzi

darko Zobacz profil	23.03.2011, 15:29:34 Post #2
Grupa: Zarejestrowani Postów: 2 885 Pomógł: 463 Dołączył: 3.10.2009 Skąd: Wrocław Ostrzeżenie: (0%)	1. Sprawdzasz z pobranej treści strony sekcję head i jeżeli znajdziesz informacje nofollow czy noindex to pomijasz taką stronę 2. ? 3. Podobno cUrl jest znacznie szybszy.