Mam oto sobie taki crawlerek:
function DawajAdresy($strona)
{
$stripped_file = strip_tags($original_file, "<a>"); preg_match_all('#href="(http://[^/"]+)/?"#is', $stripped_file, $matches);
$unikat = array_unique($matches[1
]); //Usuwa powtarzajace sie wartosci return $unikat;
}
function ClearArray($arr) //Czysci tablice z pustych kluczy
{
foreach($arr as $val)
{
{
$cleared_arr[] = $val;
}
}
return $cleared_arr;
}
$poprawne = 0;
$i = 0;
$strona = "http://it-maniak.pl/";
$unikat = DawajAdresy($strona);
echo 'Brak adresów na '.$strona.'<br />'; } else {
$tablica = ClearArray($unikat);
echo '<h1>Linki znalezione na '.$strona.'</h1>';
foreach ($tablica as $tab)
{
if (!preg_match('#\.blip\.pl|\.sympatia\.onet\.pl|\.codeplex\.com#is', $tab)) { (sprawdzanie czy URL istnieje w bazie, wyświetlanie, dodawanie do bazy)
}
}
foreach ($tablica as $tab)
{
//Druga rudka
$strona = $tab;
$unikat = DawajAdresy($strona);
$tablica2 = ClearArray($unikat);
foreach ($tablica2 as $tab2)
{
if (!preg_match('#\.blip\.pl|\.sympatia\.onet\.pl|\.codeplex\.com#is', $tab2)) { (sprawdzanie czy URL istnieje w bazie, wyświetlanie, dodawanie do bazy)
}
}
}
}
}
echo '<br />Poprawne strony: '.$poprawne.'/'.$i;
1. Jak w prosty sposób zrobić, aby w przypadku blokowania robotów w meta (nofollow, noindex, none itp) wyrzucało adres z tablicy?
2. Da się zrobić w prosty sposób, aby robot pobierał robots.txt i przetwarzał je jak normalny robot? Jak?
3. Czy cURL jest szybszy od file_get_contents? Jakie są argumenty za i przeciw cURL?
Ludzie