![]() |
![]() ![]() |
![]() |
![]()
Post
#1
|
|
Grupa: Zarejestrowani Postów: 122 Pomógł: 0 Dołączył: 9.11.2008 Ostrzeżenie: (10%) ![]() ![]() |
Mam oto sobie taki crawlerek:
1. Jak w prosty sposób zrobić, aby w przypadku blokowania robotów w meta (nofollow, noindex, none itp) wyrzucało adres z tablicy? 2. Da się zrobić w prosty sposób, aby robot pobierał robots.txt i przetwarzał je jak normalny robot? Jak? 3. Czy cURL jest szybszy od file_get_contents? Jakie są argumenty za i przeciw cURL? Ludzie |
|
|
![]()
Post
#2
|
|
Grupa: Zarejestrowani Postów: 2 885 Pomógł: 463 Dołączył: 3.10.2009 Skąd: Wrocław Ostrzeżenie: (0%) ![]() ![]() |
1. Sprawdzasz z pobranej treści strony sekcję head i jeżeli znajdziesz informacje nofollow czy noindex to pomijasz taką stronę
2. ? 3. Podobno cUrl jest znacznie szybszy. |
|
|
![]()
Post
#3
|
|
Grupa: Zarejestrowani Postów: 19 Pomógł: 0 Dołączył: 9.03.2011 Ostrzeżenie: (0%) ![]() ![]() |
czytasz plik robots.txt i postępujesz według opisu (IMG:style_emoticons/default/wink.gif)
cURL jest "mocniej" customizowalny, możesz na przykład nie podążać za 302, dokładać własne nagłówki i tak dalej |
|
|
![]() ![]() |
![]() |
Aktualny czas: 24.08.2025 - 13:43 |