![]() |
![]() ![]() |
![]() |
![]()
Post
#1
|
|
Grupa: Zarejestrowani Postów: 63 Pomógł: 0 Dołączył: 1.09.2009 Ostrzeżenie: (0%) ![]() ![]() |
Dzięki pomocy osób na tym forum udało mi się stworzyć skrypt, którego zadaniem jest pobieranie linków z google, przeszukiwanie stron i wyciąganie z nich określonych danych.
Skrypt wygląda obecnie tak
Zdaję sobie sprawę, że z optymalizacją nie ma nic wspólnego, ale to nie ma znaczenia, bo będzie używany od czasu do czasu i przez jedną osobę. Chcę w nim zmienić kilka rzeczy: 1. Obecnie skrypt po wejściu na strony znalezione w google, wchodzi raz jeszcze na linki na tych stronach i raz jeszcze. Chciałbym to zmienić, aby zamiast zagłębiać się w ten sposób, przeszukiwał dokładnie daną stronę w poszukiwaniu adresów mail. Czyli wchodzi na np. www.przyklad.pl, przeszukuje stronę główną i wszystkie podstrony (lub też tylko te podstrony, do których linki są na głównej) i wyciąga znalezione maile. 2. Zamiast wyświetlania wyników, chciałbym aby maile zapisywał do pliku. Podejrzewam, że ze stworzeniem pliku i zapisem tam wyników nie byłoby problemów, jednak czasem znajduje na kilku stronach (albo na jednej w kilku miejscach) ten sam adres mail. Chciałbym uniknąć w zapisie w pliku powtórzeń maili. 3. Podczas wyszukiwania wchodzi na wszystkie strony. Chciałbym uniknąć wchodzenia przez skrypt na takie linki, które prowadzą do nikąd (czyli np odnoszą się do plików styli). Powoduje to dużą ilość wyświetlanych błędów typu Cytat Warning: file_get_contents(story.cgi?wyb=7&next=2&chapter=1) [function.file-get-contents]: failed to open stream: No such file or directory in /home/radiomb/domains/radiomb.pl/public_html/qq.php on line 31 Próbowałem przed file_get_contents dodać @, jednak sprawiło to tylko tyle, że nie uzyskiwałem żadnych informacji. Ani błędów, ani maili. |
|
|
![]()
Post
#2
|
|
Grupa: Zarejestrowani Postów: 32 Pomógł: 3 Dołączył: 9.06.2007 Ostrzeżenie: (0%) ![]() ![]() |
zmien wzorzec poszukiwania adresow z tego co masz na
'|<a.*href="([^"]+)"|U' w ten sposb wybierzesz zawartosc atrybutu href ale tylko znacznikow a, ten znacznik nei zadziala jesli ktos zapisze link miedzy apostrofami jak tu <a href='index.html'> badz nie uzyje "" przy href <a href=index.html> curl jest szybsze niz file_get_contents zeby zapisac do pliku adresy dopisuj je do tablicy i na koncu zapisz, p dordze przed dodaniem adesu mozesz uzyc funkcji in_array zeby sprawdzic czy juz taki adres masz -------------------- |
|
|
![]() ![]() |
![]() |
Aktualny czas: 19.08.2025 - 20:12 |