[PHP] cURL pobieranie dużej ilości danych i wsadzanie ich do bazy

[PHP] cURL pobieranie dużej ilości danych i wsadzanie ich do bazy

piotrex41 Zobacz profil	24.05.2012, 08:21:43 Post #1
Grupa: Zarejestrowani Postów: 168 Pomógł: 26 Dołączył: 15.09.2011 Skąd: Wrocław Ostrzeżenie: (0%)	Witam, Co prawda z PHP mam kontakt od 3 lat, to tematyka cURL jest mi kompletnie obca, a niestety muszę go użyć. Przechodzę do sedna: Na praktykach dostałem do napisania serwis z ogłoszeniami dla osób poszukujących pracę. Pracodawcy dodają oferty itp. Całość napisana obiektowo, ale jest jedna rzecz na której się zaciąłem. Mianowicie właśnie cURL. Chodzi o automatyczne pobiernie ofert pracy z http://www.pup.gliwice.pl/klient/oferty_pracy.html Niestety nie ma tam RSSa więc trzeba to jakoś wyciągnąć sposobem, którym właśnie jest cURL. Problem polega na tym, że na tej stronie są jedynie "zajawki" ofert a pełny opis (który muszę pobrać) znajduje się w linku, otwieranym w nowym oknie JS po kliknięciu. Skrypt ma codziennie o godzinie 18 sprawdzać czy są nowe oferty i je dodawać do moderacji (moderacja jest już zrobiona, trzeba tylko wrzucać zapytaniem do bazy danych pobrane oferty). Kompletnie nie wiem jak mam się za to zabrać. Dla mnie cURL to czarna magia. Wiem że pobrane źródło muszę filtrować regexp'ami, ale nic pozatym (IMG:style_emoticons/default/tongue.gif) Połączenie już zrobiłem, źródło mam, ale dalsze grzebanie to już masakra dla mnie. Bardzo proszę o pomoc. Ten post edytował piotrex41 24.05.2012, 08:22:45

Odpowiedzi

piotrex41 Zobacz profil	24.05.2012, 08:36:01 Post #2
Grupa: Zarejestrowani Postów: 168 Pomógł: 26 Dołączył: 15.09.2011 Skąd: Wrocław Ostrzeżenie: (0%)	Tochę mnie nastraszyłes z tym banowaniem (IMG:style_emoticons/default/tongue.gif) Mój kod do cURL jest następujący: [PHP] pobierz, plaintext $curl = curl_init(); //Inicujemy curl curl_setopt($curl, CURLOPT_URL, 'http://www.pup.gliwice.pl/klient/oferty_pracy.html'); //pobieramy dane z "http://www.lfsworld.net/?win=stats&racer=rafal612b2" curl_setopt($curl, CURLOPT_REFERER, "http://www.google.pl/"); //ustawiamy refferer na www.google.pl (niektóre strony mają zabezpieczenia curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); //wyniku nie wyświetlamy a zapisujemy do zmiennej co ułatwia prace nad nim curl_setopt($curl, CURLOPT_USERAGENT, 'Googlebot/2.1 (+http://www.googlebot.com/bot.html)'); //ustawiamy useragent (niektóre strony mają zabezpieczenia) curl_setopt($curl, CURLOPT_TIMEOUT, 30); //Maxymalny czas połączenia ze stroną curl_setopt($curl, CURLOPT_HEADER, 0); //nie chcemy dołączać nagłówka $strona = curl_exec($curl); //uruchamiamy skonfigurowanego curla curl_close($curl); //zamykamy [PHP] pobierz, plaintext Coś trzeba zmienić? I teraz powiedz czy dobrze zrozumiałem (IMG:style_emoticons/default/biggrin.gif) 1. Pobieram cURL całą zawartość strony 2. Filtruję sobie z tego linki 3. Każdy link znów traktuje cURL (w pętli) i pobieram całą zawartość, następnie wybieram co potrzebne i do bazy wrzucam poprzez zapytanie? No i jak zrobić żeby zawsze o 18 sprawdzał? Bo zdaje mi się że zwykły IF sprawdzający godzinę przez date('H'); to było by chyba za proste (IMG:style_emoticons/default/smile.gif)

Posty w temacie

piotrex41 [PHP] cURL pobieranie dużej ilości danych i wsadzanie ich do bazy 24.05.2012, 08:21:43

Octobus Ale w czym dokladnie jest problem ? Wchodzisz curl... 24.05.2012, 08:28:56

piotrex41 Tochę mnie nastraszyłes z tym banowaniem Mój kod... 24.05.2012, 08:36:01

Octobus Ja dostalem kiedys bana na wordpress.com przeze m... 24.05.2012, 08:56:14

piotrex41 No dobra, mam całe źródło, i teraz tak. Każda ofer... 24.05.2012, 11:41:43

Octobus [PHP] pobierz, plaintext #<a onclick="show... 24.05.2012, 12:41:20

piotrex41 No niby jest ok, ale wszędzie jest ten sam link J... 24.05.2012, 13:05:52

Octobus Coś jest nie tak, nie moze byc wszedzie ten sam li... 24.05.2012, 13:53:34

piotrex41 Cóż, debugowanie kodu nie wiele dało, więc spróbow... 25.05.2012, 09:05:10

« Następny starszy · Przedszkole · Następny nowszy »

2 Użytkowników czyta ten temat (2 Gości i 0 Anonimowych użytkowników)

0 Zarejestrowanych:

Tryb wyświetlania: Przełącz na: Standardowy · Przełącz na: Linearny+ · Drzewo

Śledź ten temat · Wyślij temat na e-mail · Wydrukuj ten temat · Subskrybuj to forum

Aktualny czas: 16.10.2025 - 12:07

Hosting zapewnia

Forum PHP.pl