Forum PHP.pl > preg_match_all i wyciąganie odpowiednich linków

Pomoc - Szukaj - Użytkownicy - Kalendarz

Pełna wersja: preg_match_all i wyciąganie odpowiednich linków

Sztef89

6.12.2010, 16:52:45

Witam wszystkich. Jako, że to jest pierwszy mój post na tym forum, pragnę wszystkich powitać.

Ostatnio zacząłem się bawić wyciąganiem informacji ze stron i zatrzymałem się na filmweb bo jak wiadomo ma mnóstwo informacji

Problem pojawił się gdy chciałem pobrać linki do filmów z danej strony. Pobrać wszystkie linki mi się udało ale potrzebuję tylko tych które prowadzą do filmów, czyli wyglądające w kodzie tak: href="/Jakas.nazwa" lub href="/film/costam"

A oto mój kod który pobiera WSZYSTKIE linki z danej strony:

[PHP] pobierz, plaintext 
$strona = "http://www.filmweb.pl/search/film";
      $rC = curl_init();
curl_setopt($rC, CURLOPT_HEADER, 1);
curl_setopt($rC, CURLOPT_COOKIEFILE, 'cookies.txt');
curl_setopt($rC, CURLOPT_COOKIEJAR, 'cookiesjar.txt');
curl_setopt($rC, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($rC, CURLOPT_VERBOSE, 0);
curl_setopt($rC, CURLOPT_USERAGENT, 'Googlebot/2.1 (+http://www.googlebot.com/bot.html)');
curl_setopt($rC, CURLOPT_REFERER, 'www.google.pl');
curl_setopt($rC, CURLOPT_URL, "$strona");
 
      $wejscie = curl_exec($rC);
      curl_setopt($rC, CURLOPT_REFERER, $strona);
      $wejscie = curl_exec($rC);
 
	$pattern = '/\b(?:href="?)[-a-z0-9+&@#\/%?=~_|!:,.;]*[-a-z0-9+&@#\/%=~_|]/i'; 
	preg_match_all( $pattern, $wejscie, $matches);
	print_r ($matches);  
[PHP] pobierz, plaintext

trzeba zmienną $pattern zmodyfikować tak, żeby wyłapywał tylko linki wyglądające tak jak napisałem wyżej.

----------------

Drugie pytanie:

Jak skonstruować warunek do preg_match_all aby wyciągnąć z poniższego kodu tytuł filmu ?

[HTML] pobierz, plaintext 
<h1 class="pageTitle item"><a href="/Zielona.Mila" title="Zielona Mila" property="v:name" class="fn"><span class="icoBig icoBigOnly icoBigMovie"></span>Zielona Mila</a></h1><h2 class="original-title"> 
[HTML] pobierz, plaintext

Przejrzałem na prawdę dużo stron więc proszę mnie nie odsyłać do Google itp
Z góry dziękuje za pomoc

pablo89pl

6.12.2010, 17:00:58

widocznie nie przejrzales, bo byś znalazł, tu na forum jest podobnych wątków dziesiątki..

Sztef89

7.12.2010, 18:59:55

ehh takiej odpowiedzi się spodziewałem niestety...
pisanie określonych warunków w preg_match do najłatwiejszych nie należy... przynajmniej mi ciężko to zrozumieć.
Nie spotkałem jeszcze żadnej strony która by opisywała jak tworzyć warunki tak żeby dało się zrozumieć... 3h szukania to za mało ?

Jeśli ktoś to potrafi to proszę się podzielić wiedzą zamiast pisać że to jest GDZIEŚ w internecie...

kod html wygląda tak:

[HTML] pobierz, plaintext 
<div class="searchResultPhoto">				<a href="/Forrest.Gump"><img src="http://gfx.filmweb.pl/po/09/98/998/7314731.1.jpg" alt="Forrest Gump"></a>
[HTML] pobierz, plaintext

jak widać po searchResultPhoto są spacje i potem mój szukany link a potem źródło obrazka.
Potrzebuje wyciągnąć tylko "/Forrest.Gump" z uwzględnieniem że napis searchResultPhoto znajduje się przed tym linkiem i po linku jest adres obrazka. Jeszcze przydałby się warunek że w linku może być tylko jeden /

Z góry dziękuję za odpowiedź.

cycofiasz

7.12.2010, 20:05:09

[PHP] pobierz, plaintext 
<?
 
$src = file_get_contents('http://www.filmweb.pl/search/film');
 
preg_match_all('<a class="searchResultTitle" href="/([^"]+)">',$src,$result);
 
print_r($result[1]);
?> 
[PHP] pobierz, plaintext

Tu można poczytać co nieco:

https://developer.mozilla.org/pl/Dokumentac.../Obiekty/RegExp

Sztef89

11.12.2010, 15:53:51

Dzieki @cycofiasz !

Działa jak nalezy, teraz rozumiem dlaczego wcześniej mój kod nie działał.

Mam jeszcze jedno pytanie. Co jeżeli mamy taki kod html:

[HTML] pobierz, plaintext 
<th>scenariusz:</th>            			<td>            			            				                              				                        					<a href="/person/Alyson+Fouse-40701" title="Alyson Fouse" >Alyson Fouse</a>
[HTML] pobierz, plaintext

I chcemy z tego tekstu wyciągnąć ciąg pomiędzy > a </a>
Uwzględniając, że taki ciąg jest przed tym:

<th>scenariusz:</th>#<td>#<a href="*" title="*" >Alyson Fouse</a>

# spacje lub entery lub tabulatory
* jakiś ciąg znaków

Jeżeli znam dokładną liczbę tabulatorów w tych pustych miejscach to jak to zapisać w wyrażeniach regularnych ?

Jak zrozumiem preg_match to postaram się napisać jakiś mądry toturial bo w necie mało jest o tym a manuale wiadomo jakie są

Z góry dziękuję za pomoc

cycofiasz

11.12.2010, 22:27:19

Można tak:

[PHP] pobierz, plaintext 
<?php
 
$str = '<th>scenariusz:</th>            			<td>            			            				                              				                        					<a href="/person/Alyson+Fouse-40701" title="Alyson Fouse" >Alyson Fouse</a>
 
';
 
preg_match('#<th>scenariusz:</th>\s*<td>\s*<a href=".*" title=".*" >(.+)</a>#iU',$str,$m);
print_r($m);
?>
[PHP] pobierz, plaintext

A co do określania długości to wszystko masz w linku w moim poprzednim poście

Sztef89

11.12.2010, 23:19:39

Dzięki !

na te ślaczki typu: .* .+ \s iU
nigdy bym raczej nie wpadł

A z pewnością nie dzisiejszego dnia

Nawet nie wiem do końca co te znaki oznaczają, fajnie by było jakby ktoś to rozpisał... w manualu nie ma o tym mowy a na stronach jakoś dziwnie opisują (może masz jakaś dobrą stronę do poczytania?)

Przerobiłem twój kod żeby najpierw pobierał wszystko pomiędzy <th>scenariusz:</th> a <th>premiera:</th>, a potem szukał w tym autorów scenariusza, działa pińknie

[PHP] pobierz, plaintext 
preg_match_all('@<th>scenariusz:</th>(.*?)<th>premiera:</th>@',$wejscie,$kscen);
$skscen = implode("",$kscen[1]);
 
preg_match_all('#<a href=".*" title="(.+)" >#iU',$skscen,$scen);
$sscen = implode(", ",$scen[1]);
 
echo '<strong>Scenariusz: </strong>';
echo '<font color="green">';
echo $sscen;
echo '</font>';
echo '<br/>';
[PHP] pobierz, plaintext

thek

11.12.2010, 23:42:52

Bo informacji o tych znaczkach szukasz nie w manualu php, ale na stronach gdzie są opisane regexpy

Przykład? http://perldoc.perl.org/perlre.html Mam nadzieję, że strona pomoże

Sztef89

12.12.2010, 00:29:43

Po angielsku... ale na pewno się przyda ! Dzięki !

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.