Witaj Gościu! ( Zaloguj | Rejestruj )

Forum PHP.pl

> parsowanie strony / mod_rewrite
zukowskp
post
Post #1





Grupa: Zarejestrowani
Postów: 23
Pomógł: 3
Dołączył: 8.07.2008

Ostrzeżenie: (0%)
-----


Witam,
mam taki problem. Troche juz na ten temat czytalem choc wyraznie jeszcze za malo i chcialem poeksperymentowac na wlasna reke.
Utworzylem na serwerze plik index.php
CODE
function grab($url) {
$user_agent = "User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)";
$ch = curl_init();

$headadd=array("Accept: image/gif","Accept-Language: pl");
curl_setopt($ch, CURLOPT_URL, $url);
if ($ip!=""){
curl_setopt($ch, CURLOPT_INTERFACE);
}

curl_setopt($ch, CURLOPT_REFERER, $referer);
curl_setopt($ch, CURLOPT_USERAGENT, $user_agent);
curl_setopt($ch, CURLOPT_HTTPHEADER, $headadd);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($ch, CURLOPT_MAXREDIRS, 3);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_TIMEOUT, 30);

$result = curl_exec($ch);
$info = curl_getinfo($ch);
$code = $info['http_code'];
return $result;

}

$result = grab('http://encyklopedia.interia.pl');

preg_match_all("/onMouseOut=\"window.status='\'; return true;\"
class=\"ht\">([A-z0-9 \-]+)<\/a>/",$result,$domena);

print_r($result);

?>

oraz .htaccess
CODE
Options +FollowSymLinks
RewriteEngine On
RewriteRule ^index.html$ index.php [L]
RewriteRule ^haslo-([^-]+)-([^-]+).html$ haslo?hid=$1&kid=$2 [L]
RewriteRule ^(.*).html$ litery?l=$1 [L]
RewriteRule ^(.*).html$ katalog?kid=$1 [L]
RewriteRule ^pk([^-]+)ih([^-]+)kid([^-]+).html$ katalog?kid=$3&pk=$1&ih=$2 [L]


zas wyniki nie sa zachwycajace dla mnie.
chodzi mi o to ze chcialbym wyciagnac tylko ciag takich znakow:
A B C D E F G H I J K L Ł M N O P R S T U W Z

z dzialajacymi linkami.

czy uzaleznione to jest od ciagu znakow w preg_match_all ?

Ten post edytował zukowskp 8.07.2008, 13:25:32
Go to the top of the page
+Quote Post
 
Start new topic
Odpowiedzi
zukowskp
post
Post #2





Grupa: Zarejestrowani
Postów: 23
Pomógł: 3
Dołączył: 8.07.2008

Ostrzeżenie: (0%)
-----


mam jeszcze jedno pytanie w sumie podobna sytuacja ale mysle ze juz prawie jestem na mecie (IMG:http://forum.php.pl/style_emoticons/default/smile.gif) albo o czyms zapomnialem (IMG:http://forum.php.pl/style_emoticons/default/tiredsmiley.gif)

index.php
Kod
$domena=$_SERVER['SERVER_NAME'];

$literka=htmlspecialchars($_GET['literka']);
$imie=htmlspecialchars($_GET['imie']);
$tekst=htmlspecialchars($_GET['tekst']);

if($literka AND $imie=="" AND $tekst=="") { $podstrona="$literka/"; }
if($imie AND $literka=="" AND $tekst=="") { $podstrona="$imie/"; }
if($imie AND $tekst AND $literka=="") { $podstrona="$imie/$tekst"; }

$ch = curl_init("http://imiennik.info/$podstrona");
curl_setopt($ch,CURLOPT_USERAGENT,'Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.14');
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$strona=curl_exec($ch);
curl_close($ch);

//print_r($tresc);

preg_match('[</h1>(.+?)<span style="color:black;]is',$strona,$a);
$tresc=$a[1];
if($tresc=="") {
preg_match('[</h1>(.+?)<td>]is',$strona,$b);
$tresc=$b[1];
}
preg_match('[<h1>(.+?)</a> &raquo;(.+?)</a> &raquo;(.+?)</a> &raquo;(.+?)</h1>]is',$strona,$c);
$tytul=$c[1];

if($literka AND $imie AND $tekst=="") {
$tresc=str_replace ('<a href="', '<a href="'.$literka.','.$imie.',', $tresc);
$tresc=str_replace ('.php" title="', '.html" title="', $tresc);
}

if($literka AND $imie=="" AND $tekst=="") {
$tresc=str_replace ('<a href="', '<a href="'.$literka.',', $tresc);
$tresc=str_replace ('/" title="', '.html" title="', $tresc);
}


mam jeszcze problemy z preg_match, czy moglbym prosic o pomoc czemu jeszcze mi to nie dziala dobrze?

Kod
Options +FollowSymLinks
  RewriteEngine On
  
  RewriteRule ^index.html$ index.php [QSA,L]
  RewriteRule ^(.*).html$ index.php?literka=$1 [QSA,L]
  RewriteRule ^(.*).html$ index.php?imie=$1 [QSA,L]

wynik: hxxp://zukowski.info/imiona

Ten post edytował zukowskp 16.07.2008, 12:37:38
Go to the top of the page
+Quote Post

Posty w temacie


Reply to this topicStart new topic
2 Użytkowników czyta ten temat (2 Gości i 0 Anonimowych użytkowników)
0 Zarejestrowanych:

 



RSS Aktualny czas: 5.10.2025 - 06:04