Forum PHP.pl > [XML] DOM i SimpleXML

Pomoc - Szukaj - Użytkownicy - Kalendarz

taktu

26.12.2009, 19:29:02

Pytanie: jak dobrać się do pliku rss który publikuje interia?

plik: http://kanaly.rss.interia.pl/turystyka.xml

problem: kodowanie pliku to UTF-8, ale znalazły się w nim słowackie znaki które w UTF już niestety nie są.

Do tej pory używałem:

[PHP] pobierz, plaintext 
$rssObject = simplexml_load_string( $address, 'SimpleXMLElement', LIBXML_NOCDATA );
[PHP] pobierz, plaintext

Co dało błędy:

[HTML] pobierz, plaintext 
  Warning:  simplexml_load_string() [function.simplexml-load-string]: Entity: line 1: parser error : Start tag expected, '<' not found in 
  
  Warning:  simplexml_load_string() [function.simplexml-load-string]: http://kanaly.rss.interia.pl/turystyka.xml in 
  
  Warning:  simplexml_load_string() [function.simplexml-load-string]: ^ in 
[HTML] pobierz, plaintext

Więc spróbowałem:

[PHP] pobierz, plaintext 
$xmlDoc = new DOMDocument();
$xmlDoc->load( $address );
[PHP] pobierz, plaintext

No i błąd:

[HTML] pobierz, plaintext 
  Warning:  DOMDocument::load() [function.DOMDocument-load]: Input is not proper UTF-8, indicate encoding !  Bytes: 0xB9 0x69 0x6E 0x73 in http://kanaly.rss.interia.pl/turystyka.xml, line: 94 in
[HTML] pobierz, plaintext

Błąd ominąłem w simplexml_load_string:

[PHP] pobierz, plaintext 
 
$file = file_get_contents( $address );
 
$content = mb_convert_encoding( $content, 'UTF-8', mb_detect_encoding($content, 'UTF-8, ISO-8859-1', true));
//lub
$content = iconv( mb_detect_encoding($content, 'UTF-8, ISO-8859-1', true), 'UTF-8', $content );
//efekt ten sam
 
if ($rssObject = simplexml_load_string( $content, 'SimpleXMLElement', LIBXML_NOCDATA ) ){
// ...
}
[PHP] pobierz, plaintext

i otrzymałem

[HTML] pobierz, plaintext 
?šwiÄ?ta Bo??ego Narodzenia we W??oszech sÄ? obchodzone na wiele r??nych sposob??w
[HTML] pobierz, plaintext

Czy ktoś ma większe doświadczenie w kodowaniach? Zależy mi na tym aby tekst był czytelny, słowackie znaki mogą być wykrzaczone. Wszelka pomoc mile widziana.

byqu

26.12.2009, 20:14:34

Spróbuj konwertować polskie znaczki według ich zapisu szesnastkowego:

[PHP] pobierz, plaintext 
<?php 
$chars = array(
    "\xb9" => "\xc4\x85", "\xa5" => "\xc4\x84", "\xe6" => "\xc4\x87", "\xc6" => "\xc4\x86",
    "\xea" => "\xc4\x99", "\xca" => "\xc4\x98", "\xb3" => "\xc5\x82", "\xa3" => "\xc5\x81",
    "\xf3" => "\xc3\xb3", "\xd3" => "\xc3\x93", "\x9c" => "\xc5\x9b", "\x8c" => "\xc5\x9a",
    "\x9f" => "\xc5\xbc", "\xaf" => "\xc5\xbb", "\xbf" => "\xc5\xba", "\xac" => "\xc5\xb9",
    "\xf1" => "\xc5\x84", "\xd1" => "\xc5\x83",
 
    "\xb1" => "\xc4\x85", "\xa1" => "\xc4\x84", "\xe6" => "\xc4\x87", "\xc6" => "\xc4\x86",
    "\xea" => "\xc4\x99", "\xca" => "\xc4\x98", "\xb3" => "\xc5\x82", "\xa3" => "\xc5\x81",
    "\xf3" => "\xc3\xb3", "\xd3" => "\xc3\x93", "\xb6" => "\xc5\x9b", "\xa6" => "\xc5\x9a",
    "\xbc" => "\xc5\xbc", "\xac" => "\xc5\xbb", "\xbf" => "\xc5\xba", "\xaf" => "\xc5\xb9",
    "\xf1" => "\xc5\x84", "\xd1" => "\xc5\x83",
);
$string = strtr($string, $chars);
?>
[PHP] pobierz, plaintext

Jakby któryś znak zamieniało na nie ten, to zobacz na tablicę http://eazu.pl/index.php/zamiana-polskich-...e-odpowiedniki/ , bo to z niej utworzyłem tę.

taktu

27.12.2009, 13:29:19

Ciekawy pomysł ale niestety nie pomoże, znaki które wysypują plik są czesko/słowackie np. "Skoru?ina", "Skoru?inske vrchy", "?trbské Pleso". Poza tym jest to kanał turystyka więc równie dobrze autorzy mogą wkleić nazwy niemieckie, arabskie czy jakiekolwiek inne.

W internetowych czytnikach zauważyłem 2 podejścia:
- odczytanie całego pliku i wyświetlenie informacji w taki sposób, w jaki widać po odpaleniu pliku xml w przeglądarce,
- odczytywanie pliku po kawałku, wysypuje się kiedy ma odczytać informację z błędnym kodowaniem,

Zaczynam dochodzić do wniosku że jedynym sposobem jest napisanie własnej klasy do obsługi xml, alby to w końcu zadziałało. Choć tak naprawdę, to powinien być problem interii żeby trzymała się standardów.

edit:

Znalazłem klasę która odczytuje plik kawałkami, wysypuje się gdy trafi na nieodpowiednie kodowanie, ale to i tak lepsze niż nic

http://articles.sitepoint.com/article/php-...parsing-rss-1-0

zegarek84

27.12.2009, 15:25:23

skoro wiesz jakie to kodowanie ma być to pozostaje Ci tylko je wymusić - możesz to zrobić na 2 sposoby, krótkim kodem a mało wydajnym który odradzam tylko wskazuję drogę do przemyśleń:

[PHP] pobierz, plaintext 
$convmap = array(0xFF, 0x2FFFF, 0, 0xFFFF);
$text=file_get_contents('http://kanaly.rss.interia.pl/turystyka.xml');
$text=mb_decode_numericentity(mb_encode_numericentity ($text, $convmap, 'UTF-8'), $convmap, 'UTF-8');
$doc = new DOMDocument();
$doc->loadXML($text);
echo $doc->saveXML();
[PHP] pobierz, plaintext

lub idea taka sama aczkolwiek kod dłuższy i w sumie pozostawi się encje dla innych znaków - w niczym w końcu to nie przeszkadza:

[PHP] pobierz, plaintext 
function utf2html ($utf2html_string)
{
    $f = 0xffff;
    $convmap = array(
/* <!ENTITY % HTMLlat1 PUBLIC "-//W3C//ENTITIES Latin 1//EN//HTML">
    %HTMLlat1; */
     160,  255, 0, $f,
/* <!ENTITY % HTMLsymbol PUBLIC "-//W3C//ENTITIES Symbols//EN//HTML">
    %HTMLsymbol; */
     402,  402, 0, $f,  913,  929, 0, $f,  931,  937, 0, $f,
     945,  969, 0, $f,  977,  978, 0, $f,  982,  982, 0, $f,
    8226, 8226, 0, $f, 8230, 8230, 0, $f, 8242, 8243, 0, $f,
    8254, 8254, 0, $f, 8260, 8260, 0, $f, 8465, 8465, 0, $f,
    8472, 8472, 0, $f, 8476, 8476, 0, $f, 8482, 8482, 0, $f,
    8501, 8501, 0, $f, 8592, 8596, 0, $f, 8629, 8629, 0, $f,
    8656, 8660, 0, $f, 8704, 8704, 0, $f, 8706, 8707, 0, $f,
    8709, 8709, 0, $f, 8711, 8713, 0, $f, 8715, 8715, 0, $f,
    8719, 8719, 0, $f, 8721, 8722, 0, $f, 8727, 8727, 0, $f,
    8730, 8730, 0, $f, 8733, 8734, 0, $f, 8736, 8736, 0, $f,
    8743, 8747, 0, $f, 8756, 8756, 0, $f, 8764, 8764, 0, $f,
    8773, 8773, 0, $f, 8776, 8776, 0, $f, 8800, 8801, 0, $f,
    8804, 8805, 0, $f, 8834, 8836, 0, $f, 8838, 8839, 0, $f,
    8853, 8853, 0, $f, 8855, 8855, 0, $f, 8869, 8869, 0, $f,
    8901, 8901, 0, $f, 8968, 8971, 0, $f, 9001, 9002, 0, $f,
    9674, 9674, 0, $f, 9824, 9824, 0, $f, 9827, 9827, 0, $f,
    9829, 9830, 0, $f,
/* <!ENTITY % HTMLspecial PUBLIC "-//W3C//ENTITIES Special//EN//HTML">
   %HTMLspecial; */
/* These ones are excluded to enable HTML: 34, 38, 60, 62 */
     338,  339, 0, $f,  352,  353, 0, $f,  376,  376, 0, $f,
     710,  710, 0, $f,  732,  732, 0, $f, 8194, 8195, 0, $f,
    8201, 8201, 0, $f, 8204, 8207, 0, $f, 8211, 8212, 0, $f,
    8216, 8218, 0, $f, 8218, 8218, 0, $f, 8220, 8222, 0, $f,
    8224, 8225, 0, $f, 8240, 8240, 0, $f, 8249, 8250, 0, $f,
    8364, 8364, 0, $f);
 
    return mb_encode_numericentity($utf2html_string, $convmap, 'UTF-8');
}
 
$convmap = array(0xFF, 0x2FFFF, 0, 0xFFFF);
$text=file_get_contents('http://kanaly.rss.interia.pl/turystyka.xml');
$text=utf2html($text);
$doc = new DOMDocument();
$doc->loadXML($text);
echo $doc->saveXML();
[PHP] pobierz, plaintext

jednak jeszcze zamiast funkcji file_get_contents radziłbym używać curl'a z włączoną opcją gzip coby mniej na łączu było transferu lub fsockopen - tyle, że tutaj trzeba sprawdzać jeszcze nagłówki przychodzące i jeśli jest skompresowane gzip'em to samemu dekompresować...

taktu

27.12.2009, 17:50:58

Dzięki za odpowiedź, rzeczywiście zadziałało tak jak trzeba.

Dodam tylko na koniec że nie warto podpowiadać funkcji mb_detect_encoding() jakich kodowań ma szukać. Okazało się że z podpowiedziami źle wykrywała kodowanie..

[PHP] pobierz, plaintext 
//wystarczyło linię:
 
$content = mb_convert_encoding( $content, 'UTF-8', mb_detect_encoding($content, 'UTF-8, ISO-8859-1', true));
 
//zamienic na:
 
 
$content = mb_convert_encoding( $content, 'UTF-8', mb_detect_encoding($content));
[PHP] pobierz, plaintext

i działa równie dobrze.

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.