Forum PHP.pl

Forum PHP.pl > Forum > PHP

Reply to this topic

Start new topic

[XML] DOM i SimpleXML, rss interii mnie załamuje

taktu Zobacz profil	26.12.2009, 19:29:02 Post #1
Grupa: Zarejestrowani Postów: 89 Pomógł: 7 Dołączył: 19.05.2008 Ostrzeżenie: (0%)	Pytanie: jak dobrać się do pliku rss który publikuje interia? plik: http://kanaly.rss.interia.pl/turystyka.xml problem: kodowanie pliku to UTF-8, ale znalazły się w nim słowackie znaki które w UTF już niestety nie są. Do tej pory używałem: [PHP] pobierz, plaintext $rssObject = simplexml_load_string( $address, 'SimpleXMLElement', LIBXML_NOCDATA ); [PHP] pobierz, plaintext Co dało błędy: [HTML] pobierz, plaintext Warning: simplexml_load_string() [function.simplexml-load-string]: Entity: line 1: parser error : Start tag expected, '<' not found in Warning: simplexml_load_string() [function.simplexml-load-string]: http://kanaly.rss.interia.pl/turystyka.xml in Warning: simplexml_load_string() [function.simplexml-load-string]: ^ in [HTML] pobierz, plaintext Więc spróbowałem: [PHP] pobierz, plaintext $xmlDoc = new DOMDocument(); $xmlDoc->load( $address ); [PHP] pobierz, plaintext No i błąd: [HTML] pobierz, plaintext Warning: DOMDocument::load() [function.DOMDocument-load]: Input is not proper UTF-8, indicate encoding ! Bytes: 0xB9 0x69 0x6E 0x73 in http://kanaly.rss.interia.pl/turystyka.xml, line: 94 in [HTML] pobierz, plaintext Błąd ominąłem w simplexml_load_string: [PHP] pobierz, plaintext $file = file_get_contents( $address ); $content = mb_convert_encoding( $content, 'UTF-8', mb_detect_encoding($content, 'UTF-8, ISO-8859-1', true)); //lub $content = iconv( mb_detect_encoding($content, 'UTF-8, ISO-8859-1', true), 'UTF-8', $content ); //efekt ten sam if ($rssObject = simplexml_load_string( $content, 'SimpleXMLElement', LIBXML_NOCDATA ) ){ // ... } [PHP] pobierz, plaintext i otrzymałem [HTML] pobierz, plaintext ?šwiÄ?ta Bo??ego Narodzenia we W??oszech sÄ? obchodzone na wiele r?(IMG:style_emoticons/default/questionmark.gif) ?nych sposob??w [HTML] pobierz, plaintext Czy ktoś ma większe doświadczenie w kodowaniach? Zależy mi na tym aby tekst był czytelny, słowackie znaki mogą być wykrzaczone. Wszelka pomoc mile widziana. Ten post edytował taktu 26.12.2009, 19:30:21

byqu Zobacz profil	26.12.2009, 20:14:34 Post #2
Grupa: Zarejestrowani Postów: 18 Pomógł: 5 Dołączył: 24.08.2006 Skąd: Warszawa Ostrzeżenie: (0%)	Spróbuj konwertować polskie znaczki według ich zapisu szesnastkowego: [PHP] pobierz, plaintext <?php $chars = array( "\xb9" => "\xc4\x85", "\xa5" => "\xc4\x84", "\xe6" => "\xc4\x87", "\xc6" => "\xc4\x86", "\xea" => "\xc4\x99", "\xca" => "\xc4\x98", "\xb3" => "\xc5\x82", "\xa3" => "\xc5\x81", "\xf3" => "\xc3\xb3", "\xd3" => "\xc3\x93", "\x9c" => "\xc5\x9b", "\x8c" => "\xc5\x9a", "\x9f" => "\xc5\xbc", "\xaf" => "\xc5\xbb", "\xbf" => "\xc5\xba", "\xac" => "\xc5\xb9", "\xf1" => "\xc5\x84", "\xd1" => "\xc5\x83", "\xb1" => "\xc4\x85", "\xa1" => "\xc4\x84", "\xe6" => "\xc4\x87", "\xc6" => "\xc4\x86", "\xea" => "\xc4\x99", "\xca" => "\xc4\x98", "\xb3" => "\xc5\x82", "\xa3" => "\xc5\x81", "\xf3" => "\xc3\xb3", "\xd3" => "\xc3\x93", "\xb6" => "\xc5\x9b", "\xa6" => "\xc5\x9a", "\xbc" => "\xc5\xbc", "\xac" => "\xc5\xbb", "\xbf" => "\xc5\xba", "\xaf" => "\xc5\xb9", "\xf1" => "\xc5\x84", "\xd1" => "\xc5\x83", ); $string = strtr($string, $chars); ?> [PHP] pobierz, plaintext Jakby któryś znak zamieniało na nie ten, to zobacz na tablicę http://eazu.pl/index.php/zamiana-polskich-...e-odpowiedniki/ , bo to z niej utworzyłem tę. Ten post edytował byqu 26.12.2009, 20:15:28

taktu Zobacz profil	27.12.2009, 13:29:19 Post #3
Grupa: Zarejestrowani Postów: 89 Pomógł: 7 Dołączył: 19.05.2008 Ostrzeżenie: (0%)	Ciekawy pomysł ale niestety nie pomoże, znaki które wysypują plik są czesko/słowackie np. "Skoru?ina", "Skoru?inske vrchy", "?trbské Pleso". Poza tym jest to kanał turystyka więc równie dobrze autorzy mogą wkleić nazwy niemieckie, arabskie czy jakiekolwiek inne. W internetowych czytnikach zauważyłem 2 podejścia: - odczytanie całego pliku i wyświetlenie informacji w taki sposób, w jaki widać po odpaleniu pliku xml w przeglądarce, - odczytywanie pliku po kawałku, wysypuje się kiedy ma odczytać informację z błędnym kodowaniem, Zaczynam dochodzić do wniosku że jedynym sposobem jest napisanie własnej klasy do obsługi xml, alby to w końcu zadziałało. Choć tak naprawdę, to powinien być problem interii żeby trzymała się standardów. edit: Znalazłem klasę która odczytuje plik kawałkami, wysypuje się gdy trafi na nieodpowiednie kodowanie, ale to i tak lepsze niż nic (IMG:style_emoticons/default/smile.gif) http://articles.sitepoint.com/article/php-...parsing-rss-1-0 Ten post edytował taktu 27.12.2009, 13:46:14

zegarek84 Zobacz profil	27.12.2009, 15:25:23 Post #4
Grupa: Zarejestrowani Postów: 1 332 Pomógł: 294 Dołączył: 12.10.2008 Skąd: Olkusz Ostrzeżenie: (0%)	skoro wiesz jakie to kodowanie ma być to pozostaje Ci tylko je wymusić - możesz to zrobić na 2 sposoby, krótkim kodem a mało wydajnym który odradzam tylko wskazuję drogę do przemyśleń: [PHP] pobierz, plaintext $convmap = array(0xFF, 0x2FFFF, 0, 0xFFFF); $text=file_get_contents('http://kanaly.rss.interia.pl/turystyka.xml'); $text=mb_decode_numericentity(mb_encode_numericentity ($text, $convmap, 'UTF-8'), $convmap, 'UTF-8'); $doc = new DOMDocument(); $doc->loadXML($text); echo $doc->saveXML(); [PHP] pobierz, plaintext lub idea taka sama aczkolwiek kod dłuższy i w sumie pozostawi się encje dla innych znaków - w niczym w końcu to nie przeszkadza: [PHP] pobierz, plaintext function utf2html ($utf2html_string) { $f = 0xffff; $convmap = array( /* <!ENTITY % HTMLlat1 PUBLIC "-//W3C//ENTITIES Latin 1//EN//HTML"> %HTMLlat1; / 160, 255, 0, $f, / <!ENTITY % HTMLsymbol PUBLIC "-//W3C//ENTITIES Symbols//EN//HTML"> %HTMLsymbol; / 402, 402, 0, $f, 913, 929, 0, $f, 931, 937, 0, $f, 945, 969, 0, $f, 977, 978, 0, $f, 982, 982, 0, $f, 8226, 8226, 0, $f, 8230, 8230, 0, $f, 8242, 8243, 0, $f, 8254, 8254, 0, $f, 8260, 8260, 0, $f, 8465, 8465, 0, $f, 8472, 8472, 0, $f, 8476, 8476, 0, $f, 8482, 8482, 0, $f, 8501, 8501, 0, $f, 8592, 8596, 0, $f, 8629, 8629, 0, $f, 8656, 8660, 0, $f, 8704, 8704, 0, $f, 8706, 8707, 0, $f, 8709, 8709, 0, $f, 8711, 8713, 0, $f, 8715, 8715, 0, $f, 8719, 8719, 0, $f, 8721, 8722, 0, $f, 8727, 8727, 0, $f, 8730, 8730, 0, $f, 8733, 8734, 0, $f, 8736, 8736, 0, $f, 8743, 8747, 0, $f, 8756, 8756, 0, $f, 8764, 8764, 0, $f, 8773, 8773, 0, $f, 8776, 8776, 0, $f, 8800, 8801, 0, $f, 8804, 8805, 0, $f, 8834, 8836, 0, $f, 8838, 8839, 0, $f, 8853, 8853, 0, $f, 8855, 8855, 0, $f, 8869, 8869, 0, $f, 8901, 8901, 0, $f, 8968, 8971, 0, $f, 9001, 9002, 0, $f, 9674, 9674, 0, $f, 9824, 9824, 0, $f, 9827, 9827, 0, $f, 9829, 9830, 0, $f, / <!ENTITY % HTMLspecial PUBLIC "-//W3C//ENTITIES Special//EN//HTML"> %HTMLspecial; / / These ones are excluded to enable HTML: 34, 38, 60, 62 */ 338, 339, 0, $f, 352, 353, 0, $f, 376, 376, 0, $f, 710, 710, 0, $f, 732, 732, 0, $f, 8194, 8195, 0, $f, 8201, 8201, 0, $f, 8204, 8207, 0, $f, 8211, 8212, 0, $f, 8216, 8218, 0, $f, 8218, 8218, 0, $f, 8220, 8222, 0, $f, 8224, 8225, 0, $f, 8240, 8240, 0, $f, 8249, 8250, 0, $f, 8364, 8364, 0, $f); return mb_encode_numericentity($utf2html_string, $convmap, 'UTF-8'); } $convmap = array(0xFF, 0x2FFFF, 0, 0xFFFF); $text=file_get_contents('http://kanaly.rss.interia.pl/turystyka.xml'); $text=utf2html($text); $doc = new DOMDocument(); $doc->loadXML($text); echo $doc->saveXML(); [PHP] pobierz, plaintext jednak jeszcze zamiast funkcji file_get_contents radziłbym używać curl'a z włączoną opcją gzip coby mniej na łączu było transferu lub fsockopen - tyle, że tutaj trzeba sprawdzać jeszcze nagłówki przychodzące i jeśli jest skompresowane gzip'em to samemu dekompresować...

taktu Zobacz profil	27.12.2009, 17:50:58 Post #5
Grupa: Zarejestrowani Postów: 89 Pomógł: 7 Dołączył: 19.05.2008 Ostrzeżenie: (0%)	Dzięki za odpowiedź, rzeczywiście zadziałało tak jak trzeba. Dodam tylko na koniec że nie warto podpowiadać funkcji mb_detect_encoding() jakich kodowań ma szukać. Okazało się że z podpowiedziami źle wykrywała kodowanie.. [PHP] pobierz, plaintext //wystarczyło linię: $content = mb_convert_encoding( $content, 'UTF-8', mb_detect_encoding($content, 'UTF-8, ISO-8859-1', true)); //zamienic na: $content = mb_convert_encoding( $content, 'UTF-8', mb_detect_encoding($content)); [PHP] pobierz, plaintext i działa równie dobrze. Ten post edytował taktu 27.12.2009, 17:51:29

« Następny starszy · PHP · Następny nowszy »

Reply to this topic

Start new topic

2 Użytkowników czyta ten temat (2 Gości i 0 Anonimowych użytkowników)

0 Zarejestrowanych:

Tryb wyświetlania: Standardowy · Przełącz na: Linearny+ · Przełącz na: Drzewo

Śledź ten temat · Wyślij temat na e-mail · Wydrukuj ten temat · Subskrybuj to forum

Aktualny czas: 23.12.2025 - 18:58

Powered By IP.Board © 2025 IPS, Inc.
All changes by PHP.pl Administrators

Hosting zapewnia

NQ.pl hosting, trac, svn