Forum PHP.pl

Forum PHP.pl > Forum > PHP

Reply to this topic

Start new topic

DOMDoc || curl - polskie znaki

Czizes Zobacz profil	5.10.2010, 14:44:19 Post #1
Grupa: Zarejestrowani Postów: 2 Pomógł: 0 Dołączył: 12.04.2010 Ostrzeżenie: (0%)	Witam, Mam problem z polskimi znakami (kodowaniem do utf-8) przy używaniu curl'a i domdocument'a przy parsowaniu innej strony. Próbowałem już wielu rozwiązań, m.in. php scraper'a z php.net, podmianą funkcjami kodujacymi itp. Gdy wyświetlam ściągnięte dane poprzez mb_detect_encoding(), część stringów jest faktycznie w utf-8, a część w ASCII. Męczę się już dłuższy czas, dlatego postanowiłem zaciągnąć rady u Was. Poniżej podaję kod (jest to ostatnia wersja z częścią próby poradzenia sobie z problem zaciągniętym na php.net, pominę ten moment): [PHP] pobierz, plaintext $ch= curl_init(); curl_setopt ($ch, CURLOPT_URL, $url ); curl_setopt($ch, CURLOPT_HEADER, 0); curl_setopt($ch,CURLOPT_VERBOSE,1); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch,CURLOPT_POST,0); curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 20); $html= curl_exec($ch); $html1= curl_getinfo($ch); /tutaj część odpowiadająca za podmianę meta http-eqiv/ $dom = new DOMDocument() or die( 'Błąd ładowania DOMdocumentu' ); $dom->preserveWhiteSpace = false; $page = @$dom->loadHTML($html) or die ( 'Błąd ładowania linka' ); if ( !$page ) { exit( 'Koniec przeszukiwania' ); } #pobieram wszystkie linki z odpowiednią klasą $elements = $dom->getElementsByTagName('a'); if (!is_null($elements)) { foreach ($elements as $element) { if ( !is_null($element->getAttribute('href') )){ if ( !is_null( $element->getAttribute( 'class' )) && $element->getAttribute( 'class' ) == 'fn openPreview' ){ $all[] = $element->getAttribute('href'); } } } for ( $i = 0; $i <= count( $all ) - 1; $i++ ){ #kolejna próba zmiany kodowania $html=preg_replace('/<head[^>]*>/','<head> <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=utf-8">', $all[$i]); @$dom->loadHTMLFile( $html ); $xpath = new DOMXpath( $dom ); [...] } #i dalej wyciąganie danych z kolejnych linków [PHP] pobierz, plaintext Za wszelkie podpowiedzi serdecznie dziękuje. Jeżeli czegoś brakuje w powyższym kodzie, chętnie ponownie dodam brakujące elementy. Pozdrawiam.

zegarek84 Zobacz profil	5.10.2010, 18:30:54 Post #2
Grupa: Zarejestrowani Postów: 1 332 Pomógł: 294 Dołączył: 12.10.2008 Skąd: Olkusz Ostrzeżenie: (0%)	Cytat $html=preg_replace('/<head[^>]>/','<head> <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=utf-8">', $all[$i]); wszystko ładnie i pięknie (ta kolejna próba zmiany kodowania ;p) ale Ty to robisz nie na źródle a na linkach wyciągniętych ze źródła ;p ];-> kiedyś (dawniej jak grałem w plemiona) miałem podobny problem - i rozwiązaniem było wstawienie meta bezpośrednio na początku <head>... (ale i wyrażenia regularne tutaj też są nad wyraz)... poza tym o ile mi wiadomo przy nowszej wersji php DOM domyślnie źródło traktuje kodowaniem utf-8 Cytat $html=preg_replace('/<head[^>]>/','<head> <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=utf-8">', $all[$i]); @$dom->loadHTMLFile( $html ); pomińmy wyrażenie regularne... ale w tym momencie pytanie - korzystasz z tego curl'a czy nie i masz url_open na true ustawiony (jakoś tak się to zwie - trochum wstawiony ;p)... dokładniej to w zmiennej $html tutaj masz adres internetowy ("pełny" z http/www lub nie - jeśli pełny to zapewne bez problemu otwiera daną stronę bez curl'a - ale i bez ciasteczek i plusów związanych z curl'em lub innych tego typu bibliotek)... w pętli wcześniejszej do tablicy all zapisywałeś wartości atrybutów href... pobierając nowy dokument (bez udziału curl'a) jeśli brakowało tego meta to go nie wstawiałeś (a jeśli było to w niektórych przypadkach nie wystarczało, że jest i nie jest definiowane w pierwszej kolejności w head...) - w każdym bądź razie wykrycie wartości i innych rzeczy do końca head nie stanowi najmniejszego problemu gdyż tam nie ma znaków specjalnych... ps. nie wyciszaj błędów - po to one są by coś sygnalizować - zwłaszcza, że szukasz choćby teraz błędów... Ten post edytował zegarek84 5.10.2010, 18:33:25 -------------------- Jeśli twoja ręka rusza do przodu powstrzymaj swój gniew; gdy wyprzedza cię twój gniew - wycofaj rękę. zegarek84

Czizes Zobacz profil	6.10.2010, 07:31:06 Post #3
Grupa: Zarejestrowani Postów: 2 Pomógł: 0 Dołączył: 12.04.2010 Ostrzeżenie: (0%)	Dzięki za odpowiedź. Zaraz usiąde i pokombinuje na nowo. To jest już chyba 5ta wersja podejścia do tego problemu i tak to teraz wygląda. Zauważyłem na wielu forach (nie tylko polskich), że sporo osób ma takie same problemy, z którymi sobie radzą najczęściej przy użyciu iconv (co u mnie nie zadziałało). U mnie przy ściąganiu tej zewnętrznej strony część wyciągniętych znaków jest kodowana w ASCII, a mniejsza część normalnie w UTF-8 (które i tak posiadają krzaki). Dziwne. Dodatkowo się zastanawiałem czy istnieje również możliwość, że winą za takie "krzaczki" można obarczyć na przykład jakiś pośredniczący system operacyjny bądź jeszcze co innego?

CuteOne Zobacz profil	6.10.2010, 13:29:48 Post #4
Grupa: Zarejestrowani Postów: 2 958 Pomógł: 574 Dołączył: 23.09.2008 Skąd: wiesz, że tu jestem? Ostrzeżenie: (0%)	Dawno się curlem nie bawiłem i mogę się mylić ale po pobraniu strony sprawdź jej kodowanie [$charset = preg_replace()] i wstaw to: [PHP] pobierz, plaintext $charset = preg_replace(//wstaw tu regexp, żeby dało się wyciągnąc "charset=utf-8", $page); header('Content-type: text/html; charset='.$charset); @$dom->loadHTMLFile( $html ); $xpath = new DOMXpath( $dom ); [...] } [PHP] pobierz, plaintext Nie jestem pewien ale zapis strony w odpowiednim kodowaniu również wpływa na wyświetlanie "krzaczków"

« Następny starszy · PHP · Następny nowszy »

Reply to this topic

Start new topic

1 Użytkowników czyta ten temat (1 Gości i 0 Anonimowych użytkowników)

0 Zarejestrowanych:

Tryb wyświetlania: Standardowy · Przełącz na: Linearny+ · Przełącz na: Drzewo

Śledź ten temat · Wyślij temat na e-mail · Wydrukuj ten temat · Subskrybuj to forum

Wersja Lo-Fi

Aktualny czas: 14.08.2025 - 09:12

Powered By IP.Board © 2025 IPS, Inc.
All changes by PHP.pl Administrators

Hosting zapewnia

NQ.pl hosting, trac, svn