Forum PHP.pl > [xml][DOM] sama podstawa

Pomoc - Szukaj - Użytkownicy - Kalendarz

marcinek37

8.04.2013, 14:15:55

Mam kod:

[PHP] pobierz, plaintext 
<?
$doc = new DOMDocument();
$doc->loadHTML('<HTML><A HREF="ss">asd</A>');
echo $doc;
?>
[PHP] pobierz, plaintext

Dopóki nie dodam ostatniej linijki, błędu nie ma. Jeśli tylko dowiem się w czym leży problem, od razu będę mógł iść dalej z tematem.

phhpinfo() mówi:
DOM/XML enabled
DOM/XML API Version 20031129
libxml Version 2.6.26
HTML Support enabled
XPath Support enabled
XPointer Support enabled
Schema Support enabled
RelaxNG Support enabled

nospor

8.04.2013, 14:20:51

Cytat

Dopóki nie dodam ostatniej linijki, błędu nie ma.

Masz na mysli to:
echo $doc;
?

Mówisz że dostajesz błąd.... super... a może byś raczył się tym błędem z nami podzielić, czy może oczekujesz wróżenia z fusów?

marcinek37

8.04.2013, 17:03:10

kompletnie wypadło mi z głowy, taki jest błąd:

Catchable fatal error: Object of class DOMDocument could not be converted to string in D:\Programy\WebServ\httpd-users\dom\index.php on line 4

melkorm

8.04.2013, 17:14:26

RTFM http://pl1.php.net/manual/en/domdocument.savehtml.php

marcinek37

8.04.2013, 17:30:53

czy macie może linka do jakiegoś poradnika, ale w języku polskim?
może być też temat na tym forum, gdzie ktoś to jakoś objaśnił

zegarek84

8.04.2013, 21:24:37

niestety większość materiałów jest po angielsku... jeśli cokolwiek kumasz to jak najwięcej czytaj i próbuj pisać kod trochę metodą prób i błędów - prędzej i zapamiętasz i zrozumiesz... jednak musisz nauczyć się z grubsza rozumieć bądź po swojemu debugować kod...

jeśli chodzi o DOM to świetne narzędzie - nie wszędzie wygodnie jest korzystać z wyrażeń regularnych a i to nie wszyscy je rozumią...
jeśli dokument chcesz odpytywać przez selektory CSS jak w jQuery to w google znajdziesz odpowiednie biblioteki jak PHPQuery itd... ale bez tych bibliotek możesz też skorzystać ze ścieżek XPath (łatwo jest sobie przekształcić selector CSS na wyrażenie XPath) DOMXPath::query

marcinek37

8.04.2013, 23:23:09

zrobiłem postępy w temacie, ale zatrzymałem się na tym:

[PHP] pobierz, plaintext 
<?
$dom = new DOMDocument('1.0', 'utf-8');
$dom->preserveWhiteSpace = true;
$dom->loadXML('<categories>
<category>
<id>1</id>
<name>AAA</name>
</category>
<category>
<id>2</id>
<name>BBB</name>
</category>
</categories>');
 
foreach($dom->getElementsByTagName('category') AS $category){
echo'id: '.$category->getElementsByTagName('id')->nodeValue;
echo'name: '.$category->getElementsByTagName('name')->nodeValue;
}
?>
[PHP] pobierz, plaintext

Chcę zrobić pętle, aby wybrane pola w konkretnym <category> pokazały się w odpowiedni sposób:

id: 1
name: AAA

id: 2
name: BBB

Wszystko jest ok, ale wartości się nie pokazują

nospor

9.04.2013, 06:41:31

Cytat

Wszystko jest ok, ale wartości się nie pokazują

No to skoro się nie pokazują to chyba jednak nie jest ok....

Włączy wyświetlanie wszytkich błędów, a dowiesz się czemu się nie pokazują.
Temat: Jak poprawnie zada pytanie

getElementsByTagName zwraca listę elementów a trudno oczekiwać by lista miała parametr nodeValue. To pojedynczy element ma taki parametr a nie lista

marcinek37

9.04.2013, 11:24:13

Po dodaniu tego kodu pokazują się takie błędy:
Notice: Undefined property: DOMNodeList::$nodeValue in D:\Programy\WebServ\httpd-users\dom\index.php on line 20

Ale jeśli dam ten kod:

[PHP] pobierz, plaintext 
<?
error_reporting(E_ALL);
ini_set('display_errors','1');
 
$dom = new DOMDocument('1.0', 'utf-8');
$dom->preserveWhiteSpace = true;
$dom->loadXML('<categories>
<category>
<id>1</id>
<name>AAA</name>
</category>
<category>
<id>2</id>
<name>BBB</name>
</category>
</categories>');
 
foreach($dom->getElementsByTagName('category') AS $category){
echo $category->nodeValue;
}
[PHP] pobierz, plaintext

to pokazują się wartości, ale wszystkie na raz i nie wiem, jak z tego $category->nodeValue; wziąć konkretne parametry, najpierw id a potem name
szukałem na tym forum i w internecie i wszędzie wyszukuje się tylko jedno pole, a ja szukam jednego pola, pod którym są kolejne dwa - i w tym problem

zegarek84

9.04.2013, 20:01:30

[PHP] pobierz, plaintext 
<?php
error_reporting(E_ALL);
ini_set('display_errors','1');
 
$dom = new DOMDocument('1.0', 'utf-8');
$dom->preserveWhiteSpace = true;
$dom->loadXML('<categories>
<category>
<id>1</id>
<name>AAA</name>
</category>
<category>
<id>2</id>
<name>BBB</name>
</category>
</categories>');
 
$xpath = new DOMXPath($dom);
 
foreach($xpath->query('//category') AS $category){
    // opcjonalnie zamiast '//category'
    // '//category[id and name]' co znaczy '//category[child::id and child::name]'
    // czyli mające te dzieci
    $itemList = $xpath->query('./id|./name',$category);
    echo 'id: ',$itemList->item(0)->nodeValue, '<br />';
    echo 'name: ',$itemList->item(1)->nodeValue, '<br />';
}
[PHP] pobierz, plaintext

u Ciebie brakowało pobranie elementów z listy czyli ->item(0)... foreach sam przeiterował tą listę... poczytaj o podobieństwach XPath do selektorów CSS to na szybki start da Ci wiele możliwości, czytelniejszy i krótszy zapis... ale jak wolisz...

przykład dałem z XPath a swój popraw i staraj się czytać błędy ze zrozumieniem, gdyż DOMNodeList nie ma własności nodeValue ;p

PS. przy bardzo duuuużych plikach XML i tak będziesz musiał skorzystać z SAX ;] - to dopiero dla Ciebie pewnie będzie hardkor ;]

marcinek37

9.04.2013, 22:49:54

świetnie, działa!

a powiedz mi, "duże" pliki, tzn. jakie? 10MB?

zegarek84

9.04.2013, 23:06:59

to zależy od ustawień serwera... ale każdy plik wczytywany w całości zawsze w pamięci zajmuje co najmniej tyle, co sam plik, a do tego parsowany w całości obiektami typu DOM znacznie więcej, gdyż na każdy z elementów jest tworzony nowy obiekt...

póki nie będziesz musiał zbyt często otwierać duuużych plików XML to wystarczy zwiększyć pamięć wykonywanego skryptu... ale jeśli pliku już będą naprawdę duże lub mniejsze a duże pliki będziesz musiał otwierać baaaaaaardzo często to już coś z tym będziesz musiał zrobić... pierwsza rzecz, jaka przychodzi większości to czytanie pliku po fragmencie i korzystanie z wyrażeń regularnych (nie polecam - choć polecam znać wyr. reg. ;]), w zasadzie jeśli pliku nie będzie można rozbić i będzie on na prawdę duży to przy niskim zużyciu pamięci można go odczytać poprzez SAX (w google hasło "php SAX"), jednak na razie tego tematu nie ruszaj puki nie potrzebujesz a tym bardziej, jeśli nic nie programowałeś zdarzeniowo...

marcinek37

10.04.2013, 00:51:33

ok, a masz może jakiegoś linka do jakiegoś poradnika, który krok po kroku wyjaśni DOM?
ale coś innego niż to, co daje manual

zegarek84

10.04.2013, 11:48:50

popisz trochę w JavaScript, korzystaj z narzędzi typu firebug i narzędzi deweloperskich np. w google chrome i przeglądaj drzewo DOM, tam już z musu musisz wszystkie elementy html traktować jako osobny obiekt, a przeglądając drzewo DOM w narzędziach deweloperskich widzisz, jak dokument został wygenerowany itd... DOM to ogólny model obiektowy dokumentu i jest uniwersalny nie ważne, w jakim języku programowania... bardzo modne i wygodne stało się wyszukiwanie elementów DOM po selektorach CSS - stąd m.in. pierwotna popularność jQuery... choć w czystym JS są już metody typu .querySelektorAll...

jednak jeśli po stronie PHP nie chcesz korzystać z musu z zewnętrznych bibliotek wyszukujących po selektorach CSS to musisz poczytać o podobieństwach XPath do selektorów CSS i o konwersji selektorów CSS do XPath, ale jak załapiesz podstawy to zauważysz duże podobieństwo... dodatkowo XPath oferuje Ci więcej niż wyszukiwanie po selektorach CSS operując na dokumencie XML czy ściągniętej parsowanej stronie np. przez CURL... niestety większość materiałów jest po angielsku i tak z kopyta nie przytoczę Ci linków, jedynie daję wskazówki jak spróbować to łyknąć... dodatkowo w manualu PHP jeśli nie bardzo rozumiesz jak z danej funkcji korzystać lub co może być nie tak to warto przejrzeć też komentarze pod daną funkcją...

samo pisanie styli CSS też daje spojrzenie jakie elementy zostaną ostylowane, tj. prawie jakbyś szukał te elementy po selektorach CSS... więc możesz trochę pobawić się z "grafiką", ale przecież tym nie musisz się zajmować, jednak da Ci szersze spojrzenie... poczytaj o selektorach CSS3 gdyż jak załapiesz XPath to szybko je też dasz radę przekonwertować - ale to do bardziej zaawansowanego wyszukiwania...

pisząc kod HTML staraj się robić odpowiednie wcięcia, domknięcia na tym samym poziomie zagłębienia - będziesz wtedy lepiej w czystym kodzie HTML widział "obiekty"

jeśli chodzi o parsowanie stron to wygodny też jest silnik WebKit ale w C++ w Qt - jednak jest to inny język programowania...

marcinek37

10.04.2013, 23:43:23

1. mam już troszkę rozszerzony kod:

[PHP] pobierz, plaintext 
<?
/* funkcja z manuala */
function DOMinnerHTML($element) 
{ 
    $innerHTML = ""; 
    $children = $element->childNodes; 
    foreach ($children as $child) 
    { 
        $tmp_dom = new DOMDocument(); 
        $tmp_dom->appendChild($tmp_dom->importNode($child, true)); 
        $innerHTML.=trim($tmp_dom->saveHTML()); 
    } 
    return $innerHTML; 
} 
 
 
/* mój kod */
$xml = '<categories>
 
<category>
 <id>1</id>
 <name>AAA</name>
 <photos>
  <photo1>nazwa.jpg</photo1>
 </photos>
</category>
 
<category>
 <id>2</id>
 <name>BBB</name>
 <photos></photos>
 <text>
  <b>opis</b>
 </text>
</category>
 
</categories>';
 
 
$dom = new DOMDocument('1.0', 'utf-8');
$dom->loadXML($xml);
foreach($dom->getElementsByTagName('category') AS $category){
$id = $category->getElementsByTagName('id')->item(0)->nodeValue;
$name = $category->getElementsByTagName('name')->item(0)->nodeValue;
$photo1 = $category->getElementsByTagName('photo1')->item(0)->nodeValue;
$text = $category->getElementsByTagName('text')->item(0)->nodeValue;
 
echo'id: '.$id.'<br />';
echo'name: '.$name.'<br />';
echo'photo1: '.$photo1.'<br />';
echo'text: '.$text.'<br />';
}?>
[PHP] pobierz, plaintext

2. $photo1 ściąga dane bezpośrednio z elementu "photo1", w ogóle omija fakt, że jest jeszcze wcześniej w elemencie "photos" - to chyba nieeleganckie, próbowałem wielu metod, aby w kodzie to zapisać, że element "photo1" jest w elemencie "photos", jednak zawsze wyrzucało błędy albo nie pokazywało niczego - jak mogę to ładnie zapisać?

3. element "text" ma kod HTML, który jest od razu kasowany, wyczytałem, że jest potrzebna funkcja DOMinnerHTML jednak przykład z manuala był o wiele prostszy niż ten, dlatego nie potrafię go zastosować - chcę, aby HTML został jedynie w elemencie "text"; tutaj również próbowałem na kilka sposóbów i żaden nie dał efektu... domyślam się, że moje oba problemy to pikuś, ale nie wiem, jak się za to zabrać :/

zegarek84

11.04.2013, 08:56:03

przede wszystkim zawsze wyświetlaj sobie błędy:
error_reporting(E_ALL|E_STRICT);
ini_set('display_errors', '1');

po drugie nie zawsze miałeś elementy których szukałeś

[PHP] pobierz, plaintext 
<?php
error_reporting(E_ALL|E_STRICT);
ini_set('display_errors', '1');
 
function DOMinnerHTML($element) {
    $children = $element->childNodes;
    $tmp_dom = new DOMDocument();
    foreach ($children as $child) {
        $tmp_dom->appendChild($tmp_dom->importNode($child, true));
    }
    return trim($tmp_dom->saveHTML());
}
 
$xml = '<categories>
 
<category>
 <id>1</id>
 <name>AAA</name>
 <photos>
  <photo1>nazwa.jpg</photo1>
 </photos>
</category>
 
<category>
 <id>2</id>
 <name>BBB</name>
 <photos></photos>
 <text>
  <b>opis</b>
 </text>
</category>
 
</categories>';
 
$dom = new DOMDocument('1.0', 'utf-8');
$dom->loadXML($xml);
foreach ($dom->getElementsByTagName('category') AS $category) {
    $oId = $category->getElementsByTagName('id')->item(0);
    $oName = $category->getElementsByTagName('name')->item(0);
    $oPhoto1 = $category->getElementsByTagName('photo1')->item(0);
    $oText = $category->getElementsByTagName('text')->item(0);
    // ->item() zwraca Element lub NULL
    $id = $oId ? $oId->nodeValue : '';
    $name = $oName ? $oName->nodeValue : '';
    $photo1 = $oPhoto1 ? $oPhoto1->nodeValue : '';
    $text = $oText ? DOMinnerHTML($oText) : '';
 
    echo 'id: ', $id, '<br />';
    echo 'name: ', $name, '<br />';
    echo 'photo1: ', $photo1, '<br />';
    echo 'text: ', $text, '<br />';
}
[PHP] pobierz, plaintext

marcinek37

11.04.2013, 11:11:22

bardzo Ci dziękuję!

1. specjalnie w drugim przypadku nie dałem wszystkich pól, aby sprawdzić, jak się zachowa skrypt
2. a co z nieeleganckim zapisem?
od razu szuka photo1 $oPhoto1 = $category->getElementsByTagName('photo1')->item(0); omijając fakt, że jest w "photos"
3. mógłbyć zapisać mi ten kod w najproszej wersji $id = $oId ? $oId->nodeValue : '';? normalnie w instrukcji warunkowej:

[PHP] pobierz, plaintext 
<?
if($oId == ){ $id = $oId; }
else{  $id = $oId->nodeValue : ''; }
?>
[PHP] pobierz, plaintext

4. i dlaczego jest ten dwukropek na końcu? $oId->nodeValue : '';
5. naprawdę nie przypominasz sobie jakiegoś prostego poradnika, choćby w języku angielskim? albo jakąś książkę? nie chcę tutaj ciągle pytać o takie bzdety...

zegarek84

11.04.2013, 12:58:51

Cytat(marcinek37 @ 11.04.2013, 12:11:22 )

2. a co z nieeleganckim zapisem?
od razu szuka photo1 $oPhoto1 = $category->getElementsByTagName('photo1')->item(0); omijając fakt, że jest w "photos"
3. mógłbyć zapisać mi ten kod w najproszej wersji $id = $oId ? $oId->nodeValue : '';? normalnie w instrukcji warunkowej:
...

przeanalizuj poniższy kod

Cytat(marcinek37 @ 11.04.2013, 12:11:22 )

4. i dlaczego jest ten dwukropek na końcu? $oId->nodeValue : '';

brakuje Ci podstaw programowania w dowolnym języku, jest to skrócony zapis przypisania wartości odpowiadający instrukcji if(){$zmienna = ...}else{$zmienna = }

Cytat(marcinek37 @ 11.04.2013, 12:11:22 )

5. naprawdę nie przypominasz sobie jakiegoś prostego poradnika, choćby w języku angielskim? albo jakąś książkę? nie chcę tutaj ciągle pytać o takie bzdety...

How to map CSS selectors to XPath queries
XPath and CSS Selectors
Korzystając z wyrażeń xpath masz większe możliwości i kontrolę wyszukiwanych elementów

[PHP] pobierz, plaintext 
<?php
error_reporting(E_ALL|E_STRICT);
ini_set('display_errors', '1');
 
function DOMinnerHTML($element) {
    $children = $element->childNodes;
    $tmp_dom = new DOMDocument();
    foreach ($children as $child) {
        $tmp_dom->appendChild($tmp_dom->importNode($child, true));
    }
    return trim($tmp_dom->saveHTML());
}
 
 
$xml = '<categories>
 
<category>
 <id>1</id>
 <name>AAA</name>
 <photos>
  <photo1>nazwa.jpg</photo1>
 </photos>
</category>
 
<category>
 <id>2</id>
 <name>BBB</name>
 <photos></photos>
 <text>
  <b>opis</b>
 </text>
</category>
 
</categories>';
 
$dom = new DOMDocument('1.0', 'utf-8');
$dom->loadXML($xml);
$xpath = new DOMXPath($dom);
foreach ($xpath->query('//category') AS $category) {
    $oId = $xpath->query('./id', $category)->item(0);
    $oName = $xpath->query('./name', $category)->item(0);
    $oPhoto1 = $xpath->query('./photos/photo1', $category)->item(0);
    $oText = $xpath->query('./text', $category)->item(0);
    // ->item() zwraca Element lub NULL
    $id = $name = $photo1 = $text = '';
    if($oId)
        $id = $oId->nodeValue;
    if($oName)
        $name = $oName->nodeValue;
    if($oPhoto1)
        $photo1 = $oPhoto1->nodeValue;
    if($oText)
        $text = DOMinnerHTML($oText);
 
    echo 'id: ', $id, '<br />';
    echo 'name: ', $name, '<br />';
    echo 'photo1: ', $photo1, '<br />';
    echo 'text: ', $text, '<br />';
}
[PHP] pobierz, plaintext

marcinek37

11.04.2013, 15:25:13

czyli muszę korzystać z DOMDocument oraz DOMXPath, aby elegancko przerobić konkretne dane - bardzo dziękuję

co do tych totalnych podstaw... to fakt, mam duże braki, dlatego czytam książkę z heliona, ale nie ma tam rozdziału o spodobach zapisu kodu, jeśli i w tym temacie masz coś ciekawego do poczytania, zrobię to bardzo chętnie

zegarek84

11.04.2013, 17:24:50

z PHP tak na szybko to przeczytaj sobie np. to:
http://framework.zend.com/manual/1.12/en/c...g-standard.html
nie patrz, że to ze strony ZF, na stronie SYMFONY gdzieś była chyba podobna strona...

zresztą jak nie wybrałeś jakiegoś FW to i tak kiedyś będziesz musiał ;]... a stosując się do dobrych praktyk nawet jak nie będziesz mógł skorzystać z gotowego FW to bez problemu napiszesz szkielet podstawowy mini FW...

jest wiele konwencji zapisu zmiennych, sposobów formatowania kodu... ogólnie musisz próbować do jakiejś się dostosować ale bez przesady...

np. zmienne prywatne w prototypach obiektów w JavaScript w zasadzie da się zdefiniować tylko przez konwencję stosując znak podkreślenia na początku _zmienna... choć tą konwencję niektórzy wykorzystują też przy innych językach zważywszy na podpowiadanie kodu przez IDE... nazwy klas powinno zaczynać się dużymi literami, a instancje tych klas z małych już... przy wielu podstawowych zmiennych często pierwsza litera zmiennej może określać typ jak np. $iLat - zmienna typu integer - stąd np. w powyższym kodzie niektóre zmienne poprzedziłem "o" (od obiekt). Jeśli nazwa zmiennej jest wieloczłonowa to należy zdecydować się na jeden ze sposobów zapisu np. moja_dluga_zmienna lub mojaDlugaZmienna

szczerze powiedziawszy to musisz kodować - większe projekty wymusza na tobie stosowanie dobrych praktyk, odpowiedniego nazywania zmiennych, wcięć, odpowiedniego ułożenia i nazywania plików

do PHP na helionie wielu poleci Ci książkę typu "PHP obiekty wzorce i narzędzia" "PHP object, pattern and practice" 3 edycja (jak możesz to czytaj po ang.), ale nie pamiętam, czy jest tam o formatowaniu kodu, jednak ja też tą pozycję polecam...

czytając nowsze pozycje raczej autorzy stosują dobre praktyki...

samych książek z formatowaniem kodu to za bardzo nie pamiętam czy są dobre czy nie ale nasuwają mi się 2 pozycje:
"Clean Code"
"Code Craft - the practice of writing excellent code"

marcinek37

11.04.2013, 23:01:47

troszkę ciekawych informacji z tego linka wyciągnąłem, bardzo Ci dziękuję - ponownie

powstał u mnie kolejny problem:

[PHP] pobierz, plaintext 
<?
$dom = new DOMDocument('1.0', 'utf-8');
$dom->formatOutput = true;
$products_list = $dom->appendChild($dom->createElement('products_list'));
$product = $products_list->appendChild($dom->createElement('product'));
$product->appendChild($dom->createElement('id', 1));
$product->appendChild($dom->createElement('name', '<b>AAA</b>'));
$dom->save('nazwa.xml');
?>
[PHP] pobierz, plaintext

jak widzisz, tworzę już swoje pliki xml (progress jest), jednak element <name> ma zamieniane znaczniki HTML w np. .

całość wygenerowanego pliku wygląda tak:
<?xml version="1.0" encoding="utf-8"?>
<products_list>
<product>
<id>1</id>
<name>AAA</name>
</product>
</products_list>

a powinna tak:
<?xml version="1.0" encoding="utf-8"?>
<products_list>
<product>
<id>1</id>
<name>AAA</name>
</product>
</products_list>

zegarek84

11.04.2013, 23:21:19

Cytat(marcinek37 @ 12.04.2013, 00:01:47 )

jak widzisz, tworzę już swoje pliki xml (progress jest), jednak element <name> ma zamieniane znaczniki HTML w np.

nadeszła chwila relaksu, a że nie jestem programistą z zawodu to nie znam funkcji na pamięć więc pewnie wkradną się błędy lub możesz nie bardzo zrozumieć to co piszę skoro jestem pod wpływem ;p

no właśnie to poprawne działanie - w JavaScript podobny fragment kody wykorzystuje się do implementacji funkcji typu escapeHTML encodeHTML gdzie na odpowiednie znaczniki zamienia się znaki typu <> itd... by np. wyświetlić potem kod HTML... pod tym kontem spojrzyj, to nie będziesz widział błędu ;]

rozwiązanie na szybko jak jestem pod wpływem - luknij która funkcja zamienia tak na encje w manualu php i są jej odpowiedniki do dekodowania - więc w XML'u możesz przechowywać strukturę zakodowaną - co w sumie było by poprawne, gdyż nie przewidywałeś tam dodatkowych elementów drzewa XML (nie patrz na kod HTML ;p) - ps. jeśli jest tam możliwość niepoprawnej struktury XML to niech lepiej to zostanie zakodowane by nie rozwaliło Ci pliku XML (analogia do HTML iniection)...

drugie rozwiązanie na szybko jak jestem pod wpływem przypomina tą funkcję którą robiłeś z innerHTML - po prostu pokombinuj, jak zaimportować już Elementy a nie tekst ;] - jak sam poprubujesz to nawet jak nie dasz rady prędzej to zapamiętasz... daj kod co tam zrobiłeś, jak będę miał czas to może poprawię ;] - ale nie nastawiaj się, że będę miał czas gdyż mam swoje zajęcia jutro (już dziś ;p) w sobotę też a w niedzielę rodzinkę pasuje odwiedzić ;p

pozdro...

marcinek37

12.04.2013, 01:04:14

1. wydaje się, że to ta metoda: createElement przerabia kod HTML na encje
a nie ma ona żadnych dodatkowych parametrów... zrobiłem to łopatologicznie - wygenerowałem plik, a potem go przerobiłem innym skryptem - innego rozwiązania chyba nie znajdziemy

2. postanowiłem wgłębić się w DOM, dla przykładu chcę wykonać listę linków znajdujących się na onecie

[PHP] pobierz, plaintext 
<?
$objDOM = new DOMDocument();
$objDOM->load("http://www.onet.pl"); 
?>
[PHP] pobierz, plaintext

no i pokazała się ogromna lista błędów - czyja to wina? skryptu czy onetu?

zegarek84

12.04.2013, 11:51:23

HTML nie zawsze jest poprawnym dokumentem XML ;] - więc ze stronami niemal zawsze będzie podobnie... mając tego świadomość możesz wyłączyć wyświetlanie błędów przy tej funkcji
@$objDOM->load("http://www.onet.pl");

kod strony zapisanej z obiektu DOM może trochę odbiegać od źródeł... gdy będziesz więcej programował i poznawał inne języki to polecam korzystanie z silnika przeglądarki np. WebKit w Fremworku Qt (ale to już język C++)...

na razie nie przejmuj się tymi błędami... jednak możesz mieć problemy z kodowaniem niektórych stron - czytaj dokumentację i komentarze jak sobie z tym poradzić ;] - dasz radę...

wszystkie linki w wyr. xpath nie ważne gdzie się znajdują to po prostu "//a", z kolei wewnątrz jakiegoś obiektu o określonym id nie bezpośrednie dzieci to "//*[@id="cos_tam"]//a" - zwracaj uwagę kiedy np. stosować "//" a kiedy "/", ale to już chyba doczytałeś... i podobnie jak przykłady wyżej jeśli szukasz xpath względem jakiegoś elementu to zaczynaj wyrażenie od "./"

ps. względem wyr. CSS "//" odpowiada spacji " " a "/" odpowiada ">"

Cytat(marcinek37 @ 12.04.2013, 02:04:14 )

[PHP] pobierz, plaintext 
<?php
error_reporting(E_ALL|E_STRICT);
ini_set('display_errors', '1');
 
$oDom = new DOMDocument('1.0', 'utf-8');
$oDom->formatOutput = true;
$oProductList = $oDom->appendChild($oDom->createElement('products_list'));
$oProduct = $oProductList->appendChild($oDom->createElement('product'));
$oProduct->appendChild($oDom->createElement('id', 1));
$oName = $oProduct->appendChild($oDom->createElement('name')); /* @var $oName DOMNode */
$sName = '<b>AAA';
$oDomTmp = new DOMDocument('1.0', 'utf-8');
// na wszelki wypadek doklejamy body żeby nie tworzyło paragrafów w czystym tekście,
// jeśli wystąpi 2 razy body to zostanie pominięte
@$oDomTmp->loadHTML('<body>'.$sName); // wyciszenie błędów przy niepoprawnych html'ach
$oBody = $oDomTmp->getElementsByTagName('body')->item(0); /* @var $oBody DOMNode */
foreach ($oBody->childNodes as $oEl) { /* @var $oEl DOMNode */
    $oName->appendChild($oDom->importNode($oEl, TRUE));
}
echo $oDom->saveXML();
[PHP] pobierz, plaintext

Cytat(marcinek37 @ 12.04.2013, 02:04:14 )

2. postanowiłem wgłębić się w DOM, dla przykładu chcę wykonać listę linków znajdujących się na onecie

[PHP] pobierz, plaintext 
<?
$objDOM = new DOMDocument();
$objDOM->load("http://www.onet.pl"); 
?>
[PHP] pobierz, plaintext

no i pokazała się ogromna lista błędów - czyja to wina? skryptu czy onetu?

[PHP] pobierz, plaintext 
<?php
error_reporting(E_ALL|E_STRICT);
ini_set('display_errors', '1');
 
$oDOM = new DOMDocument();
@$oDOM->loadHTMLFile("http://www.onet.pl");
$oXPath = new DOMXPath($oDOM);
echo $oXPath->query('//a')->length;
[PHP] pobierz, plaintext

marcinek37

12.04.2013, 11:56:27

bardzo dziękuję za informacje

szkoda tylko, że trzeba używaż dwóch modeli: DOM i xpath, ale to chyba da się ogarnąć

zegarek84

12.04.2013, 12:16:14

poprawiłem powyższy kod - xpath nie musisz używać ale problem był, jeśli miałeś np $sName = 'cokolwiek' jako zwykły string np. z bazy - dodawało paragraf to to poprawiłem i będziesz miał poprawne elementy nawet przy nie poprawnym HTML'u - luknij teraz...

marcinek37

12.04.2013, 15:45:21

na razie nie chcę korzystać z DOMXPath, a skupić się wyłącznie na DOMDocument
martwi mnie, że ten kod nie pokazuje niczego:

[PHP] pobierz, plaintext 
<?
$objDOM = new DOMDocument();
$objDOM->load("http://www.onet.pl"); 
echo $objDOM->SaveHTML();
?>
[PHP] pobierz, plaintext

to przez te błędy, czy po prostu bez DOMXPath nic nie zrobię?

zegarek84

12.04.2013, 16:46:21

przecież napisałem Ci wyżej, iż .load służy do wczytywania plików XML - strona nie ma poprawnego formatu xml miałeś skorzystać z funkcji .loadHTMLFile

[PHP] pobierz, plaintext 
<?php
error_reporting(E_ALL|E_STRICT);
ini_set('display_errors', '1');
 
$objDOM = new DOMDocument();
@$objDOM->loadHTMLFile("http://www.onet.pl"); 
echo $objDOM->saveHTML();
[PHP] pobierz, plaintext

marcinek37

12.04.2013, 17:28:25

przepraszam, źle odczytałem Twoje wskazówki, jest jeszcze jeden mały kłopot, a mianowicie brak polskich znaków:

[PHP] pobierz, plaintext 
<?
error_reporting(E_ALL|E_STRICT);
ini_set('display_errors', '1');
 
$objDOM = new DOMDocument('1.0', 'utf-8');
@$objDOM->loadHTMLFile("http://www.onet.pl"); 
echo mb_convert_encoding($objDOM->SaveHTML(), 'UTF-8', 'HTML-ENTITIES');
?>
[PHP] pobierz, plaintext

to chyba ostatni problem, bo całą resztę zaczynam ogarniać, w dużej mierze dzięki Tobie

zegarek84

12.04.2013, 21:24:10

nie jestem z zawodu programistą ale dawniej do parsowania gry www właśnie korzystałem z PHP i DOM ^^ - niestety z kodowaniem trzeba wziąć sprawy w swoje ręce... oprócz kodu przeczytaj komentarze w tej funkcji:
DOMDocument::loadHTML
więc plik musiałby albo zawierać na początku dyrektywę kodowania albo trzeba przekonwertować źródło i znaki UTF-8 do encji html... preferuję to drugie podejście...

kodowanie na stronie możesz rozpoznać dwojako, albo z nagłówków odpowiedzi jeśli byś korzystał z CURL'a albo z tagu meta określającego kodowanie... no ale żeby go odczytać to musisz w pierw wczytać dokument jakim jest (chyba, że wolisz bawić się z wyrażeniami regularnymi ale nie polecam) - i to podejście Ci na początku polecam... inne rozwiązanie by zmniejszyć pamięć (choć w sumie nie musisz zwłaszcza w celach ćwiczebnych) to ten tag meta odszukać przez SAX i przerwać przeglądanie dokumentu po znalezieniu kodowania - ale na tym etapie wiedzy jak Ci wspominałem wcześniej nawet tego nie dotykaj ;p

a teraz jak znasz kodowanie strony to możesz zrobić np. w ten sposób:

[PHP] pobierz, plaintext 
<?php
error_reporting(E_ALL|E_STRICT);
ini_set('display_errors', '1');
 
$objDOM = new DOMDocument('1.0', 'UTF-8');
$sHTML = mb_convert_encoding(file_get_contents("http://www.onet.pl"),'HTML-ENTITIES', 'UTF-8');
@$objDOM->loadHTML($sHTML); 
// echo $objDOM->saveHTML();
echo mb_convert_encoding($objDOM->saveHTML(),'UTF-8' ,'HTML-ENTITIES');
[PHP] pobierz, plaintext

w ostatniej linijce nie musisz konwertować z powrotem, ale podejrzewam, iż nie chcesz encji ;]

a jeśli nie znasz kodowania to na Twój aktualny poziom wiedzy można by np. w ten sposób:

[PHP] pobierz, plaintext 
<?php
error_reporting(E_ALL | E_STRICT);
ini_set('display_errors', '1');
 
$objDOM = new DOMDocument('1.0', 'UTF-8');
$sHTML = file_get_contents("http://www.onet.pl");
//$sHTML = file_get_contents("http://localhost/modul_1/public/urzytkownik/zarejestrowani/");
@$objDOM->loadHTML($sHTML);
$oXPath = new DOMXPath($objDOM);
$oMeta = $oXPath->query('//meta[@charset]|//meta[@http-equiv and @content]')->item(0);
$oXPath = NULL;
unset($oXPath);
$sEcode = 'UTF-8';
if ($oMeta) {
    if ($oMeta->hasAttribute('charset')) {
        $sEcode = $oMeta->getAttribute('charset');
    }
    if ($oMeta->hasAttribute('content')) {
        $aTemp = explode('=', $sEcode = $oMeta->getAttribute('content'), 2);
        $sEcode = trim($aTemp[1]);
    }
}
$sHTML = mb_convert_encoding($sHTML, 'HTML-ENTITIES', $sEcode);
@$objDOM->loadHTML($sHTML);
// przy następnej linijce uważaj gdyż może Ci rozwalić plik html...
echo mb_convert_encoding($objDOM->saveHTML(), 'UTF-8', 'HTML-ENTITIES');
[PHP] pobierz, plaintext

ps.
przypomniałem sobie i może Cię to zainteresować, a raczej powinieneś się zainteresować jeśli zamierzasz parsować strony
luknij na tą rozwijaną bibliotekę:
https://github.com/html5lib/html5lib-php
info o niej pośrednio ze strony:
http://ejohn.org/blog/pure-javascript-html-parser/

marcinek37

14.04.2013, 23:12:43

przepraszam, że odpisuję Ci dopiero teraz, ale cały weekend byłem poza komputerem...
bardzo, ale to bardzo mi pomogłeś, wszystko jak na razie rozumiem, dziękuję i pozdrawiam

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.