Parser HTML - Forum PHP.pl

Parser HTML, Prosty, acz zasobożerny parser HTML

b4rt3kk Zobacz profil	4.10.2013, 13:24:43 Post #1
Grupa: Zarejestrowani Postów: 1 933 Pomógł: 460 Dołączył: 2.04.2010 Skąd: Lublin Ostrzeżenie: (0%)	Witam, przedstawiam do oceny parser HTML mojego autorstwa. Plik do pobrania: http://www.filedropper.com/htmlparserclassphp Opis: Zasada działania jest prosta, wystarczy zaincludować plik z klasą, która znajduje się w powyższym pliku. Następnie utworzyć nowy obiekt, np. [PHP] pobierz, plaintext $parser = new HTMLparser(); [PHP] pobierz, plaintext Dostępne są 3 metody pobierania HTML, który będziemy parsować: - z pliku [PHP] pobierz, plaintext $parser->parseFile($dir); [PHP] pobierz, plaintext - ze stringa [PHP] pobierz, plaintext $parser->parseString($string); [PHP] pobierz, plaintext - z URL [PHP] pobierz, plaintext $parser->parseUrl($url); [PHP] pobierz, plaintext Następnie wywołanie parsera: [PHP] pobierz, plaintext $resource = $parser->find('div'); [PHP] pobierz, plaintext Jako wynik zmienna $resource będzie przechowywać tablicę obiektów DIV-ów znalezionych w parsowanym źródle, bądź jeden obiekt, jeśli w metodzie find jako drugi argument podamy liczbę (wtedy zwróci n-ty DIV z parsowanego źródła). Odczyt informacji: Odczyt jest bardzo prosty, każdy wynik zawiera obiekty text oraz html, ponadto jeśli DIV posiada atrybuty, np. class bądź id zostaną one zwrócone również w postaci obiektów. Przykład: [PHP] pobierz, plaintext foreach ($resource as $div) { echo $div->text; echo $div->html; echo $div->class; // itd. } [PHP] pobierz, plaintext To tak po krótce tytułem wstępu. Jednak parser wymaga optymalizacji, ponieważ czas parsowania średniej wielkości źródła jest dosyć długi. Proszę o oceny, a także o wskazanie dalszej drogi rozwoju owego parsera (zastanawiałem się jeszcze nad wyszukiwaniem elementów HTML np. po class, bądź po ID, jednak w tym momencie nie mam jeszcze pomysłu jak to zrealizować, bo już teraz parser w obecnej formie jest dość "ciężki"). Pozdrawiam i dzięki za ewentualne sugestie. EDIT: Zapomniałem dodać, możemy również szukać dzieci naszych wynikowych obiektów, np. [PHP] pobierz, plaintext foreach ($resource as $div) { echo $div->find('a', 0)->href; } [PHP] pobierz, plaintext Możliwość zagnieżdżania jest nieograniczona. Ten post edytował b4rt3kk 4.10.2013, 13:31:07

Odpowiedzi

mstraczkowski Zobacz profil	4.10.2013, 15:40:24 Post #2
Grupa: Zarejestrowani Postów: 273 Pomógł: 52 Dołączył: 3.02.2013 Skąd: Przemyśl Ostrzeżenie: (0%)	Na pierwszy rzut oka: 1. Brak modyfikatorów dostępu przy metodach 2. Dwie klasy w jednym pliku (tak nie powinno się pisać) 3. Mało komentarzy w kodzie oraz mało poprawne tagi phpdoc (@param, a nie @params) 4. Projektując klasę nie powinno się już raczej używać kończącego tagu php ?> 5. Słaba estetyka kodu Ten post edytował mstraczkowski 4.10.2013, 15:41:02

b4rt3kk Zobacz profil	5.10.2013, 02:28:37 Post #3
Grupa: Zarejestrowani Postów: 1 933 Pomógł: 460 Dołączył: 2.04.2010 Skąd: Lublin Ostrzeżenie: (0%)	Cytat(mstraczkowski @ 4.10.2013, 16:40:24 ) Na pierwszy rzut oka: 1. Brak modyfikatorów dostępu przy metodach 2. Dwie klasy w jednym pliku (tak nie powinno się pisać) 3. Mało komentarzy w kodzie oraz mało poprawne tagi phpdoc (@param, a nie @params) 4. Projektując klasę nie powinno się już raczej używać kończącego tagu php ?> 5. Słaba estetyka kodu Kolego, przepraszam bardzo, ale jak to się ma do zasadności mojego pytania, czyli optymalizacji? To że poprawie komentarz z params na param nie wpłynie w żaden sposób na wydajność klasy. W wersji skompresowanej nawet nie będzie tych komentarzy. Nie oceniasz mojego zeszytu do polskiego, żeby patrzeć na estetykę, czy przypisy na marginesie... Czy mogę liczyć na jakieś sensowne porady? Preg_match nie jest tam znów tak wiele, ale byłbym wdzięczny jakby mi ktoś wskazał choć jeden który mogę zastąpić inną, szybszą funkcją. Lub wykazał błędność mojego toku rozumowania. Ogólnie rzecz biorąc, nie chodzi o estetykę, a o użyteczność.

Posty w temacie

b4rt3kk Parser HTML 4.10.2013, 13:24:43

sowiq Ja mam tylko jedno pytanie. Czemu miałbym używać T... 4.10.2013, 13:33:50

b4rt3kk Cytat(sowiq @ 4.10.2013, 14:33:50 ) J... 4.10.2013, 14:16:43

mstraczkowski Na pierwszy rzut oka: 1. Brak modyfikatorów dostę... 4.10.2013, 15:40:24

b4rt3kk Cytat(mstraczkowski @ 4.10.2013, 16:40... 5.10.2013, 02:28:37

pyro Wrzuciłbyś jako repozytorium. // ADD Cytat(mstra... 4.10.2013, 18:33:11

mstraczkowski Jak najbardziej, jest to po prostu dobra praktyka. 4.10.2013, 19:59:35

IceManSpy Nie przeglądałem zawartości tego pliku, ale bardzo... 4.10.2013, 22:12:36

mstraczkowski Jeżeli tak podchodzisz do tematu to nie mam Ci nic... 5.10.2013, 08:37:33

b4rt3kk Cytat(mstraczkowski @ 5.10.2013, 09:37... 5.10.2013, 09:11:59

pyro @b4rt3kk, podstawą użyteczności jest poprawnie nap... 5.10.2013, 09:16:32

!*! Cytat(b4rt3kk @ 4.10.2013, 14:24:43 )... 5.10.2013, 09:49:27

« Następny starszy · Oceny · Następny nowszy »

2 Użytkowników czyta ten temat (2 Gości i 0 Anonimowych użytkowników)

0 Zarejestrowanych: