Parser HTML - Forum PHP.pl

Parser HTML, Prosty, acz zasobożerny parser HTML

b4rt3kk Zobacz profil	4.10.2013, 13:24:43 Post #1
Grupa: Zarejestrowani Postów: 1 933 Pomógł: 460 Dołączył: 2.04.2010 Skąd: Lublin Ostrzeżenie: (0%)	Witam, przedstawiam do oceny parser HTML mojego autorstwa. Plik do pobrania: http://www.filedropper.com/htmlparserclassphp Opis: Zasada działania jest prosta, wystarczy zaincludować plik z klasą, która znajduje się w powyższym pliku. Następnie utworzyć nowy obiekt, np. [PHP] pobierz, plaintext $parser = new HTMLparser(); [PHP] pobierz, plaintext Dostępne są 3 metody pobierania HTML, który będziemy parsować: - z pliku [PHP] pobierz, plaintext $parser->parseFile($dir); [PHP] pobierz, plaintext - ze stringa [PHP] pobierz, plaintext $parser->parseString($string); [PHP] pobierz, plaintext - z URL [PHP] pobierz, plaintext $parser->parseUrl($url); [PHP] pobierz, plaintext Następnie wywołanie parsera: [PHP] pobierz, plaintext $resource = $parser->find('div'); [PHP] pobierz, plaintext Jako wynik zmienna $resource będzie przechowywać tablicę obiektów DIV-ów znalezionych w parsowanym źródle, bądź jeden obiekt, jeśli w metodzie find jako drugi argument podamy liczbę (wtedy zwróci n-ty DIV z parsowanego źródła). Odczyt informacji: Odczyt jest bardzo prosty, każdy wynik zawiera obiekty text oraz html, ponadto jeśli DIV posiada atrybuty, np. class bądź id zostaną one zwrócone również w postaci obiektów. Przykład: [PHP] pobierz, plaintext foreach ($resource as $div) { echo $div->text; echo $div->html; echo $div->class; // itd. } [PHP] pobierz, plaintext To tak po krótce tytułem wstępu. Jednak parser wymaga optymalizacji, ponieważ czas parsowania średniej wielkości źródła jest dosyć długi. Proszę o oceny, a także o wskazanie dalszej drogi rozwoju owego parsera (zastanawiałem się jeszcze nad wyszukiwaniem elementów HTML np. po class, bądź po ID, jednak w tym momencie nie mam jeszcze pomysłu jak to zrealizować, bo już teraz parser w obecnej formie jest dość "ciężki"). Pozdrawiam i dzięki za ewentualne sugestie. EDIT: Zapomniałem dodać, możemy również szukać dzieci naszych wynikowych obiektów, np. [PHP] pobierz, plaintext foreach ($resource as $div) { echo $div->find('a', 0)->href; } [PHP] pobierz, plaintext Możliwość zagnieżdżania jest nieograniczona. Ten post edytował b4rt3kk 4.10.2013, 13:31:07

Posty w temacie

b4rt3kk Parser HTML 4.10.2013, 13:24:43

sowiq Ja mam tylko jedno pytanie. Czemu miałbym używać T... 4.10.2013, 13:33:50

b4rt3kk Cytat(sowiq @ 4.10.2013, 14:33:50 ) J... 4.10.2013, 14:16:43

mstraczkowski Na pierwszy rzut oka: 1. Brak modyfikatorów dostę... 4.10.2013, 15:40:24

b4rt3kk Cytat(mstraczkowski @ 4.10.2013, 16:40... 5.10.2013, 02:28:37

pyro Wrzuciłbyś jako repozytorium. // ADD Cytat(mstra... 4.10.2013, 18:33:11

mstraczkowski Jak najbardziej, jest to po prostu dobra praktyka. 4.10.2013, 19:59:35

IceManSpy Nie przeglądałem zawartości tego pliku, ale bardzo... 4.10.2013, 22:12:36

mstraczkowski Jeżeli tak podchodzisz do tematu to nie mam Ci nic... 5.10.2013, 08:37:33

b4rt3kk Cytat(mstraczkowski @ 5.10.2013, 09:37... 5.10.2013, 09:11:59

pyro @b4rt3kk, podstawą użyteczności jest poprawnie nap... 5.10.2013, 09:16:32

!*! Cytat(b4rt3kk @ 4.10.2013, 14:24:43 )... 5.10.2013, 09:49:27

« Następny starszy · Oceny · Następny nowszy »

2 Użytkowników czyta ten temat (2 Gości i 0 Anonimowych użytkowników)

0 Zarejestrowanych:

Tryb wyświetlania: Przełącz na: Standardowy · Przełącz na: Linearny+ · Drzewo

Śledź ten temat · Wyślij temat na e-mail · Wydrukuj ten temat · Subskrybuj to forum

Aktualny czas: 24.08.2025 - 09:43

Hosting zapewnia