Parsowanie wielkiego pliku html

Parsowanie wielkiego pliku html, Regexp, XML ?? jak do tego lepiej podejść ??

metoda Zobacz profil	2.03.2010, 15:23:28 Post #1
Grupa: Zarejestrowani Postów: 38 Pomógł: 0 Dołączył: 22.12.2008 Ostrzeżenie: (0%)	Witam. Posiadam plik html, który po eliminacji niepotrzebnych znaczników, składa sie głownie z <div> i <span>. Div'y i span'y mają jakieś atrybuty bądź nie. Wygląda to mniej więcej tak: [HTML] pobierz, plaintext <div><span>asd</span><span class="smaller bold">(192206)</span></div> <div class="mg1"><span>ZXC</span><span class="smaller">(36137)</span></div> <div class="mg1"><span>sadf</span><span class="xtrasmall">(9987)</span></div> <div class="mg2"><span>zxC</span><span class="ultrasmall">(382)</span></div> <div class="mg3"><span>zXC</span><span class="ultrasmall">(6733)</span></div> <div><span>xyz</span><span class="smaller bold">(192206)</span></div> <div class="mg1"><span>asd</span><span class="smaller">(36137)</span></div> <div class="mg2"><span>dfg</span><span class="xtrasmall">(9987)</span></div> <div class="mg2"><span>weqr</span><span class="ultrasmall">(382)</span></div> <div class="mg3"><span>asdf</span><span class="ultrasmal [HTML] pobierz, plaintext Jest to pewien katalog kategorii. W <div> jest kategoria głowna, a w <div class="mg1"> jest kategoria podrzędna. Reszta div'ów mnie nie interesuje. Muszę powyciągać tylko te dwa div'y a dokładnie <span> z tych divów. Co najgorsze chyba, to fakt taki że ten plik html zajmuje jakies 4mln znaków. Próbowałem podejść do tego wyrażenie regularnym: [PHP] pobierz, plaintext preg_match_all("#<div([^>])>(.?)</div>#s",$input, $out); [PHP] pobierz, plaintext ale wtedy pobiera wszystkie div'y. Udało mi się to w miarę osiągnąc poprzez XML: [PHP] pobierz, plaintext function parse_cats(){ $categories=array(); $input=file_get_contents('index.html'); $div_input=strip_tags($input,'<div></div><span></span>'); //$out_clear=utf8_encode($div_input); $dom=new DOMDocument(); $dom->loadHTML($div_input); $dom->preserveWhiteSpace=false; $sxml = simplexml_import_dom($dom); $elem=$sxml->body->div; $_flag=false; $outxml=""; foreach ($elem as $node){ if (!$node->attributes()){ if ($_flag){ $outxml.='</cat>'; } $outxml.='<cat name="'.$node->span[0].'">'; $_flag=false; }else{ foreach ($node->attributes() as $att=>$val){ if ($att=="class"&&$val=="mg1"){ $_flag=true; $outxml.='<subcat>'.$node->span[0].'</subcat>'; } } } } $outxml='<categories>'.$outxml.'</cat></categories>'; $out=simplexml_load_string($outxml); $out->asXML('index_parsed.xml'); } parse_cats(); [PHP] pobierz, plaintext Funkcja ta działa dla małego pliku index.html, niestety nie działa przy większym. Dostaję błąd: error: Excessive depth in document: 256 use XML_PARSE_HUGE option Co radzicie

szagi3891 Zobacz profil	5.03.2010, 20:31:48 Post #2
Grupa: Zarejestrowani Postów: 109 Pomógł: 9 Dołączył: 12.03.2007 Skąd: kraków/tarnobrzeg/baranów/suchorzów Ostrzeżenie: (0%)	[PHP] pobierz, plaintext $plik = preg_replace('#^\s+#si' , "" , $plik); $plik = preg_replace('#\n\s+#si', "\n", $plik); $plik = preg_replace('#\s+$#si' , "" , $plik); $plik = preg_replace('#\s+\n#si', "\n", $plik); $plik = preg_replace('#^\<[^>]+\>#si' , "" , $plik); $plik = preg_replace('#\n\<[^>]+\>#si', "\n", $plik); $plik = preg_replace('#\<[^>]+\>$#si' , "" , $plik); $plik = preg_replace('#\<[^>]+\>\n#si', "\n", $plik); [PHP] pobierz, plaintext Tak to możesz zrobić za pomocą wyrażeń regularnych. W zaproponowanym kodzie stopniowo wycinane jest to co jest zbędne. Oczywiście pewnie się da stworzyć jedno większe wyrażenie ale nie chciało mi się zbytnio kombinować. Spróbuj tego. Czy to jest jednorazowa operacja przy przetworzeniu tego pliku którą musisz wykonać ? -------------------- Każdy z was jest łodzią w której Może się z potopem mierzyć Cało wyjść z burzowej chmury Musi tylko w to uwierzyć!

Pilsener Zobacz profil	6.03.2010, 13:01:51 Post #3
Grupa: Zarejestrowani Postów: 1 590 Pomógł: 185 Dołączył: 19.04.2006 Skąd: Gdańsk Ostrzeżenie: (0%)	Pliki obrabia się linia po linii: [PHP] pobierz, plaintext $uchwyt = fopen ("/tmp/inputfile.txt", "r"); while (!feof($uchwyt)) { $linia = rtrim(fgets($uchwyt)); //tu kod obrabiający plik echo $linia.'<br />'; } fclose ($uchwyt); [PHP] pobierz, plaintext - ewentualnie co ileś bajtów.

« Następny starszy · PHP · Następny nowszy »

1 Użytkowników czyta ten temat (1 Gości i 0 Anonimowych użytkowników)

0 Zarejestrowanych:

Tryb wyświetlania: Standardowy · Przełącz na: Linearny+ · Przełącz na: Drzewo

Śledź ten temat · Wyślij temat na e-mail · Wydrukuj ten temat · Subskrybuj to forum

Wersja Lo-Fi

Aktualny czas: 18.07.2025 - 11:05

Hosting zapewnia

Forum PHP.pl