Parsowanie wielkiego pliku html

Parsowanie wielkiego pliku html, Regexp, XML ?? jak do tego lepiej podejść ??

metoda Zobacz profil	2.03.2010, 15:23:28 Post #1
Grupa: Zarejestrowani Postów: 38 Pomógł: 0 Dołączył: 22.12.2008 Ostrzeżenie: (0%)	Witam. Posiadam plik html, który po eliminacji niepotrzebnych znaczników, składa sie głownie z <div> i <span>. Div'y i span'y mają jakieś atrybuty bądź nie. Wygląda to mniej więcej tak: [HTML] pobierz, plaintext <div><span>asd</span><span class="smaller bold">(192206)</span></div> <div class="mg1"><span>ZXC</span><span class="smaller">(36137)</span></div> <div class="mg1"><span>sadf</span><span class="xtrasmall">(9987)</span></div> <div class="mg2"><span>zxC</span><span class="ultrasmall">(382)</span></div> <div class="mg3"><span>zXC</span><span class="ultrasmall">(6733)</span></div> <div><span>xyz</span><span class="smaller bold">(192206)</span></div> <div class="mg1"><span>asd</span><span class="smaller">(36137)</span></div> <div class="mg2"><span>dfg</span><span class="xtrasmall">(9987)</span></div> <div class="mg2"><span>weqr</span><span class="ultrasmall">(382)</span></div> <div class="mg3"><span>asdf</span><span class="ultrasmal [HTML] pobierz, plaintext Jest to pewien katalog kategorii. W <div> jest kategoria głowna, a w <div class="mg1"> jest kategoria podrzędna. Reszta div'ów mnie nie interesuje. Muszę powyciągać tylko te dwa div'y a dokładnie <span> z tych divów. Co najgorsze chyba, to fakt taki że ten plik html zajmuje jakies 4mln znaków. Próbowałem podejść do tego wyrażenie regularnym: [PHP] pobierz, plaintext preg_match_all("#<div([^>])>(.?)</div>#s",$input, $out); [PHP] pobierz, plaintext ale wtedy pobiera wszystkie div'y. Udało mi się to w miarę osiągnąc poprzez XML: [PHP] pobierz, plaintext function parse_cats(){ $categories=array(); $input=file_get_contents('index.html'); $div_input=strip_tags($input,'<div></div><span></span>'); //$out_clear=utf8_encode($div_input); $dom=new DOMDocument(); $dom->loadHTML($div_input); $dom->preserveWhiteSpace=false; $sxml = simplexml_import_dom($dom); $elem=$sxml->body->div; $_flag=false; $outxml=""; foreach ($elem as $node){ if (!$node->attributes()){ if ($_flag){ $outxml.='</cat>'; } $outxml.='<cat name="'.$node->span[0].'">'; $_flag=false; }else{ foreach ($node->attributes() as $att=>$val){ if ($att=="class"&&$val=="mg1"){ $_flag=true; $outxml.='<subcat>'.$node->span[0].'</subcat>'; } } } } $outxml='<categories>'.$outxml.'</cat></categories>'; $out=simplexml_load_string($outxml); $out->asXML('index_parsed.xml'); } parse_cats(); [PHP] pobierz, plaintext Funkcja ta działa dla małego pliku index.html, niestety nie działa przy większym. Dostaję błąd: error: Excessive depth in document: 256 use XML_PARSE_HUGE option Co radzicie