filtr do parsera treści

filtr do parsera treści

thecgla Zobacz profil	27.08.2015, 15:04:58 Post #1
Grupa: Zarejestrowani Postów: 6 Pomógł: 0 Dołączył: 27.08.2015 Ostrzeżenie: (0%)	Witam, Pracuję nad projektem parsera treści. Chciałbym by odróżniał tekst strony z artykułem od bezwartościowych tagów lub arkuszy stylu. Coś w rodzaju robota wyszukiwarkowego. Myślę nad użyciem funkcji która by liczyła wyrazy, czyli liczba liter od 1-16 spacja. I jeśli się to powtarza co najmniej 10 razy to przechodzi. Ale nie wiem jak to ugryźć. Próbowałem ze spójnikami ale dziwnie to wychodzi, ich ilości się kumulują ze względu na krzaczki z polskich znaków w treści. To co napisałem działa częściowo, ale chciałbym by się wyświetlały same artykuły, a filtruje to może z 10% śmieci. Czyściłem też baze danych pod względem występowania konkretnych słów. Nie wiem jak to dalej rozwinąć. I jak używać zachodnich spójników typu "if, or, and," [PHP] pobierz, plaintext $polskiespojniki =array(i, oraz, lecz, albo, czy, lub, ani, czyli, dlatego, zatem, bo, natomiast, że, gdyż, ponieważ, jeśli, jeżeli, bądź); //$zachodniespojniki=array(and, or, but, if, unless, that, until, when, while, where, after, before, because, both, either, even); //funkcja liczaca dany spojnik function Policzspojniki($polskiespojniki, $string) { $licznikspojnikow=0; $iloscprzecinkow=0; foreach ($polskiespojniki as $value) { $iloscprzecinkow=0; echo $value; echo"1"; $spojnik = $value; $str = $string; $a = substr_count($str, $value); //zakomentarzowane dzialanie testowe //echo $spojnik; //echo $a; //echo "</br>"; $licznikspojnikow = $licznikspojnikow + $a; } //licznik przecinkow $iloscprzecinkow = substr_count($string, ","); echo $iloscprzecinkow; // licznik spojnikow echo 'liczenie spojnikow na stronie '; echo 'suma-'; echo $licznikspojnikow; if($licznikspojnikow >3 or $iloscprzecinkow >10) return true; else return false; $iloscprzecinkow=0; $licznikspojnikow=0; } if (Policzspojniki($polskiespojniki, $string)) { echo 'wiecej niż 3 spojniki lub 5 przecinkow'; } else { echo 'mniej niż 3 spojniki lub 5 przecinkow odrzucamy'; } ?> [PHP] pobierz, plaintext Ten post edytował thecgla 27.08.2015, 15:06:14