Witaj Gościu! ( Zaloguj | Rejestruj )

Forum PHP.pl

 
Reply to this topicStart new topic
> indeksacja treści witryn internetowych
pgrzelka
post 15.02.2010, 11:51:42
Post #1





Grupa: Zarejestrowani
Postów: 313
Pomógł: 24
Dołączył: 9.08.2008
Skąd: Kielce

Ostrzeżenie: (0%)
-----


Witam

potrzebuję zrobić indeksację treści z listy podanych stron www.

czy znajdę gotowy skrypt który mi ładnie odfiltruje potrzebny tekst ze stron www?
jeśli nie to jak przefiltrować taką pobraną stronę?

usunięcie wszystkich tagów html odpada, ponieważ muszę zostawić np h1, h2, b, i, u, itp

na razie mam taki kod
  1. preg_match ( '/<body>(.*)<\/body>/si', $this->_source, $body);
  2. $body = $body[0];
  3.  
  4. $body = preg_replace('@<script.*?>.*?</script>@si', '', $body);
  5. $body = preg_replace('@<form.*?>.*?</form>@si', '', $body);
  6. $body = preg_replace('@<!--.*?-->@si', '', $body);
  7. $body = preg_replace('@<div.*?>@si', '<div>', $body);
  8. $body = preg_replace('@<p.*?>@si', '<p>', $body);
  9.  
  10. $body = preg_replace('@<p.*?>(.*?)</p>@si', '{/1}', $body);

kolejno
- pobiera body
- usuwa JS
- usuwa formularze
- usuwa komentarze
- usuwa class i id z divów
- j/w ale z <p>

co jeszcze mogę dodać do takiego kodu? ewentualnie gdzie szukać gotowego rozwiązania


--------------------
Go to the top of the page
+Quote Post

Reply to this topicStart new topic
1 Użytkowników czyta ten temat (1 Gości i 0 Anonimowych użytkowników)
0 Zarejestrowanych:

 



RSS Wersja Lo-Fi Aktualny czas: 14.07.2025 - 04:58