Witaj Gościu! ( Zaloguj | Rejestruj )

Forum PHP.pl

> Wyciąganie treści z HTML, czy sa do tego programy?
sztosz
post
Post #1





Grupa: Zarejestrowani
Postów: 866
Pomógł: 32
Dołączył: 2.06.2004
Skąd: Wrocław

Ostrzeżenie: (0%)
-----


Mam problem, musze wyciagnąć z plików HTML "treść", pozbyć się wszystkich znaczników linków image'ów itp. Pozostwic wyłącznie to co jest najwazniejsze na stronie, czysty tekst. Wiem że znajduje sie poiedzy dwoma znacznikami. I sam bym sobie napisał prosty skrypt w php żeby to zrobił.

No ale niestety jest ALE... Tych pliów jest ponad 50 tyś.

Juz nie wspomnę o tym że komp potrafi mi sie zwiesic jak to przeglądam. Chyba że znacie jakąś przegladarke zawartości dyku która bezproblemowo obsłuży (da sie przeglądać) ponad pół gigowy katalog z wyzej wspomnianą iloscią plików? Tak to dostałem i nawet nie wiem jak to podzielić, kiedy przejrzeć prawie sie nie da (IMG:http://forum.php.pl/style_emoticons/default/sad.gif)
Go to the top of the page
+Quote Post
 
Start new topic
Odpowiedzi (1 - 6)
Chewolf
post
Post #2





Grupa: Zarejestrowani
Postów: 335
Pomógł: 0
Dołączył: 15.11.2003

Ostrzeżenie: (0%)
-----


Jeśli kazdy tekst jest podobnie umiejscowiony, miedzy identycznymi znacznikami. To najprosciej jest napisac skrypt w php lub maly programik w C/C++ czy czymś innym. Oczywiście wszystkiego od razu żaden program nie otworzy musialbys te 50 tys podzielic i szybko bys sie z tym uwinal. A po za tym twoj komp wiesza sie jak otwierasz kilkaset plików, ale jak program bedzie otwieral pokolei, jeden plik o danym rozszerzeniu to bedzie ok.
Go to the top of the page
+Quote Post
sztosz
post
Post #3





Grupa: Zarejestrowani
Postów: 866
Pomógł: 32
Dołączył: 2.06.2004
Skąd: Wrocław

Ostrzeżenie: (0%)
-----


No dobra programik to mogę napisać. Ale problem jest z tym że te ponad 50.000 plików mam w jednym katalogu. I nie mam jak tego podzielić bo po prostu nie wiem jak, samo otworzenie katalogu exploratorem albo Total Commanderem to prawie samobójstwo. Więc pomyslałem sobie, że może ktoś zna jakiś program który by to potrafił z HTML wyciągnąć i jeszcze poukładać, a jeżeli nikt nie zna, to jakiś Menadżer Plików który poradzi sobie z taką ilością plików w katalogu.
Go to the top of the page
+Quote Post
dr_bonzo
post
Post #4





Grupa: Przyjaciele php.pl
Postów: 5 724
Pomógł: 259
Dołączył: 13.04.2004
Skąd: N/A

Ostrzeżenie: (0%)
-----


W php, wczytujesz zawartosc katalogu (opendir, readdir) -> dostajesz po kolei nazwy plikow -> kazdy z nich otwierasz pojedynczo i przepuszczasz przez funkcje, ktora wyciagnie z nich szukana tresc -> zapisujesz tresc do pliku (np. w innym katalogu w pliku o takiej samej nazwie jak ten otwierany).

Najlepiej uzyc do tego php w trybie CLI (command line), albo ustawic max czas wykonania skryptu na zero.
Go to the top of the page
+Quote Post
sztosz
post
Post #5





Grupa: Zarejestrowani
Postów: 866
Pomógł: 32
Dołączył: 2.06.2004
Skąd: Wrocław

Ostrzeżenie: (0%)
-----


Ok spróbuję, ale coś marno to widze (IMG:http://forum.php.pl/style_emoticons/default/sad.gif)
Go to the top of the page
+Quote Post
dr_bonzo
post
Post #6





Grupa: Przyjaciele php.pl
Postów: 5 724
Pomógł: 259
Dołączył: 13.04.2004
Skąd: N/A

Ostrzeżenie: (0%)
-----


Nie ma w tym nic trudnego:

- na forum jest kilka skryptow przegladania katalogu
- odczyt pliku -- trudne? (file_get_contents)
- zapis wynikow (file_put_contents())

no, moze wyszukanie jest trudniejsze (wyrazenia regularne) (IMG:http://forum.php.pl/style_emoticons/default/smile.gif)
Go to the top of the page
+Quote Post
sztosz
post
Post #7





Grupa: Zarejestrowani
Postów: 866
Pomógł: 32
Dołączył: 2.06.2004
Skąd: Wrocław

Ostrzeżenie: (0%)
-----


Mi właśnie chodzi o to przeglądanie katalogu, plików dużo, a jeszcze będę musiał się babrać z wyrażeniami regularnymi w nazwach plików, żeby to poządnie poukładać. Dzięki wogóle za odzew (IMG:http://forum.php.pl/style_emoticons/default/smile.gif) Jakoś sobie poradze, muszę (IMG:http://forum.php.pl/style_emoticons/default/smile.gif)
Go to the top of the page
+Quote Post

Reply to this topicStart new topic
2 Użytkowników czyta ten temat (2 Gości i 0 Anonimowych użytkowników)
0 Zarejestrowanych:

 



RSS Aktualny czas: 22.08.2025 - 11:47