Witaj Gościu! ( Zaloguj | Rejestruj )

Forum PHP.pl

 
Reply to this topicStart new topic
> Odczytywanie zawartości plików .pdf, w celu zrobienia wyszukiwania po treści plików
sowiq
post
Post #1





Grupa: Zarejestrowani
Postów: 1 890
Pomógł: 339
Dołączył: 14.12.2006
Skąd: Warszawa

Ostrzeżenie: (0%)
-----


Witam,
przymierzam się do zbudowania systemu download dla plików pdf. Z czasem będzie ich sporo, a chciałbym mieć opcję wyszukiwania po treści dokumentów. Oczywiście jest możliwość oprócz wysyłania pliku na serwer zapisywać też do bazy danych skopiowaną ręcznie treść, ale takie rozwiązanie nawet nie leżało koło usability.

Stąd moje pytania.
1. Czy da się za pomocą PHP z pliku .pdf odczytać treść? Wystarczy zwykły text/plain, bo funkcja ta jest potrzebna do zrobienia prostego wyszukiwania.
2. Jeśli jest taka opcja, to jaki ma na to wpływ zabezpieczenie pliku hasłem (np. zabezpieczenie przed kopiowaniem, drukowaniem itp.)?

Z góry dzięki za wskazówki.

Ten post edytował sowiq 9.04.2009, 16:01:15
Go to the top of the page
+Quote Post
erix
post
Post #2





Grupa: Moderatorzy
Postów: 15 467
Pomógł: 1451
Dołączył: 25.04.2005
Skąd: Szczebrzeszyn/Rzeszów




http://www.phpclasses.org/browse/package/702.html winksmiley.jpg

Cytat
to jaki ma na to wpływ zabezpieczenie pliku hasłem

Podejrzewam, że uniemożliwi to przeszukanie pliku.


--------------------

ZCE :: Pisząc PW załączaj LINK DO TEMATU i TYLKO w sprawach moderacji :: jakiś błąd - a TREŚĆ BŁĘDU? :: nie ponaglaj z odpowiedzią via PW!
Go to the top of the page
+Quote Post
sowiq
post
Post #3





Grupa: Zarejestrowani
Postów: 1 890
Pomógł: 339
Dołączył: 14.12.2006
Skąd: Warszawa

Ostrzeżenie: (0%)
-----


Cytat(erix @ 9.04.2009, 21:07:21 ) *
No niestety ta klasa wiele mi nie pomogła. Mówiąc prościej - po prostu nie działa.
Poza tym przeszukałem całe phpclasses.org i php.net próbując praktycznie wszystkiego, co ludzie pisali, ale nie osiągnąłem celu.

Stąd odświeżenie mojego tematu z ponowną prośbą. Może ktoś ma/wie gdzie znaleźć jakąś klasę lub może opisać sposób na odczytanie tekstu z plików pdf?
Go to the top of the page
+Quote Post
Berg
post
Post #4





Grupa: Zarejestrowani
Postów: 180
Pomógł: 37
Dołączył: 1.05.2008
Skąd: Białystok

Ostrzeżenie: (0%)
-----


Możliwe, że zainteresuje Ciebie wpis w manualu który opisuje jak skonwertować PDF na text.
Go to the top of the page
+Quote Post
sowiq
post
Post #5





Grupa: Zarejestrowani
Postów: 1 890
Pomógł: 339
Dołączył: 14.12.2006
Skąd: Warszawa

Ostrzeżenie: (0%)
-----


Dzięki za chęć pomocy, ale niestety ani jedno, ani drugie rozwiązanie nie okazało się pomocne.
Przetestowałem wszystkie wpisy na php.net i ani razu nie udało mi się odczytać zawartości plików.

W najgorszym wypadku pozostanie ręczne skopiowanie treści pdf przed jego uploadem i zapis tej treści do bazy danych (do wyszukiwarki), ale na razie nie poddaje się smile.gif Jak coś znajdę, to napiszę.
Go to the top of the page
+Quote Post
osl
post
Post #6





Grupa: Zarejestrowani
Postów: 260
Pomógł: 41
Dołączył: 6.04.2009
Skąd: Gdańsk/okolice

Ostrzeżenie: (0%)
-----


zerknij może na Apache Tika, pozwala na wyciąganie treści (np. do indeksowania) z plików office, pdf i sporej liczby innych.
może Ci podpasuje smile.gif
Go to the top of the page
+Quote Post

Reply to this topicStart new topic
1 Użytkowników czyta ten temat (1 Gości i 0 Anonimowych użytkowników)
0 Zarejestrowanych:

 



RSS Aktualny czas: 19.08.2025 - 15:33