Witaj Gościu! ( Zaloguj | Rejestruj )

Forum PHP.pl

 
Reply to this topicStart new topic
> PDF to HTML
kilas88
post
Post #1





Grupa: Zarejestrowani
Postów: 305
Pomógł: 25
Dołączył: 27.01.2007

Ostrzeżenie: (0%)
-----


Witam,

Mam całkiem fajne zadanie, bowiem muszę napisać konwerter PDF do plików HTML. I tutaj kilka pytań:

1) Czy możecie polecić jakieś gotowe narzędzia/biblioteki do takowej konwersji?
2) Czy uda mi się również pobrać zdjęcia / niestandardowe czcionki / etc?
3) Czy ktokolwiek ma jakieś doświadczenie w temacie i może się nim podzielić?
4) Co z polskimi znakami, czy narzędzia typu pdf2txt sobie z tym poradzą?

Kilka moich wytycznych:

1) Wiem, że nie zawsze da się odczytać tekst z PDF. Czy nie obejdzie się bez OCR, czy jednak są łatwiejsze metody?

2) W swoim narzędziu zastosuję następujące rozwiązanie - jest przycisk "konwersuj pdf to html", klikam i wczytuję PDF, chwilę serwer pracuje i zwraca mi wynik. Następnie przechodzę do formularza, w którym widzę cały pobrany tekst i mam możliwość dokonania korekty / poprawek. Czy to dobre rozwiązanie?

3) Jest też pomysł na skorzystanie z Google Docs - wczytuję pdf przez ich narzędzie, po ich stronie jest odczytywane, następnie otwieram i mam już przekonwertowane do HTML (wszystko to będzie zautomatyzowane). Czy to najlepsza opcja czy mogę to samo zrobić przy pomocy jakiegoś narzędzia, bez udziału Gogole?

I to by było na tyle, proszę o pomoc osoby mające doświadczenie w temacie jak się do tego zabrać.
Go to the top of the page
+Quote Post

Reply to this topicStart new topic
1 Użytkowników czyta ten temat (1 Gości i 0 Anonimowych użytkowników)
0 Zarejestrowanych:

 



RSS Aktualny czas: 20.08.2025 - 05:45