![]() |
![]() ![]() |
![]() |
![]()
Post
#1
|
|
Grupa: Zarejestrowani Postów: 1 240 Pomógł: 278 Dołączył: 11.03.2008 Ostrzeżenie: (0%) ![]() ![]() |
Cześć,
Mam kilkaset plików pdf (zawierajacych różne tabele), przerabiam je na xml za pomocą pdftohtml: Kod pdftohtml filename -xml -enc "UTF-8" Wynikiem jest plik XML o strukturze: Kod page (number=int, width=int, height=int) text (left=int,top=int,width=int,height=int) content który po wizualizacji wygląda np. w ten sposób: http://imgur.com/a/3vDEg Teraz potrzebuję algorytmu który będzie potrafił tego xml zamienić na tabele html, musi więc: - wykryć kolumny - wykryć wiersze - połączyć treść wierszy (te małe kwadraciki to polskie znaki które są odłączone od reszty) Macie jakieś fajne pomysły? Może ktoś z Was spotkał się kiedyś z takim problemem? Albo w ogóle ide w złym kierunku i takie narzędzie już istnieje? (szukałem, ale nic godnego uwagi nie ma) Skrypt do wizualizacji plików wynikowych (xml) z pdftohtml, gdyby ktoś chciał sie pobawić:
Ten post edytował markuz 29.01.2016, 17:02:23 -------------------- |
|
|
![]() ![]() |
![]() |
Aktualny czas: 21.08.2025 - 07:39 |