[XML] PDF to XML to HTML Table

[XML] PDF to XML to HTML Table

markuz Zobacz profil	29.01.2016, 17:00:59 Post #1
Grupa: Zarejestrowani Postów: 1 240 Pomógł: 278 Dołączył: 11.03.2008 Ostrzeżenie: (0%)	Cześć, Mam kilkaset plików pdf (zawierajacych różne tabele), przerabiam je na xml za pomocą pdftohtml: Kod pdftohtml filename -xml -enc "UTF-8" Wynikiem jest plik XML o strukturze: Kod page (number=int, width=int, height=int) text (left=int,top=int,width=int,height=int) content który po wizualizacji wygląda np. w ten sposób: http://imgur.com/a/3vDEg Teraz potrzebuję algorytmu który będzie potrafił tego xml zamienić na tabele html, musi więc: - wykryć kolumny - wykryć wiersze - połączyć treść wierszy (te małe kwadraciki to polskie znaki które są odłączone od reszty) Macie jakieś fajne pomysły? Może ktoś z Was spotkał się kiedyś z takim problemem? Albo w ogóle ide w złym kierunku i takie narzędzie już istnieje? (szukałem, ale nic godnego uwagi nie ma) Skrypt do wizualizacji plików wynikowych (xml) z pdftohtml, gdyby ktoś chciał sie pobawić: [PHP] pobierz, plaintext <!doctype html> <html lang="en"> <head> <meta charset="UTF-8"/> <title>xmltotable</title> </head> <body> <input type="file" name="file" /> <script type="text/javascript"> window.onload = function() { document.getElementsByTagName('input')[0].addEventListener('change', function(evt) { var reader = new FileReader(); reader.onloadend = function(event) { var parser = new DOMParser(), xml = parser.parseFromString(event.target.result.toString(), 'text/xml'), pages = xml.getElementsByTagName('page'); for(var p in pages) { if(pages.hasOwnProperty(p)) { var page = pages[p], texts = page.getElementsByTagName('text'), canvas = document.createElement('canvas'), ctx = canvas.getContext('2d'); canvas.width = page.getAttribute('width'); canvas.height = page.getAttribute('height'); canvas.style.marginTop = '10px'; ctx.strokeRect(0, 0, canvas.width, canvas.height); for(var t in texts) { if(texts.hasOwnProperty(t)) { var text = texts[t]; ctx.strokeRect( parseInt(text.getAttribute('left')), parseInt(text.getAttribute('top')), parseInt(text.getAttribute('width')), parseInt(text.getAttribute('height')) ); } } document.body.appendChild(canvas); } } }; reader.readAsText(evt.target.files[0], 'UTF-8'); }, false); }; </script> </body> </html> [PHP] pobierz, plaintext Ten post edytował markuz 29.01.2016, 17:02:23 -------------------- Blog