[PHP]Pobieranie stringu z DOCX / DOC / PDF

[PHP]Pobieranie stringu z DOCX / DOC / PDF, jak wykonać?

casperii Zobacz profil	16.10.2018, 15:17:54 Post #1
Grupa: Zarejestrowani Postów: 681 Pomógł: 28 Dołączył: 14.08.2014 Ostrzeżenie: (0%)	Panowie przeglądając popularne serwisy o pracę , zauważyłem, że na podstawie uploadowanego CV uzupełnia się profil użytkownika. Czy ktoś z obecnych phpowców jest w stanie mi wytłumaczyć z jakiej biblioteki ów serwisy korzystają ?

Odpowiedzi

batman Zobacz profil	17.10.2018, 10:48:26 Post #2
Grupa: Moderatorzy Postów: 2 921 Pomógł: 269 Dołączył: 11.08.2005 Skąd: 127.0.0.1	W przypadku docx (i innych pochodnych formatów) plik to tak naprawdę archiwum zip, które można łatwo rozpakować. W środku znajdziesz wszystkie dołączone obrazki oraz właściwą treść w postaci pliku (lub kilku plików) xml. Wystarczy wiedzieć czego i gdzie szukać i masz gotowe automatyczne uzupełnianie formularza z pliku Worda. W przypadku plików pdf, które są zwykłym skanem jest nieco więcej zabawy. Zazwyczaj robiłem to tak: przy pomocy narzędzia convert (część ImageMagic) konwertowałem pdf do pliku graficznego, a następnie przy pomocy tesseract ocr wyciągałem tekst z obrazka. Na koniec zostało przepuścić tekst przez prosty algorytm nlp i miałem wyciągnięte wszystkie dane. Nie wiem, czy tak robią w podanych przez Ciebie firmach, podejrzewam, że mają podobny workflow.

Posty w temacie

casperii [PHP]Pobieranie stringu z DOCX / DOC / PDF 16.10.2018, 15:17:54

werdan Daj przykład takiego serwisu. Jesteś pewien, że t... 16.10.2018, 20:12:39

casperii praca.pl , pracuj.pl możesz stworzyć swój profil ... 16.10.2018, 21:01:05

viking To zwykły xml spakowany 17.10.2018, 04:13:28

batman W przypadku docx (i innych pochodnych formatów) pl... 17.10.2018, 10:48:26

casperii @batman możesz podać przykład ? dla docx coś tak... 17.10.2018, 19:10:39

batman Kiedyś opisałem na blogu jak wygląda parsowanie pl... 17.10.2018, 22:34:37

markuz pdf2html 18.10.2018, 10:57:44

2 Użytkowników czyta ten temat (2 Gości i 0 Anonimowych użytkowników)

0 Zarejestrowanych:

Tryb wyświetlania: Przełącz na: Standardowy · Przełącz na: Linearny+ · Drzewo

Aktualny czas: 3.10.2025 - 12:57

Hosting zapewnia

Forum PHP.pl