![]() |
![]() |
![]()
Post
#1
|
|
Grupa: Zarejestrowani Postów: 681 Pomógł: 28 Dołączył: 14.08.2014 Ostrzeżenie: (0%) ![]() ![]() |
Panowie przeglądając popularne serwisy o pracę , zauważyłem, że na podstawie uploadowanego CV uzupełnia się profil użytkownika.
Czy ktoś z obecnych phpowców jest w stanie mi wytłumaczyć z jakiej biblioteki ów serwisy korzystają ? |
|
|
![]() |
![]()
Post
#2
|
|
Grupa: Moderatorzy Postów: 2 921 Pomógł: 269 Dołączył: 11.08.2005 Skąd: 127.0.0.1 ![]() |
W przypadku docx (i innych pochodnych formatów) plik to tak naprawdę archiwum zip, które można łatwo rozpakować. W środku znajdziesz wszystkie dołączone obrazki oraz właściwą treść w postaci pliku (lub kilku plików) xml. Wystarczy wiedzieć czego i gdzie szukać i masz gotowe automatyczne uzupełnianie formularza z pliku Worda. W przypadku plików pdf, które są zwykłym skanem jest nieco więcej zabawy. Zazwyczaj robiłem to tak: przy pomocy narzędzia convert (część ImageMagic) konwertowałem pdf do pliku graficznego, a następnie przy pomocy tesseract ocr wyciągałem tekst z obrazka. Na koniec zostało przepuścić tekst przez prosty algorytm nlp i miałem wyciągnięte wszystkie dane. Nie wiem, czy tak robią w podanych przez Ciebie firmach, podejrzewam, że mają podobny workflow.
|
|
|
![]() ![]() |
![]() |
Aktualny czas: 3.10.2025 - 12:57 |