Forum PHP.pl

Forum PHP.pl > Forum > Przedszkole

Reply to this topic

Start new topic

[PHP]Pobieranie stringu z DOCX / DOC / PDF, jak wykonać?

casperii Zobacz profil	16.10.2018, 15:17:54 Post #1
Grupa: Zarejestrowani Postów: 680 Pomógł: 28 Dołączył: 14.08.2014 Ostrzeżenie: (0%)	Panowie przeglądając popularne serwisy o pracę , zauważyłem, że na podstawie uploadowanego CV uzupełnia się profil użytkownika. Czy ktoś z obecnych phpowców jest w stanie mi wytłumaczyć z jakiej biblioteki ów serwisy korzystają ?

werdan Zobacz profil	16.10.2018, 20:12:39 Post #2
Grupa: Zarejestrowani Postów: 354 Pomógł: 100 Dołączył: 14.11.2013 Skąd: Płock Ostrzeżenie: (0%)	Daj przykład takiego serwisu. Jesteś pewien, że to z nadesłanego pliku, a nie z powiązanego konta Linkedin lub goldenline?

casperii Zobacz profil	16.10.2018, 21:01:05 Post #3
Grupa: Zarejestrowani Postów: 680 Pomógł: 28 Dołączył: 14.08.2014 Ostrzeżenie: (0%)	praca.pl , pracuj.pl możesz stworzyć swój profil z nadesłanego pliku CV. Już trochę rozgryzłem, doc, docx, pdf po uploadzie jest konwertowany , szukane są słowa typu imię i nazwisko "Jan Jakiś" i to jest wyciągane jako $wyciaglem[0] tylko ,żeby "rozebrać" całe CV na interesujące nas frazy to trochę je*ania musisz zrobić

viking Zobacz profil	17.10.2018, 04:13:28 Post #4
Grupa: Zarejestrowani Postów: 6 365 Pomógł: 1114 Dołączył: 30.08.2006 Ostrzeżenie: (0%)	To zwykły xml spakowany -------------------- Odpowiedzi na często zadawane pytania: Konfiguracja serwera Apache + PHP 7 pod Windows \| Kodowanie znaków na stronach www \| PHPTAL w Zend Framework \| Programowanie obiektowe w PHP \| PDO uniwersalnym sposobem na obsługę baz danych \| Kurs PHP (część 1): Podstawowy opis języka

batman Zobacz profil	17.10.2018, 10:48:26 Post #5
Grupa: Moderatorzy Postów: 2 921 Pomógł: 269 Dołączył: 11.08.2005 Skąd: 127.0.0.1	W przypadku docx (i innych pochodnych formatów) plik to tak naprawdę archiwum zip, które można łatwo rozpakować. W środku znajdziesz wszystkie dołączone obrazki oraz właściwą treść w postaci pliku (lub kilku plików) xml. Wystarczy wiedzieć czego i gdzie szukać i masz gotowe automatyczne uzupełnianie formularza z pliku Worda. W przypadku plików pdf, które są zwykłym skanem jest nieco więcej zabawy. Zazwyczaj robiłem to tak: przy pomocy narzędzia convert (część ImageMagic) konwertowałem pdf do pliku graficznego, a następnie przy pomocy tesseract ocr wyciągałem tekst z obrazka. Na koniec zostało przepuścić tekst przez prosty algorytm nlp i miałem wyciągnięte wszystkie dane. Nie wiem, czy tak robią w podanych przez Ciebie firmach, podejrzewam, że mają podobny workflow. -------------------- I would love to change the world, but they won't give me the source code. My software never has bugs. It just develops random features.

casperii Zobacz profil	17.10.2018, 19:10:39 Post #6
Grupa: Zarejestrowani Postów: 680 Pomógł: 28 Dołączył: 14.08.2014 Ostrzeżenie: (0%)	@batman możesz podać przykład ? dla docx coś takiego znalazłem: [PHP] pobierz, plaintext function extractDocxText($url,$file_name){ $docx = get_url($url); file_put_contents("tempf.docx",$docx); $xml_filename = "word/document.xml"; //content file name $zip_handle = new ZipArchive; $output_text = ""; if(true === $zip_handle->open("tempf.docx")){ if(($xml_index = $zip_handle->locateName($xml_filename)) !== false){ $xml_datas = $zip_handle->getFromIndex($xml_index); //file_put_contents($input_file.".xml",$xml_datas); $replace_newlines = preg_replace('/<w:p w[0-9-Za-z]+:[a-zA-Z0-9]+="[a-zA-z"0-9 :="]+">/',"\n\r",$xml_datas); $replace_tableRows = preg_replace('/<w:tr>/',"\n\r",$replace_newlines); $replace_tab = preg_replace('/<w:tab\/>/',"\t",$replace_tableRows); $replace_paragraphs = preg_replace('/<\/w:p>/',"\n\r",$replace_tab); $replace_other_Tags = strip_tags($replace_paragraphs); $output_text = $replace_other_Tags; }else{ $output_text .=""; } $zip_handle->close(); }else{ $output_text .=" "; } chmod("tempf.docx", 0777); unlink(realpath("tempf.docx")); //save to file or echo content file_put_contents($file_name,$output_text); echo $output_text; } print extractDocxText('link/cv.docx','test.docx'); [PHP] pobierz, plaintext lecz to pokazuje mi tak jak by całe CV jako 1 string ? Czyli , że miałbym wyciągać interesujące mnie frazy i rozbijać ten string ? Bo nic innego nie przychodzi mi do głowy jak by to miało wyglądać

batman Zobacz profil	17.10.2018, 22:34:37 Post #7
Grupa: Moderatorzy Postów: 2 921 Pomógł: 269 Dołączył: 11.08.2005 Skąd: 127.0.0.1	Kiedyś opisałem na blogu jak wygląda parsowanie plików docx - https://archive.wilgucki.pl/2010/05/jak-odc...docx-w-php.html (niestety po kilku migracjach starego bloga, część zasobów zaginęła, inne wskazują na niepoprawną lokalizację, więc strona jest nieco rozjechana. Muszę to w końcu naprawić). Jest to nieco inne podejście niż w kodzie, który wkleiłeś, ale koniec końców i tak musisz przeparsować tekst, aby wyciągnąć dane. Jeśli format danych jest niezmienny, wystarczy napisać prosty parser bazujących na stałych elementach. Jeśli jednak chcesz parsować różne dokumenty, będziesz musiał pobawić się wyciąganie danych z tekstu. Z pomocą przyjdzie spaCy, bardzo prosta w użyciu biblioteka do nlp. -------------------- I would love to change the world, but they won't give me the source code. My software never has bugs. It just develops random features.

markuz Zobacz profil	18.10.2018, 10:57:44 Post #8
Grupa: Zarejestrowani Postów: 1 240 Pomógł: 278 Dołączył: 11.03.2008 Ostrzeżenie: (0%)	pdf2html -------------------- Blog

« Następny starszy · Przedszkole · Następny nowszy »

Reply to this topic

Start new topic

1 Użytkowników czyta ten temat (1 Gości i 0 Anonimowych użytkowników)

0 Zarejestrowanych:

Tryb wyświetlania: Standardowy · Przełącz na: Linearny+ · Przełącz na: Drzewo

Śledź ten temat · Wyślij temat na e-mail · Wydrukuj ten temat · Subskrybuj to forum

Wersja Lo-Fi

Aktualny czas: 26.04.2024 - 20:22

Powered By IP.Board © 2024 IPS, Inc.
All changes by PHP.pl Administrators

Hosting zapewnia

NQ.pl hosting, trac, svn