Forum PHP.pl

Forum PHP.pl > Forum > PHP

Wykrywanie zdublowanych rekordów w pliku xml

pepro Zobacz profil	22.12.2012, 01:44:05 Post #1
Grupa: Zarejestrowani Postów: 12 Pomógł: 0 Dołączył: 20.09.2012 Ostrzeżenie: (0%)	Witajcie. Mój szef zadał mi pracę domową. Jest plik dane.xml o strukturze [XML] pobierz, plaintext <dane> <rec> <name>nazwa</name> <address>adres</address> <city>miasto</city> <tel>600700800</tel> </rec> </dane> [XML] pobierz, plaintext Tych wpisów jest około 12000. wiele pól 'tel' się powtarza więc w jakiś magiczny sposób chciałbym wykryć zdublowane wpisy. W efekcie chciałbym aby wylistowany był tylko jeden a nie kilka czy kilkanaście. Potem wygenerować zmodyfikowany plik dane.xml. Niby wszystko wiem tylko problemem pozostaje wyfiltrowanie i pozbycie się zdublowanych telefonów. Mógłby mnie ktoś naprowadzić czego szukać lub podać jakiś przykład bym mógł sobie jakoś dojść do tego? Serdeczne dzięki z góry za podpowiedzi. Powód edycji: [webdice]: Błąd ortograficzny.

Start new topic

Odpowiedzi (1 - 6)

adbacz Zobacz profil	22.12.2012, 11:11:52 Post #2
Grupa: Zarejestrowani Postów: 532 Pomógł: 24 Dołączył: 15.04.2011 Skąd: Kalisz Ostrzeżenie: (0%)	12000 wpisów w XML to troche dużo wg mnie. Ale jeśli nie brać pod uwagę tego ile ich jest, to wystarczy parsowanie to obiektu lub tablicy, co Ci bardziej pasuje. Później dwie pętle i tyle: [PHP] pobierz, plaintext // Przechowujemy przefiltrowane dane $newData = array(); // Przechowuje oryginalną tablicę z elementami XML $currentData = array(); for($i=0, $count=count($currentData); $i<$count; $i++) { $isset = false; for($j=0, $countj=count($newData); $j<$countj; $j++) { if($currentData[$i]['tel'] == $newData[$j]['tel']) { $isset = true; break; } } if($isset === false) { $newData[] = $currentData[$i]; } } [PHP] pobierz, plaintext Takie coś powinno załatwić sprawę, ale nie wiem jak będzie z wydajnością. Jeśli to ma być tylko jednorazowe filtrowanie to ok, ale jeśli to ma działać częściej to warto pomyśleć nad innym wyjściem.

Crozin Zobacz profil	22.12.2012, 12:07:49 Post #3
Grupa: Zarejestrowani Postów: 6 476 Pomógł: 1306 Dołączył: 6.08.2006 Skąd: Kraków Ostrzeżenie: (0%)	@adbacz: 12.000 wpisów nie jest jakąś szczególnie wielką ilością, bez problemu można nad tym pracować. 1. Potrzebna będzie pomocnicza tablica, gdzie kluczami będą numery telefonów, zaś wartościami (do wyboru): 1.a. Ilość wystąpień (1, 2, 3...). 1.b. Kolejna tablica, zawierająca całą strukturę REC. 2. Potrzebna będzie druga pomocnicza tablica, w której przechowywać będziemy referencje do zdublowanych wpisów z pierwszej tablicy. 3. W przypadku, gdy do danego klucza pierwszej tablicy dopisujemy drugi rekord (wartość równa 2 w przypadku 1.a, bądź ilość elementów w tablicy równa 2 w przypadku 1.b ) tworzymy w drugiej pomocniczej tablicy referencję do owego klucza. Po wykonaniu się skryptu, w pierwszej tablicy będziesz posiadał zgrupowane elementy (względem numeru telefonu), zaś w drugiej tablicy referencję do tych elementów, które reprezentują duplikat (2 lub więcej rekordów o tym samym numerze tel.) EDIT: W drugiej tablicy zamiast referencji wystarczy trzymać klucz (tj. nr tel.). Ten post edytował Crozin 22.12.2012, 12:33:48

irmidjusz Zobacz profil	23.12.2012, 01:36:47 Post #4
Grupa: Zarejestrowani Postów: 279 Pomógł: 60 Dołączył: 25.02.2012 Ostrzeżenie: (0%)	Zaskocz szefa, zrób to za pomocą XPath W XPath 2 można banalnie prosto pobrać tylko unikatowe nody używając distinct-values(). w XPath 1 trzeba użyć transformacji XSLT, ale też się da. Jest dużo przykładów w necie, szukaj w ulubionej wyszukiwarce frazy: select distinct values from xml using xpath -------------------- there is much to be learned

pepro Zobacz profil	23.12.2012, 17:46:05 Post #5
Grupa: Zarejestrowani Postów: 12 Pomógł: 0 Dołączył: 20.09.2012 Ostrzeżenie: (0%)	Hej. Chętnie bym go zaskoczył, ale nie bardzo rozumiem co i jak. Usiłowałem znaleźć jakieś działający przykład by skumać co jest grane na jego przykładzie, ale jakoś mi nie wyszło. Masz może, coś gotowego najlepiej z opisami bym doszedł o co chodzi? To pierwsza moja styczność z xml-em. Wcześniej tylko kontakt z xml-em miałem jak wysyłałem mape witryny do narzędzi google Treaz mam tak: [PHP] pobierz, plaintext <table> <?php echo 'Spis klientów: <br/>'; $klienci = simplexml_load_file('/tmp/test2.xml'); foreach($klienci -> record as $klient){ echo'<tr> <td>Nazwa klienta: '.$klient -> nazwa.'</td> <td>Adres: '.$klient -> adres.'</td> <td>miasto: '.$klient -> city.'</td> <td>email: '.$klient -> email.'</td> </tr>'; } ?> </table> [PHP] pobierz, plaintext to mi ładnie listuje wszystko. Podpowiedziane rozwiązanie przez "adbacz" myślę, że mi wystarczy. To ma raz na jakiś czas przefiltrować plik, więc powinno być ok, ale także nie bardzo wiem jak to kopnąć dalej.

adbacz Zobacz profil	24.12.2012, 01:09:44 Post #6
Grupa: Zarejestrowani Postów: 532 Pomógł: 24 Dołączył: 15.04.2011 Skąd: Kalisz Ostrzeżenie: (0%)	No to co teraz jest trudnego? Masz pętlę, zamień sobie te elementy, które wyświetlają wartości na przypisanie do zmiennej z pseudokodu, czyli do $currentData, a później zapodaj mój skrypt. Na wyjściu będziesz miał unialne rekordy, w których nie będzie się pojawiał numer telefonu więcej niż jeden raz. To już jest zwykła praca z danymi, nic więcej opisu nie potrzebujesz, masz wszystko co potrzeba, teraz trzeba to skleić w całość. Masz i tak już nadto zadanie ułatwione bo masz nawet skrypt w zasięgu ręki, wystarczy skopiować i podstawić dane.

pepro Zobacz profil	25.12.2012, 16:09:33 Post #7
Grupa: Zarejestrowani Postów: 12 Pomógł: 0 Dołączył: 20.09.2012 Ostrzeżenie: (0%)	adbacz, serdeczne dzięki za chęć pomocy, lecz za nic w świece nie mogę zrozumieć w jaki sposób to działa i w jaki sposób skleić to w jedną całość. Ja odpuszczam, ale jakby pojawiło się rozwianie w postaci działającego przykładu to i ja i ludzie na moim poziomie w przyszłości mogliby z tego skorzystać. Raz jeszcze dziękuję.

« Następny starszy · PHP · Następny nowszy »

Reply to this topic

Start new topic

1 Użytkowników czyta ten temat (1 Gości i 0 Anonimowych użytkowników)

0 Zarejestrowanych:

Tryb wyświetlania: Przełącz na: Standardowy · Linearny+ · Przełącz na: Drzewo

Śledź ten temat · Wyślij temat na e-mail · Wydrukuj ten temat · Subskrybuj to forum

Aktualny czas: 22.08.2025 - 06:43

Powered By IP.Board © 2025 IPS, Inc.
All changes by PHP.pl Administrators

Hosting zapewnia

NQ.pl hosting, trac, svn