deduplikacja rekordów bez kopiowania tabeli

deduplikacja rekordów bez kopiowania tabeli

furious_knight Zobacz profil	12.10.2012, 08:46:11 Post #1
Grupa: Zarejestrowani Postów: 43 Pomógł: 0 Dołączył: 18.12.2011 Ostrzeżenie: (0%)	Witam wszystkich, Potrzebuję porady kogoś kto siedzi w SQL i ma pomysł jak rozwiązać mój problem.... Mam w pracy bazę danych która ma 2mln rekordów!! bazę wgrywałem kilka dni partiami z różnych źródeł i muszę przeprowadzić deduplikację przed oddaniem jej do szefa. Baza składa się z około 35 kolumn i mogą zdarzyć się przypadki że rekordy mają taką samą nazwę, adres, nip, itd. różnią się tylko np. telefonem albo mailem. Jedynym co na pewno ich różni to numer id w bazie... jedynym (moim)zdaniem sposobem jest usunięcie rekordów które są identyczne w całości wykluczając pole ID czy zna ktoś przepis na takie zapytanie?? coś w stylu -- usuń rekord jeżeli rekord minus [pole id] istnieje w bazie. ps. wykonanie kopii bazy i porównanie odpada bo zajęło by to co najmniej 2 dni!

Odpowiedzi

sowiq Zobacz profil	12.10.2012, 13:06:57 Post #2
Grupa: Zarejestrowani Postów: 1 890 Pomógł: 339 Dołączył: 14.12.2006 Skąd: Warszawa Ostrzeżenie: (0%)	Wiem, że powinno działać, dlatego pytam (IMG:style_emoticons/default/smile.gif) Kod mysql> SHOW VARIABLES LIKE "version"; +---------------+--------+ \| Variable_name \| Value \| +---------------+--------+ \| version \| 5.5.16 \| +---------------+--------+ 1 row in set (0.00 sec) mysql> CREATE TABLE test ( -> a INT, -> b INT, -> c INT -> ) ENGINE=innodb; Query OK, 0 rows affected (0.10 sec) mysql> INSERT INTO `test` VALUES (1,2,3), (1,2,4), (2,3,3), (2,4,4), (2,4,5); Query OK, 5 rows affected (0.11 sec) Records: 5 Duplicates: 0 Warnings: 0 mysql> SELECT * FROM `test`; +------+------+------+ \| a \| b \| c \| +------+------+------+ \| 1 \| 2 \| 3 \| \| 1 \| 2 \| 4 \| \| 2 \| 3 \| 3 \| \| 2 \| 4 \| 4 \| \| 2 \| 4 \| 5 \| +------+------+------+ 5 rows in set (0.00 sec) mysql> ALTER IGNORE TABLE `test` ADD UNIQUE INDEX (a, b); ERROR 1062 (23000): Duplicate entry '1-2' for key 'a' Ten post edytował sowiq 12.10.2012, 13:07:27

Posty w temacie

furious_knight deduplikacja rekordów bez kopiowania tabeli 12.10.2012, 08:46:11

sowiq Mała podpowiedź, która Cię nakieruje: [SQL] pobier... 12.10.2012, 08:57:14

furious_knight dzięki sowiq świetny sposób żeby wyświetlić listę ... 12.10.2012, 09:35:03

redeemer Można by jeszcze pokombinować z indeksem UNIQUE. [... 12.10.2012, 09:53:55

sowiq Założenie indeksu nie usuwa duplikatów. Dostaniesz... 12.10.2012, 10:03:19

redeemer Cytat(sowiq @ 12.10.2012, 11:03:19 ) ... 12.10.2012, 10:12:48

sowiq To teraz gdzie jest haczyk? Próbowałem dla testu ... 12.10.2012, 12:36:40

redeemer Jaką masz wersję MySQL? Na 5.1+ powinno działać: [... 12.10.2012, 12:49:28

sowiq Wiem, że powinno działać, dlatego pytam Kodmysql... 12.10.2012, 13:06:57

redeemer http://mysqlolyk.wordpress.com/2012/02/18/...ys-gi... 12.10.2012, 13:18:34

sowiq Heh, człowiek uczy się całe życie. A ja jeszcze si... 12.10.2012, 13:40:12

2 Użytkowników czyta ten temat (2 Gości i 0 Anonimowych użytkowników)

0 Zarejestrowanych:

Tryb wyświetlania: Przełącz na: Standardowy · Przełącz na: Linearny+ · Drzewo

Aktualny czas: 14.10.2025 - 21:41

Hosting zapewnia

Forum PHP.pl