Witaj Gościu! ( Zaloguj | Rejestruj )

Forum PHP.pl

> identyfikacja MP3 po MD5
erix
post 1.09.2010, 19:19:27
Post #1





Grupa: Moderatorzy
Postów: 15 467
Pomógł: 1451
Dołączył: 25.04.2005
Skąd: Szczebrzeszyn/Rzeszów




Czy ktoś zna serwis identyfikujący MP3 po MD5? (chodzi mi o sam blok danych, bez uwzględnienia ID3/etc).


--------------------

ZCE :: Pisząc PW załączaj LINK DO TEMATU i TYLKO w sprawach moderacji :: jakiś błąd - a TREŚĆ BŁĘDU? :: nie ponaglaj z odpowiedzią via PW!
Go to the top of the page
+Quote Post
 
Start new topic
Odpowiedzi (1 - 18)
everth
post 1.09.2010, 19:56:01
Post #2





Grupa: Zarejestrowani
Postów: 782
Pomógł: 153
Dołączył: 21.07.2010

Ostrzeżenie: (0%)
-----


Prawdopodobnie coś takiego nie istnieje. Z prostego powodu - zbyt wiele wersji tego samego utworu może istnieć i być w obiegu. Jeśli szukasz sposobu do odgadywania tagów mp3 to może poczytaj o MusicBrainz. Może ci pomoże (bo za bardzo nie wiem do czego ci ta baza miałaby służyć).


--------------------
Już mi się ani wiedzieć, ani tym bardziej myśleć nie chce.
[Think different]!
Go to the top of the page
+Quote Post
erix
post 1.09.2010, 19:57:48
Post #3





Grupa: Moderatorzy
Postów: 15 467
Pomógł: 1451
Dołączył: 25.04.2005
Skąd: Szczebrzeszyn/Rzeszów




No ok, ale przecież istnieją projekty a'la Napiprojekt. winksmiley.jpg

Też podobna zasada i ten sam problem. winksmiley.jpg


--------------------

ZCE :: Pisząc PW załączaj LINK DO TEMATU i TYLKO w sprawach moderacji :: jakiś błąd - a TREŚĆ BŁĘDU? :: nie ponaglaj z odpowiedzią via PW!
Go to the top of the page
+Quote Post
everth
post 1.09.2010, 20:23:42
Post #4





Grupa: Zarejestrowani
Postów: 782
Pomógł: 153
Dołączył: 21.07.2010

Ostrzeżenie: (0%)
-----


Niby tak, ale zastanów się - napisy do filmów są przygotowywane przez amatorów (i dosyć niejasna jest ich sytuacja prawna) - poza tym występuje dosyć znaczna różnica ciężaru plików. Jeśli ktoś stworzyłby taką bazę dla plików mp3 - moim zdaniem na pewno zrobiłby to komercyjnie (dla legalnych mp3). A jeśli tak to nie miałbyś problemu z jej znalezieniem, bo zainteresowanie podobną usługą na pewno byłoby znaczne.

Nigdy nie bawiłem się MusicBrainz od strony technicznej ale np. Amarok (korzysta z niego) znakomicie otagował moje mp3 - czyli to działa.


--------------------
Już mi się ani wiedzieć, ani tym bardziej myśleć nie chce.
[Think different]!
Go to the top of the page
+Quote Post
erix
post 1.09.2010, 20:57:38
Post #5





Grupa: Moderatorzy
Postów: 15 467
Pomógł: 1451
Dołączył: 25.04.2005
Skąd: Szczebrzeszyn/Rzeszów




Cytat
Niby tak, ale zastanów się - napisy do filmów są przygotowywane przez amatorów (i dosyć niejasna jest ich sytuacja prawna) - poza tym występuje dosyć znaczna różnica ciężaru plików

Ale co ma piernik do wiatraka? Napiprojekt sprawdza każdy plik wysyłając MD5 pierwszych 10 MiB pliku i tyle. Co za różnica, czy to będzie 4 GiB plik, czy 3 MiB? Też MD5, ten sam problem, a jednak został on rozwiązany.

I nie chodzi tylko o napisy, MD5 dla tego bloku identyfikuje tylko film, a to, czy są doń napisy, czy nie - to już nieistotne.

MusicBrainz działa na bardzo podobnej zasadzie, tylko w inny sposób jest generowana suma kontrolna (u nich zwane PUID) - nie na podstawie danych, a wg analizy dźwięku wynikowego.


--------------------

ZCE :: Pisząc PW załączaj LINK DO TEMATU i TYLKO w sprawach moderacji :: jakiś błąd - a TREŚĆ BŁĘDU? :: nie ponaglaj z odpowiedzią via PW!
Go to the top of the page
+Quote Post
legorek
post 1.09.2010, 22:06:22
Post #6





Grupa: Zarejestrowani
Postów: 411
Pomógł: 35
Dołączył: 27.06.2004
Skąd: Kraków

Ostrzeżenie: (0%)
-----


Last.fm oblicza "odcisk palca" plików mp3. Oprogramowanie jest open source, a do pobierania danych jest API. Szczegóły na blogu last.fm http://blog.last.fm/2010/07/09/fingerprint...and-app-updated


--------------------
Go to the top of the page
+Quote Post
wookieb
post 1.09.2010, 22:21:12
Post #7





Grupa: Moderatorzy
Postów: 8 989
Pomógł: 1550
Dołączył: 8.08.2008
Skąd: Słupsk/Gdańsk




Cytat(erix @ 1.09.2010, 21:57:38 ) *
Napiprojekt sprawdza każdy plik wysyłając MD5 pierwszych 10 MiB pliku i tyle. Co za różnica, czy to będzie 4 GiB plik, czy 3 MiB? Też MD5, ten sam problem, a jednak został on rozwiązany.

Jesteś pewien? Bo mnie się wydaje, że chodzi o framerate, wielkość pliku i rozdziałke a nie md5 (tak jest w większości serwisów z napisami).

Z mp3 nie jest to za bardzo możliwe. O ile rodzajów filmów będzie parę to mp3 jest masa różniąca się między sobą drobnymi sekundami, momentami wycięcia z mixów itd.
Tunatic dobrze rozpoznaje utwór po tym co dostaje w mikrofonie.


--------------------
Go to the top of the page
+Quote Post
everth
post 2.09.2010, 03:34:17
Post #8





Grupa: Zarejestrowani
Postów: 782
Pomógł: 153
Dołączył: 21.07.2010

Ostrzeżenie: (0%)
-----


@erix - ten argument z wielkością to rzeczywiście trochę z d*** winksmiley.jpg. Ale reszta mojej wypowiedzi jest sensowna - gdyby istniały bazy agregujące po md5 to już byś je znalazł. Co do PUID to też wiem, dlatego ci go poleciłem bo a) kod jest otwarty, cool.gif działa (przynajmniej u mnie).

Nie wiem dlaczego uczepiłeś się tego md5 - ten PUID wydaje mi się sensowniejszym rozwiązaniem w tym przypadku. Gdyby rozwiązanie bazujące na zwykłych sumach kontrolnych sprawdziłoby się to nie kombinowali by z PUID. Na swoim wiki zresztą ciekawie opisują działanie tej technologii.


--------------------
Już mi się ani wiedzieć, ani tym bardziej myśleć nie chce.
[Think different]!
Go to the top of the page
+Quote Post
erix
post 2.09.2010, 10:18:46
Post #9





Grupa: Moderatorzy
Postów: 15 467
Pomógł: 1451
Dołączył: 25.04.2005
Skąd: Szczebrzeszyn/Rzeszów




Cytat
Jesteś pewien? Bo mnie się wydaje, że chodzi o framerate, wielkość pliku i rozdziałke a nie md5 (tak jest w większości serwisów z napisami).

Tak, jestem w 100% pewien. OpenSubtitles robi również hasha, tylko nieco innym algorytmem. Jednak jest na podobnej zasadzie - pierwsze N MiB pliku.

Cytat
Nie wiem dlaczego uczepiłeś się tego md5 - ten PUID wydaje mi się sensowniejszym rozwiązaniem w tym przypadku.

Owszem, zdążyłem to wszystko przeczytać. Tylko jest jeden problem - kilka tysięcy rekordów, w których mam zapisany właśnie MD5 danych, a nie PUID, do którego musiałbym raczej samodzielnie pisać liba w celu analizy spektrum częstotliwościowego. winksmiley.jpg

Dlatego szukam po MD5. winksmiley.jpg


--------------------

ZCE :: Pisząc PW załączaj LINK DO TEMATU i TYLKO w sprawach moderacji :: jakiś błąd - a TREŚĆ BŁĘDU? :: nie ponaglaj z odpowiedzią via PW!
Go to the top of the page
+Quote Post
thek
post 2.09.2010, 13:12:22
Post #10





Grupa: Moderatorzy
Postów: 4 362
Pomógł: 714
Dołączył: 12.02.2009
Skąd: Jak się położę tak leżę :D




Ja się obawiam, że te oprogramowanie może już działać w oparciu o transformaty. Bo to przekształca dane dźwiękowe na trochę innej płaszczyźnie, gdzie zwraca się już uwagę na trochę inne rzeczy niż tagi wewnętrzne czy inne duperele. No ale tu musiałbyś się zagłębić już mocniej w użycie choćby FFT, DFT czy falek. Potrafią analizować nawet dość zaszumione dane z mikrofonu, ale to niestety jest już matma "trochę" wyższego kalibru niż to czego człowiek się uczy w podstawówce czy liceum. Jeśli masz w miarę głowę, to poczytaj o zastosowaniu i może uda Ci się sklecić rozwiązanie.


--------------------
Najpierw był manual... Jeśli tam nie zawarto słów mądrości to zapytaj wszechwiedzącego Google zadając mu własciwe pytania. A jeśli i on milczy to Twój problem nie istnieje :D
Go to the top of the page
+Quote Post
erix
post 2.09.2010, 16:49:33
Post #11





Grupa: Moderatorzy
Postów: 15 467
Pomógł: 1451
Dołączył: 25.04.2005
Skąd: Szczebrzeszyn/Rzeszów




No tak, i będę całość indeksował od nowa. tongue.gif

Nie bardzo chce mi się wierzyć, że nikt nie robi md5 z danych, jakoś w przypadku napisów to zrobili...

A to jest do tylko mojego użytku, nie potrzebuję niewiadomo czego. winksmiley.jpg


--------------------

ZCE :: Pisząc PW załączaj LINK DO TEMATU i TYLKO w sprawach moderacji :: jakiś błąd - a TREŚĆ BŁĘDU? :: nie ponaglaj z odpowiedzią via PW!
Go to the top of the page
+Quote Post
everth
post 2.09.2010, 18:13:48
Post #12





Grupa: Zarejestrowani
Postów: 782
Pomógł: 153
Dołączył: 21.07.2010

Ostrzeżenie: (0%)
-----


Cytat(erix @ 2.09.2010, 11:18:46 ) *
Owszem, zdążyłem to wszystko przeczytać. Tylko jest jeden problem - kilka tysięcy rekordów, w których mam zapisany właśnie MD5 danych, a nie PUID, do którego musiałbym raczej samodzielnie pisać liba w celu analizy spektrum częstotliwościowego. winksmiley.jpg

Czyżby?
libMusicBrainz
Cytat
The libmusicbrainz (also known as mb_client or MusicBrainz Client Library) is a development library geared towards developers who wish to add MusicBrainz lookup capabilities to their applications. If you are looking for a complete, usable program to run, please try out Picard.

LibOFA
Cytat
LibOFA (Library Open Fingerprint Architecture) is an open-source audio fingerprint created and provided by MusicIP

Jedno z drugim współpracuje (jeśli dobrze się wczytałem to libmusicbrainz nie posiada w najnowszej odsłonie możliwości tworzenia odcisku palca, co zapewnie libOFA - mogę się mylić). Obie biblioteki napisane są w C/C++, posiadają też wrappery w Pythonie. Jedyne ograniczenie które wynika z komercyjnego charakteru PUID, jest takie że nie możesz dodawać odcisków palca nowych utworów. Biorąc pod uwagę statystyki MusicBrainz jest mało prawdopodobne żebyś na taki trafił.

Amarokowi w najnowszej odsłonie skatalogowanie moich utworów zajmuje ~10min - a ich też jest dużo (i też generuje sumy kontrolne). Ewentualnie możesz skorzystać z ich narzędzia Picard - generujesz tagi dla swoich plików, później wiążesz je ze swoimi md5. Może nawet byłoby to prostsze niż pisanie zautomatyzowanego skryptu wykorzystującego gołe biblioteki.


--------------------
Już mi się ani wiedzieć, ani tym bardziej myśleć nie chce.
[Think different]!
Go to the top of the page
+Quote Post
erix
post 2.09.2010, 20:37:02
Post #13





Grupa: Moderatorzy
Postów: 15 467
Pomógł: 1451
Dołączył: 25.04.2005
Skąd: Szczebrzeszyn/Rzeszów




Cytat
Amarokowi w najnowszej odsłonie skatalogowanie moich utworów zajmuje ~10min - a ich też jest dużo (i też generuje sumy kontrolne). Ewentualnie możesz skorzystać z ich narzędzia Picard - generujesz tagi dla swoich plików, później wiążesz je ze swoimi md5. Może nawet byłoby to prostsze niż pisanie zautomatyzowanego skryptu wykorzystującego gołe biblioteki.

Świetnie, a będziesz mi przerzucał płytki? tongue.gif I gdyby nie to, to bym się nie ceregielił. winksmiley.jpg


--------------------

ZCE :: Pisząc PW załączaj LINK DO TEMATU i TYLKO w sprawach moderacji :: jakiś błąd - a TREŚĆ BŁĘDU? :: nie ponaglaj z odpowiedzią via PW!
Go to the top of the page
+Quote Post
everth
post 2.09.2010, 21:10:55
Post #14





Grupa: Zarejestrowani
Postów: 782
Pomógł: 153
Dołączył: 21.07.2010

Ostrzeżenie: (0%)
-----


Aj waj, trzeba było od razu że utwory masz na różnych nośnikach. Jeśli zgrywałeś z czystych CDAudio to trochę przestrzeliłeś bo wystarczyło żebyś zakodował ID w formacie CDDB. Ale jeśli nie, to nie rozumiem jak ty tej bazy używasz? Masz nieotagowane sumy kontrolne utworów na różnych nośnikach? Jak ty je przeszukujesz?


--------------------
Już mi się ani wiedzieć, ani tym bardziej myśleć nie chce.
[Think different]!
Go to the top of the page
+Quote Post
erix
post 2.09.2010, 21:59:00
Post #15





Grupa: Moderatorzy
Postów: 15 467
Pomógł: 1451
Dołączył: 25.04.2005
Skąd: Szczebrzeszyn/Rzeszów




Cytat
Masz nieotagowane sumy kontrolne utworów na różnych nośnikach?

Coś w tym stylu. Zrobione hashe z wyłącznie bloku danych każdego pliku (z pominięciem bloku ID3; robię libem http://www.getid3.org). Dlatego pytam konkretnie o MD5. winksmiley.jpg


--------------------

ZCE :: Pisząc PW załączaj LINK DO TEMATU i TYLKO w sprawach moderacji :: jakiś błąd - a TREŚĆ BŁĘDU? :: nie ponaglaj z odpowiedzią via PW!
Go to the top of the page
+Quote Post
everth
post 2.09.2010, 22:34:37
Post #16





Grupa: Zarejestrowani
Postów: 782
Pomógł: 153
Dołączył: 21.07.2010

Ostrzeżenie: (0%)
-----


Ale nie rozumiem sensu zastosowania takiego tworu - nie masz żadnych, choćby szczątkowych informacji powiązanych z tymi sumami? Chyba nie chcesz powiedzieć ż poświęciłeś czas na wygenerowanie takiej bazy, bez sprawdzenia czy istnieje usługa która pozwoli ci ją wykorzystać? Bo tak to na razie wygląda - a zazwyczaj kończy się to wyrzuceniem pracy do kosza.

Ten post edytował everth 2.09.2010, 22:34:55


--------------------
Już mi się ani wiedzieć, ani tym bardziej myśleć nie chce.
[Think different]!
Go to the top of the page
+Quote Post
erix
post 3.09.2010, 10:23:38
Post #17





Grupa: Moderatorzy
Postów: 15 467
Pomógł: 1451
Dołączył: 25.04.2005
Skąd: Szczebrzeszyn/Rzeszów




Mam część plików nieotagowanych. Jest to raptem kilka sztuk.


--------------------

ZCE :: Pisząc PW załączaj LINK DO TEMATU i TYLKO w sprawach moderacji :: jakiś błąd - a TREŚĆ BŁĘDU? :: nie ponaglaj z odpowiedzią via PW!
Go to the top of the page
+Quote Post
everth
post 3.09.2010, 16:43:56
Post #18





Grupa: Zarejestrowani
Postów: 782
Pomógł: 153
Dołączył: 21.07.2010

Ostrzeżenie: (0%)
-----


@erix - więc w czym problem winksmiley.jpg - Picard i kopiuj/wklej.

@DOWN: A myślisz że dlaczego ewolucja wbudowała w ludzi mechanizm który powoduje że kończymy poszukiwania po znalezieniu pierwszego lepszego działającego rozwiązania winksmiley.jpg Pamiętaj - natura najlepszym inżynierem.

Ten post edytował everth 3.09.2010, 18:24:19


--------------------
Już mi się ani wiedzieć, ani tym bardziej myśleć nie chce.
[Think different]!
Go to the top of the page
+Quote Post
erix
post 3.09.2010, 18:19:07
Post #19





Grupa: Moderatorzy
Postów: 15 467
Pomógł: 1451
Dołączył: 25.04.2005
Skąd: Szczebrzeszyn/Rzeszów




Ale szukałem bardziej cywilizowanego rozwiązania. tongue.gif


--------------------

ZCE :: Pisząc PW załączaj LINK DO TEMATU i TYLKO w sprawach moderacji :: jakiś błąd - a TREŚĆ BŁĘDU? :: nie ponaglaj z odpowiedzią via PW!
Go to the top of the page
+Quote Post

Reply to this topicStart new topic
1 Użytkowników czyta ten temat (1 Gości i 0 Anonimowych użytkowników)
0 Zarejestrowanych:

 



RSS Wersja Lo-Fi Aktualny czas: 14.08.2025 - 03:13