DuMP3 logo
Google
 
Web dump3.sourceforge.net
Powered by SourceForge.net Logo
HTML coding Powered by htp
Proudly South African Proudly South African

Das Problem

Der Platz auf dem Harddisk wird knapp, denn er ist gefüllt mit Fotografien von den Ferien oder von immens vielen Musikdateien oder sonstigen Dokumenten. Und einige der gehorteten Dateien sind mit grosser Wahrscheinlichkeit doppelt oder mehrfach vorhanden. Die zu vernichten würde Speicherplatz wieder freigeben.
Aber wie können gleiche und vor allem ähnliche (wenig abweichende) Dateien in der Kollektion gefunden werden wenn die Unterschiede nicht in Dateinamen oder Inhalt, sondern an der Art der Speicherung liegen?
Beispiele von Unterschieden bei gleichem Inhalt:

  • Bilddateien: Format, Auflösung, Rotation
  • Musikdateien: Format, Bitrate
  • Dasselbe Problem besteht auch bei Textdateien und Binaries.
Benötigt es für jede Problemstellung ein spezialisiertes Programm oder wäre es angenehmer eines für alles zu haben?

DuMP3 ist meine Lösung

DuMP3 (abgeleitet aus Duplicate MP3) ist ein in Java geschriebenes Programm das doppelte oder ähnliche Dateien findet.

Für das Vergleichen wird von jeder Datei ein Fingerabdruck (Fingerprint) errechnet, basierend auf deren Inhalt (Fotografie, Musik oder Textdatei). Dieser wird gegen alle anderen Prüfsummen verglichen. Es werden nicht Dateinamen oder ID3-Tags verglichen, aber zusätzliche Zusatzmodule für solche Operationen könnten programmiert werden. Die errechneten Prüfsummen werden optional in einer Datenbank gespeichert. Momentan wird MySQL und Microsoft SQL Server 2005 unterstützt. Diese müssen so für folgende Suchläufe nicht wieder neu errechnet werden, das erhöht die Geschwindigkeit drastisch.

Dateien die von DuMP3 nicht gelesen oder korrekt dekodierbar sind, werden als Beschädigt/Korrupt oder mit Signaturfehler gekennzeichnet.

DuMP3 findet auch nicht hundert-prozentig übereinstimmende Dateien:

  • Binäre Dateien werden mit SHA1 verglichen (Konfigurierbar zu jeder "MD" Hash)
  • Textdateien mit Veränderung durch hinzufügen oder löschen von Inhalt (2 Fingerabdruck-Algorithmen vorhanden)
  • Bilddateien von unterschiedlichem Format, Grösse und/oder Rotation (BMP, GIF, JPEG, JPEG2000, PNG, PNM, RAW, TIFF)
  • Musikdateien aus Aufnahmen mit unterschiedlicher Bitrate oder unterschiedlichem Speicherformat (AU, AIF, WAV, MP3, OGG)
  • Zusatzmodule können programmiert und eingebunden werden für die Auswertung von Prüfsummen in Bezug benötigter ungenauer Übereinstimmung, beispielsweise für Schriften, Videos und so weiter.

Neuigkeiten

Bekannte Fehler/offene Punkte

Bilddateien können fälschlicherweise als korrupt markiert werden weil die Java Bilderkennung javax.imageio.ImageIO.read(File) das Format nicht kennt. Das ist eine Einschränkung aufgrund der Implementierung des (alten) JAI Image-Decoders durch SUN, nicht aufgrund DuMP3. Zwei Beispiele: CMYK encoded JPEG und RLE encoded BMP.

Manche sehr große Bilddateien (ungefähr 4000x4000 Pixel) können DuMP3 wegen Speichermangel abstürzen lassen.

Einschränkungen

DuMP3 unterliegt den gleichen Einschränkungen wie JAVA und dessen Bibliotheken die für dieses Projekt gewählt wurden. In der F.A.Q. werden die meisten behandelt.


Übersetzungen dieser Seite  |  English  |  Deutsch  |  Français  |