Re: [ssfr] Un grand classique : les doublons

[ Thread Index | Date Index | More debianworld.org/shellscript-fr Archives ]


Le 26-11-2009, à 14:30:39 +0100, Yves Rutschle (ssfr@xxxxxxxxxxxx) a écrit :

> On Thu, Nov 26, 2009 at 08:31:12AM +0100, steve wrote:
> > J'ai 1.5 To de données à traiter.
> 
> <disclaimer>
> Ça va prendre du temps :-)

Vi :-) Mettons que j'ai un mois pour le faire.
 
> > J'aimerai trouver tous les n-plons, déplacer les (n-1)-plons dans un
> > nouveau répertoire 'duplicates' en gardant la même arborescence que
> > l'original (important ça). J'aimerai donc avoir à la fin
> > 
> > - répertoire original nettoyé
> > - répertoire duplicates contenant les (n-1)-plons
> > 
> > 
> > Pour cela il va falloir :
> > 
> > ° une méthode pour trouver les n-plons (md5, date, taille, .. ?)
> > ° une méthode pour choisir quels fichiers déplacer
> 
> Pour trouver, c'est facile:
> 
> find / ­type f -print0 | xargs -0 md5sum > all_files.md5

Problème ça me crée un fichier avec deux colonnes, la première la md5 et
la seconde le nom du fichier, donc un uniq dessus ne m'a pas aider.

> sort all_files.md5 | uniq -d > duplicates
> 
> Pour choisir, je vois pas de solution simple, il faut
> commencer par décider ce que tu veux faire.

J'aimerai déplacer tous les doublons les plus vieux vers un nouveau
répertoire en gardant l'arborescence d'origine.




Mail converted by MHonArc 2.6.19+ http://listengine.tuxfamily.org/