Re: [ssfr] Un grand classique : les doublons |
[ Thread Index |
Date Index
| More debianworld.org/shellscript-fr Archives
]
Le 26-11-2009, à 14:30:39 +0100, Yves Rutschle (ssfr@xxxxxxxxxxxx) a écrit :
> On Thu, Nov 26, 2009 at 08:31:12AM +0100, steve wrote:
> > J'ai 1.5 To de données à traiter.
>
> <disclaimer>
> Ça va prendre du temps :-)
Vi :-) Mettons que j'ai un mois pour le faire.
> > J'aimerai trouver tous les n-plons, déplacer les (n-1)-plons dans un
> > nouveau répertoire 'duplicates' en gardant la même arborescence que
> > l'original (important ça). J'aimerai donc avoir à la fin
> >
> > - répertoire original nettoyé
> > - répertoire duplicates contenant les (n-1)-plons
> >
> >
> > Pour cela il va falloir :
> >
> > ° une méthode pour trouver les n-plons (md5, date, taille, .. ?)
> > ° une méthode pour choisir quels fichiers déplacer
>
> Pour trouver, c'est facile:
>
> find / type f -print0 | xargs -0 md5sum > all_files.md5
Problème ça me crée un fichier avec deux colonnes, la première la md5 et
la seconde le nom du fichier, donc un uniq dessus ne m'a pas aider.
> sort all_files.md5 | uniq -d > duplicates
>
> Pour choisir, je vois pas de solution simple, il faut
> commencer par décider ce que tu veux faire.
J'aimerai déplacer tous les doublons les plus vieux vers un nouveau
répertoire en gardant l'arborescence d'origine.