Archive et compression
1. Introduction
La gestion d'une archive et de fichiers compressés est maintenant gérée par le système d'exploitation.
Par contre, l'utilisation de logiciel spécialisé, comme 7-Zip permet de gérer un plus grand nombre de formats et offre plus de possibilités.
2. Archive
Une archive consiste à regrouper plusieurs fichiers en un seul fichier.
L’archive facilite la manipulation des fichiers.
L’archive conserve la structure relative des dossiers et des fichiers de son contenu.
Il est également possible de fragmenter une archive en plusieurs fichiers de taille unique. Cette technique était utilisée pour être en mesure de séparer des fichiers volumineux sur plusieurs disquettes.
3. Compression
La compression consiste à réduire la taille d’un fichier.
Il existe plusieurs algorithmes de compression pour les fichiers.
- Zip – le plus populaire sous Windows
- Gzip ou Gz – le plus populaire sous Linux
- 7z - Format propriétaire à 7-Zip
- Rar
Généralement, lorsque plusieurs fichiers sont compressés, une archive est également créée pour en regrouper le contenu.
4. Fonctionnement de la compression
Le fonctionnement de la compression consiste à repérer des modèles de répétition dans le code binaire du fichier.
Ces modèles de répétition sont mis dans une table avec un identifiant.
Dans le fichier compresser, on enregistre la table des modèles de répétition et on remplace ses répétitions par leur identifiant.
Plus il y a de répétitions détectées, plus le fichier sera compressé.
Si aucune répétition n’est détectée, il ne sera pas possible de le compresser.
Pour la phrase suivante, on va identifier les mots qui se répètent :
les voitures bleues sont plus rapides que les rouges et les rouges sont plus belles que les voitures bleues
Les mots ayant des répétitions sont :
-
les
-
voitures
-
bleues
-
sont
-
plus
- que
- rouges
La table serait comme ceci.
Identifiant | Mot |
---|---|
&1 | les |
&2 | voitures |
&3 | bleues |
&4 | sont |
&5 | plus |
&6 | que |
&7 | rouges |
La phrase compressée serait maintenant celle-ci.
&1 &2 &3 &4 &5 rapides &6 &1 &7 et &1 &7 &4 &5 belles &6 &1 &2 &3
5. Considération
Si le fichier est trop petit, le fichier compressé peut être plus gros que l’original, car le tableau des répétitions prend de l'espace disque.
Voici un fichier texte qui contient uniquement abcd. Sa taille sera de 4 octets.
Le fichier compressé aura une taille de 154 octets !