Shadoware.Org

Moi, mes idées, mes logiciels ...

Aller au contenu | Aller au menu | Aller à la recherche

Calcul de la distance entre deux fichiers

Présentation

Suite à un billet sur LinuxFR, où je demandais comment calculer la distance (ou le pourcentage de similitude entre deux logiciels), j'ai obtenu la formule suivante :

distance = 1 - ( C(A) + C(B) - C(AB) ) / Max(C(A), C(B))

où C(X) est la taille du fichier X compressé[1].

Après avoir testé les formats gzip, bzip2 et lzma, j'ai conclu que le format de compression le plus performant pour le calcul, est le format lzma, car le dictionnaire avec la mise en commun était le plus gros, et donc le calcul de distance est plus efficace.

Le programme

J'ai donc décidé d'écrire un programme parcourant un dossier (avec plusieurs milliers de fichiers) et de calculer pour toutes les combinaisons des fichiers la distance entre chaque fichier. Ce programme consommant énormément de mémoire, il se peut que pour un grand nombre de fichier, le programme se plante avec une erreur d'allocation de mémoire.

Ce programme permet de pouvoir faire une cartographie de ces fichiers et ainsi de pouvoir les classer. Testé sur des fichiers textes (sources de logiciels), le programme est assez efficace.

Testé sur des images, ou des vidéos, les fichiers sont considérés comme tous éloignés les uns des autres, même s'ils sont identiques à compression différente près, ou s'ils sont identiques à un mouvement près sur la photo (du genre une photo où une même personne se tient dans une position différente).

Si vous avez une idée sur comment calculer la distance entre deux fichiers déjà compressés (avec perte qui plus est), ca m'intéresse. :)

Comme l'exécution est très lente (compression lzma niveau 9), le programme peut être arrêté et redémarré.

Pour démarrer le programme, il faut exécuter la commande :

./calcul_distance /mon/dossier

Le programme va alors créer un fichier {5ac1fd3c-504f-4110-9f7e-d6fc89e57bdb}.db{5ac1fd3c-504f-4110-9f7e-d6fc89e57bdb} est différent à chaque nouveau lancement.

Pour reprendre le traitement où il était, il suffit alors de lancer :

./calcul_distance --uuid {5ac1fd3c-504f-4110-9f7e-d6fc89e57bdb}

Si on veut ajouter un dossier au traitement après coup :

./calcul_distance /nouveau/dossier --uuid {5ac1fd3c-504f-4110-9f7e-d6fc89e57bdb}

Exemple

Par exemple soit les différentes versions d'un logiciel, mis dans des archives tar. Pour ne prendre que le code source des versions, on va supprimer tous les fichiers suivants de l'archive tar : *.jpg, *.png, *.ico, *.qm, *.db, ... les sources externes à l'application. On ne garde donc que les fichiers textes dont nous avons la possession.

Après le nettoyage des dossiers :

$ for i in `ls` ; do
> tar -c $i/* > $i.tar
> done
$ ls -l
-rw-r--r-- 1 phoenix phoenix 2,5M  6 juin  13:24 v0.6.10.tar
-rw-r--r-- 1 phoenix phoenix 440K  6 juin  13:24 v0.6.4.tar
-rw-r--r-- 1 phoenix phoenix 530K  6 juin  13:24 v0.6.5.tar
-rw-r--r-- 1 phoenix phoenix 610K  6 juin  13:24 v0.6.6.tar
-rw-r--r-- 1 phoenix phoenix 690K  6 juin  13:24 v0.6.7.tar
-rw-r--r-- 1 phoenix phoenix 1,2M  6 juin  13:24 v0.6.8.tar
-rw-r--r-- 1 phoenix phoenix 1,3M  6 juin  13:24 v0.6.9.tar
-rw-r--r-- 1 phoenix phoenix 2,9M  6 juin  13:24 v0.7.0.tar
-rw-r--r-- 1 phoenix phoenix 2,2M  6 juin  13:24 v0.7.1.tar
-rw-r--r-- 1 phoenix phoenix 3,3M  6 juin  13:24 v0.7.2.tar
-rw-r--r-- 1 phoenix phoenix 3,3M  6 juin  13:24 v0.8.0.tar
-rw-r--r-- 1 phoenix phoenix 3,1M  6 juin  13:24 v0.8.1_services.tar
-rw-r--r-- 1 phoenix phoenix 3,1M  6 juin  13:24 v0.8.1.tar
-rw-r--r-- 1 phoenix phoenix 3,8M  6 juin  13:24 v0.9.0.tar
$ cd ..
$ calcul_distance ./xinx/
Step 0 : Create database
Step 1 : Create file list
Step 2 : Compress single file                                     
Step 3 : Compress pair file                                       
$ ls 
{051b93a0-d9a9-4778-ac73-81ee01a3905d}.db
xinx
$ sqlite3 {051b93a0-d9a9-4778-ac73-81ee01a3905d}.db

Nous allons maintenant faire une requête dans la base de données sqlite :

$ .TABLES
distances  files 
$ SELECT files1.path, files2.path, distances.distance FROM distances, files files1, files files2 WHERE distances.id1=files1.id AND distances.id2=files2.id ORDER BY distance ASC;
v0.8.1v0.8.1_services0.0350740694634633
v0.6.8v0.6.90.132275346477201
v0.8.0v0.8.10.142321125298336
v0.8.0v0.8.1_services0.161719318637048
v0.6.5v0.6.60.196933113059686
v0.6.4v0.6.50.231812199675573
v0.6.6v0.6.70.266593999923953
v0.6.10v0.7.00.27412838729727
v0.7.2v0.8.00.312111739912996
v0.6.5v0.6.70.351347925829225
v0.6.4v0.6.60.364115163581424
v0.7.2v0.8.10.386971922637303
v0.7.2v0.8.1_services0.401055941017259
v0.7.1v0.7.20.436705836223058
v0.7.0v0.7.10.465121645779551
v0.6.4v0.6.70.468472350726879
v0.8.1_servicesv0.9.00.516795574578859
v0.8.1v0.9.00.51733623689019
v0.8.0v0.9.00.544376861655528
v0.6.7v0.6.80.558824765667689
v0.7.1v0.8.00.560609480175814
v0.6.10v0.6.90.594036969567445
v0.7.1v0.8.10.604226316444666
v0.7.1v0.8.1_services0.613613062086946
v0.6.7v0.6.90.622950487834501
v0.7.0v0.7.20.631060763867616
v0.6.10v0.7.10.632444883185258
v0.6.10v0.6.80.637234847328374
v0.6.6v0.6.80.6494052372746
v0.6.9v0.7.10.666200571812458
v0.7.2v0.9.00.678423568871868
v0.6.5v0.6.80.692250570944195
v0.6.8v0.7.10.701063946130892
v0.6.6v0.6.90.701698986545754
v0.6.9v0.7.00.717262408423359
v0.7.0v0.8.00.720311680104721
v0.6.5v0.6.90.738013305804084
v0.6.4v0.6.80.747495551539097
v0.6.10v0.7.20.747929200720491
v0.6.8v0.7.00.748031544518325
v0.7.0v0.8.10.758510349354368
v0.7.0v0.8.1_services0.767204482779187
v0.6.4v0.6.90.772451857549627
v0.6.10v0.8.00.796649043913944
v0.7.1v0.9.00.801221496333008
v0.6.9v0.7.20.804765901655414
v0.6.8v0.7.20.819917045496318
v0.6.10v0.8.10.823540395867048
v0.6.10v0.8.1_services0.831055117394626
v0.6.10v0.6.70.838850951377793
v0.6.9v0.8.00.849001032539087
v0.6.7v0.7.10.853848016623182
v0.7.0v0.9.00.860291356912217
v0.6.8v0.8.00.86075956509228
v0.6.10v0.6.60.863340151908353
v0.6.9v0.8.10.872265541006983
v0.6.6v0.7.10.873275579233521
v0.6.10v0.6.50.875332023895544
v0.6.9v0.8.1_services0.87987037883801
v0.6.7v0.7.00.879941907871053
v0.6.8v0.8.10.881174812987336
v0.6.5v0.7.10.886172606121206
v0.6.8v0.8.1_services0.889515283880001
v0.6.10v0.6.40.892364892140999
v0.6.6v0.7.00.894375709613201
v0.6.10v0.9.00.895694726039398
v0.6.7v0.7.20.898582911617307
v0.6.4v0.7.10.902038058337369
v0.6.5v0.7.00.904821831317442
v0.6.6v0.7.20.910637046476578
v0.6.4v0.7.00.918347943544789
v0.6.5v0.7.20.919716704855963
v0.6.9v0.9.00.921714099772221
v0.6.7v0.8.00.924717744438112
v0.6.8v0.9.00.925849165227404
v0.6.4v0.7.20.928888262611658
v0.6.7v0.8.10.933685479216414
v0.6.6v0.8.00.933940067594635
v0.6.7v0.8.1_services0.939898268404416
v0.6.5v0.8.00.940789807767177
v0.6.6v0.8.10.94210246370087
v0.6.6v0.8.1_services0.946464528845253
v0.6.4v0.8.00.948830071149278
v0.6.5v0.8.10.94922082772201
v0.6.5v0.8.1_services0.951278461132112
v0.6.4v0.8.10.955572468114482
v0.6.4v0.8.1_services0.95567206186826
v0.6.7v0.9.00.96084453455483
v0.6.6v0.9.00.964619158469125
v0.6.5v0.9.00.965955795849916
v0.6.4v0.9.00.968866861905835

On peut ainsi voir d'après ce tableau, les versions ayant peu de différences et celles qui ont fait des plus gros bonds en avant.

On voit ainsi qu'il y a plus de différences entre la version 0.8.0 et la 0.9.0, qu'il y en a eu entre la version 0.6.8 et la 0.6.9. On peut également voir que les versions 0.6.4 et 0.9.0 n'ont plus rien à voir entre elles.

Vous pouvez télécharger le logiciel attaché à ce billet.

Notes

[1] On peut retrouver l'explication de cette formule ici

Présentation de XINX

Ce billet fait suite à la sortie de la version 0.9.0 de XINX et va vous décrire ce logiciel. XINX est éditeur de feuille de style XSL (il fait également éditeur JavaScript et CSS mais actuellement moins bien que ce que peuvent faire d'autres).

Il permet l'édition des feuilles de styles en proposant de compléter sur le nom des balises (normal), sur les attributs (normal), sur les valeurs d'attributs : les variables, les paramètres, ... Il propose également automatiquement les différents paramètres lors de l'utilisation d'un call:template.

L'éditeur est fortement tourné vers l'édition de feuille de style XSL pour génération d'HTML mais peut être utilisé pour générer du XML.

XINX Logo

Lire la suite...

[Qt] Transformation d'une vue tableau en une vue hiérarchique

Pour visualiser des données internes à l'écran, Nokia/Qt nous propose l'architecture MVC à l'aide des classes QAbstractItemModel et de ses sous classes (QAbstractListModel, QAbstractTableModel, ...). Le but de l'architecture MVC est de séparer la représentation mémoire des données, de l'affichage qu'elles auront.

mvc1.png

Si les données sont par exemple issue d'une requête SQL, le modèle QSqlQueryModel permet de représenter la sélection SQL, à l'écran dans un composant QTableView. Ces données sont alors représentées sous forme d'un tableau deux dimensions.

tableau.png

Si l'on veut représenter les dossiers de l'ordinateur, le modèle QDirView permet d'afficher les données de façon hiérarchique.

qdirview.png

Il est également possible d'écrire nos propres modèles pour représenter nos propres données.

Le but de cet article est de présenter l'écriture d'un modèle, transformant une vue plane (tableau deux dimensions) en vue hiérarchique. Pour cela nous allons prendre l'exemple de l'affichage d'une liste de catégorie[1].

Notes

[1] La construction de notre objet s'est basé sur l'analyse de l'objet QSortFilterProxyModel de Nokia.

Lire la suite...

KMyMoney - Logiciel de compte

Logo KMyMoney

Voilà un bon logiciel sur lequel on peut compter (mouarf ! mouarf ! mouarf !), KMyMoney est un éditeur de compte. Je l'utilise quotidiennement, et je décide donc d'en parler un peu, pour que d'autres personnes puissent s'intéresser aussi à ce logiciel.

Summary.png

KMyMoney est un logiciel de gestion de compte pour particulier. Il vous permet de gérer plusieurs de vos comptes en banque, en vous permettant de saisir les dépenses et les recettes sur chacun de vos comptes.

Registres.png

Vous pouvez également lui indiquer vos échéances (par exemple : forfait téléphone, prêt immobilier[1], mais aussi salaire, vos virements internes ou externes, ...) qu'il s'occupera de mettre à jour dans le registre automatiquement ou à votre demande.

Echeancier.png

Après une année d'utilisation, il vous permet également de sortir un rapport détaillé sur vos dépenses et vos recettes suivant les catégories saisies pour vos opérations. Cette information peut vous être très utile pour voir où se trouve le "trou" de votre porte monnaie et ainsi faire une rustine. Il vous permet aussi de vous projeter vers l'avenir et de faire votre budget pour l'année prochaine. KMyMoney vous offre pour cela, la saisie de votre budget, ainsi que plusieurs rapports d'écart, vous permettant ainsi de retrouver facilement où vous avez finalement dépensé plus que le budget prévu, et où vous avez dépensé moins.

Rapport.png

En plus de vos comptes en banque normaux, KMyMoney vous permet également de gérer vos comptes titre, et les actions que vous y avez mises. Vous pouvez alors facilement suivre la chute vertigineuse de la bourse et votre portefeuille fondre littéralement, mais aussi la remontée (on espère), des actions d'ici quelques ... siècles.

Enfin pour les paranos, vos comptes peuvent être cryptés à l'aide de votre clé GnuPG automatiquement par KMyMoney :)

Cryptage.png

Après cette courte présentation, je vous souhaite bon compte ;)

Pour une vie équilibrée, n'oubliez pas de profiter du soleil, au lieu de passer votre temps sur votre ordinateur

Notes

[1] Il s'occupera d'ailleurs de calculer la durée des échéances, ... en fonction des différents chiffres que vous allez lui entrer.

Le net en france ...

Devant le ridicule d'un gouvernement qui s'entête à vouloir déconnecter du Net des familles entières sans preuves valables ni procès, la Quadrature appelle les citoyens épris de liberté à procéder au « black-out » de leurs sites, blogs, profils, avatars, etc. Comme en Nouvelle-Zélande, seul pays avec la France où la « riposte graduée » devait être imposée par la loi, pour finalement être repoussée : pour protester contre cette loi imbécile et sa « liste blanche » de sites autorisés, le Net français doit agir et se draper de noir.
La quadrature du net, Paris, le 25 février

HADOPI - Le Net en France : black-out

- page 1 de 2