Outil basique de calcul de similarité entre 2 textes

J’avais envie de coder ce week-end alors j’ai créé ce petit outil basique, de chez basique, mais qui peut s’avérer utile avant de publier des textes (soumissions de CP, descriptions d’annuaires, commentaires, mise en ligne de fiches produits…).

Sa mission est de compter le nombre de mots du texte 1 que l’on retrouve dans le texte 2 puis de le diviser par le nombre total de mots du texte 2, ce qui vous donne alors un pourcentage de similarité, ou de duplicate content (DC), c’est comme vous voulez.

A vous de définir le seuil acceptable. Notez juste qu’on arrive facilement autour de 35 % de similarité entre 2 textes d’une taille équivalente et qui n’ont pourtant rien à voir (sujets et auteurs différents), la faute aux mots de liaison, ce sera donc difficile de faire mieux.

Texte 1 :

Texte 2 :


Taux de similarité : 35.7 % (5 mots en commun sur un total de 14)

Laisser un commentaire

VotreNom@VosKeywords est actif (mais nofollow, ne vous emballez pas !)