WRInaute discret
Innovation qualitative proposée (à Google et Cie) : un bonus pour la richesse lexicale !
Bonjour à tous,
Je suppose qu'il doit être possible de proposer à Google and Co des innovations pour améliorer encore leur pertinence et j'imagine que certains d'entre vous savent comment les contacter à cet effet.
C'est pourquoi je vous invite à suggérer à (au moins) Google et Yahoo d'intégrer un nouveau critère dans leurs calculs, cette fois-ci qualitatif (ce qui nous changera du tout quantitatif...) : la richesse du vocabulaire.
En effet, s'il peut paraître difficile de juger de la qualité d'un texte, surtout pour un robot, il y a tout de même cet élément objectif : sur cent mots, combien de mots différents ?
Par exemple, sur les trois paragraphes ci-dessus il y a justement... 100 mots. [Je compte pour un mot : "qu'il", "s'il" ; pour deux mots : "fois-ci".] Et sur ces 100 mots, j'en ai comptés environ 80 différents. Admettons que ce soit un pourcentage assez bon pour un très court texte. Mais bien sûr, plus le texte sera long, plus certains mots reviendront, et donc plus le pourcentage baissera (à qualité de texte égale). Ce nouveau critère, s'il était un jour adopté, devrait donc prendre la forme d'un pourcentage variable (selon la longueur du texte), une sorte de courbe qui s'aplanirait de plus en plus à mesure que le texte s'allonge – un peu comme la courbe de poids moyenne d'un bébé pendant les premières années, sauf qu'ici au lieu de poids moyen il serait question de diversité des mots – ce qui permettrait de donner un petit bonus à ceux qui s'en approchent ou un petit malus à ceux qui s'en écartent trop.
Google aurait ainsi la faculté de juger – objectivement ! – que cette phrase :
est sans doute de meilleure qualité que celle-là :
…et qu'il doit donc un peu mieux noter la première.
--------------
Pourquoi est-ce que je propose ça ? Parce qu'actuellement la richesse lexicale, hélas, pénalise... Si vous dites "voiture" puis "automobile" puis "moyen de locomotion" puis "véhicule" puis "ma Peugeot" puis "ma charrette", vous ne serez positionné nulle part ; tandis que celui qui écrit 36 fois "voiture", sous réserve de ne pas dépasser un certain plafond d'occurrences, sera beaucoup mieux positionné que vous à [voiture]. En somme, on est obligé de restreindre son vocabulaire (en fait de répéter toujours les mêmes mots) pour gagner des places, ce qui tend à beaucoup appauvrir toutes les langues du monde, à tirer le niveau vers le bas à l'échelle planétaire !
Le nouveau critère que je propose permettrait donc de contrebalancer un peu tout cela.
Bonjour à tous,
Je suppose qu'il doit être possible de proposer à Google and Co des innovations pour améliorer encore leur pertinence et j'imagine que certains d'entre vous savent comment les contacter à cet effet.
C'est pourquoi je vous invite à suggérer à (au moins) Google et Yahoo d'intégrer un nouveau critère dans leurs calculs, cette fois-ci qualitatif (ce qui nous changera du tout quantitatif...) : la richesse du vocabulaire.
En effet, s'il peut paraître difficile de juger de la qualité d'un texte, surtout pour un robot, il y a tout de même cet élément objectif : sur cent mots, combien de mots différents ?
Par exemple, sur les trois paragraphes ci-dessus il y a justement... 100 mots. [Je compte pour un mot : "qu'il", "s'il" ; pour deux mots : "fois-ci".] Et sur ces 100 mots, j'en ai comptés environ 80 différents. Admettons que ce soit un pourcentage assez bon pour un très court texte. Mais bien sûr, plus le texte sera long, plus certains mots reviendront, et donc plus le pourcentage baissera (à qualité de texte égale). Ce nouveau critère, s'il était un jour adopté, devrait donc prendre la forme d'un pourcentage variable (selon la longueur du texte), une sorte de courbe qui s'aplanirait de plus en plus à mesure que le texte s'allonge – un peu comme la courbe de poids moyenne d'un bébé pendant les premières années, sauf qu'ici au lieu de poids moyen il serait question de diversité des mots – ce qui permettrait de donner un petit bonus à ceux qui s'en approchent ou un petit malus à ceux qui s'en écartent trop.
Google aurait ainsi la faculté de juger – objectivement ! – que cette phrase :
[Diversité lexicale : environ 97 %]Dans le désert il fait généralement très chaud pendant la journée mais froid la nuit. Cette grande amplitude des températures met l'organisme à rude épreuve. Notre corps doit s'adapter en permanence.
est sans doute de meilleure qualité que celle-là :
[Diversité lexicale : environ 58 %]Dans le désert il fait très chaud pendant la journée, très froid pendant la nuit, à nouveau très chaud, à nouveau très froid… Ça n'arrête pas ! On a soit trop chaud soit trop froid. Dur-dur le désert !
…et qu'il doit donc un peu mieux noter la première.
--------------
Pourquoi est-ce que je propose ça ? Parce qu'actuellement la richesse lexicale, hélas, pénalise... Si vous dites "voiture" puis "automobile" puis "moyen de locomotion" puis "véhicule" puis "ma Peugeot" puis "ma charrette", vous ne serez positionné nulle part ; tandis que celui qui écrit 36 fois "voiture", sous réserve de ne pas dépasser un certain plafond d'occurrences, sera beaucoup mieux positionné que vous à [voiture]. En somme, on est obligé de restreindre son vocabulaire (en fait de répéter toujours les mêmes mots) pour gagner des places, ce qui tend à beaucoup appauvrir toutes les langues du monde, à tirer le niveau vers le bas à l'échelle planétaire !
Le nouveau critère que je propose permettrait donc de contrebalancer un peu tout cela.