Wikia : voici le moteur vers lequel pas mal de regards sont tournés en ce début d’année 2008, en tout cas dans le monde des référenceurs et des webmasters. En effet, c’est le moteur open source lancé par le fondateur de Wikipedia, Jimmy Wales. Voici quelques premières impressions…
avis d'Olivier Duffez :
Présentation de Wikia
Wikia est un projet de moteur de recherche Open Source qui mettra à contribution les internautes pour assurer une bonne pertinence. Ce n’est sans doute pas vraiment une surprise de savoir qu’à la tête de Wikia on trouve Jimmy Wales, celui-là même qui a créé Wikipedia avec le succès qu’on connait. Parmi les autres investisseurs, on trouve Bessemer Venture Partners (en mars 2006) et Amazon (en décembre 2006).
Wikia est basé sur le logiciel Open Source Nutch et utilise Grub pour bâtir son index. Annoncé en janvier 2007, Wikia est disponible en version alpha (même pas encore beta !) sur alpha.search.wikia.com/.
Premières impressions sur Wikia
A ce que j’ai pu lire un peu partout, l’accueil n’est pas excellent : d’une part l’index n’est pas encore assez étoffé (on parle d’environ 100 millions de pages web contre 20 à 30 milliards pour Google d’après ce que j’imagine), d’autre part la pertinence n’est que rarement au rendez-vous. Certains comme Michael Arrington descendent littéralement la sortie de Wikia, tandis que Jimmy Wales en personne se défend en expliquant qu’il ne s’agit que d’une première version, qu’il faut lui faire confiance – après tout, au lancement de Wikipedia, il n’y avait pas d’encyclopédie mais plutôt un site assez vide !
Malgré tout, j’ai apprécié qu’il soit déjà utilisable pour des français. Bon d’accord, les accents sont mal gérés (c’est le moins qu’on puisse dire), mais on voit que les résultats sont adaptés en fonction de la langue de l’internaute (une recherche sur ipod renvoie principalement des résultats français).
Je n’ai jamais regardé comment fonctionne Nutch, donc j’espère que certains donneront des explications dans les commentaires ou le forum. Curieux, je me suis forcément intéressé au score affiché à côté de chaque résultat.
La formule du ranking basée sur Nutch
En cliquant sur le score à côté d’un résultat, on obtient des informations pas spécialement destinées à Monsieur Tout le monde, voici un exemple avec la requête ipod :
page
Les notations des internautes
Pour l’instant, les internautes peuvent noter chaque résultat en cliquant sur des étoiles pour donner une note entre 1 et 5. Comment Wikia Search gèrera les inévitables abus d’un tel système ? On peut se poser la question…
Les internautes peuvent également contribuer en rédigeant des mini-articles, qui sont en partie affichés tout en haut des résultats. On est déjà habitués avec les pages de Wikipedia qui sortent dans Google ;-)
Pour le reste de l’intervention humaine, ça se limite à la création de profils pour afficher des photos de personnes en rapport avec la requête. De là à estimer que Wikia Search n’est qu’un réseau social de plus, il n’y a qu’un pas que certains ont déjà franchi d’après ce que j’ai pu lire sur des blogs.
En conclusion, il est encore beaucoup trop tôt pour juger le moteur de recherche Wikia, car l’index est trop petit, et surtout les apports des internautes sont encore inexistants ou presque.
avis d'Olivier Duffez :
Présentation de Wikia
Wikia est un projet de moteur de recherche Open Source qui mettra à contribution les internautes pour assurer une bonne pertinence. Ce n’est sans doute pas vraiment une surprise de savoir qu’à la tête de Wikia on trouve Jimmy Wales, celui-là même qui a créé Wikipedia avec le succès qu’on connait. Parmi les autres investisseurs, on trouve Bessemer Venture Partners (en mars 2006) et Amazon (en décembre 2006).
Wikia est basé sur le logiciel Open Source Nutch et utilise Grub pour bâtir son index. Annoncé en janvier 2007, Wikia est disponible en version alpha (même pas encore beta !) sur alpha.search.wikia.com/.
Premières impressions sur Wikia
A ce que j’ai pu lire un peu partout, l’accueil n’est pas excellent : d’une part l’index n’est pas encore assez étoffé (on parle d’environ 100 millions de pages web contre 20 à 30 milliards pour Google d’après ce que j’imagine), d’autre part la pertinence n’est que rarement au rendez-vous. Certains comme Michael Arrington descendent littéralement la sortie de Wikia, tandis que Jimmy Wales en personne se défend en expliquant qu’il ne s’agit que d’une première version, qu’il faut lui faire confiance – après tout, au lancement de Wikipedia, il n’y avait pas d’encyclopédie mais plutôt un site assez vide !
Malgré tout, j’ai apprécié qu’il soit déjà utilisable pour des français. Bon d’accord, les accents sont mal gérés (c’est le moins qu’on puisse dire), mais on voit que les résultats sont adaptés en fonction de la langue de l’internaute (une recherche sur ipod renvoie principalement des résultats français).
Je n’ai jamais regardé comment fonctionne Nutch, donc j’espère que certains donneront des explications dans les commentaires ou le forum. Curieux, je me suis forcément intéressé au score affiché à côté de chaque résultat.
La formule du ranking basée sur Nutch
En cliquant sur le score à côté d’un résultat, on obtient des informations pas spécialement destinées à Monsieur Tout le monde, voici un exemple avec la requête ipod :
page
- segment = 20071226220909
- digest = 65b30bf5cbc424abb482b1c392ec559d
- url = http://www.apple.com/ipod/
- orig = http://www.apple.com/itunes/
- title = Apple – iPod + iTunes
- tstamp = 20071226135200302
- boost = 8.442183
- 16.0177 = (MATCH) sum of:
- 6.1698627 = (MATCH) weight(url:ipod^4.0 in 183946), product of:
- + 0.7324864 = queryWeight(url:ipod^4.0), product of:
- 4.0 = boost
- 11.230903 = idf(docFreq=36)
- 0.016305154 = queryNorm
- + 8.423177 = (MATCH) fieldWeight(url:ipod in 183946), product of:
- 1.0 = tf(termFreq(url:ipod)=1)
- 11.230903 = idf(docFreq=36)
- 0.75 = fieldNorm(field=url, doc=183946)
- + 0.7324864 = queryWeight(url:ipod^4.0), product of:
- 0.8805822 = (MATCH) weight(content:ipod in 183946), product of:
- + 0.09852816 = queryWeight(content:ipod), product of:
- 6.042762 = idf(docFreq=6627)
- 0.016305154 = queryNorm
- + 8.937366 = (MATCH) fieldWeight(content:ipod in 183946), product of:
- 5.91608 = tf(termFreq(content:ipod)=35)
- 6.042762 = idf(docFreq=6627)
- 0.25 = fieldNorm(field=content, doc=183946)
- + 0.09852816 = queryWeight(content:ipod), product of:
- 8.967256 = (MATCH) weight(title:ipod^1.5 in 183946), product of:
- + 0.23415738 = queryWeight(title:ipod^1.5), product of:
- 1.5 = boost
- 9.573962 = idf(docFreq=193)
- 0.016305154 = queryNorm
- + 38.29585 = (MATCH) fieldWeight(title:ipod in 183946), product of:
- 1.0 = tf(termFreq(title:ipod)=1)
- 9.573962 = idf(docFreq=193)
- 4.0 = fieldNorm(field=title, doc=183946)
- + 0.23415738 = queryWeight(title:ipod^1.5), product of:
- 6.1698627 = (MATCH) weight(url:ipod^4.0 in 183946), product of:
Les notations des internautes
Pour l’instant, les internautes peuvent noter chaque résultat en cliquant sur des étoiles pour donner une note entre 1 et 5. Comment Wikia Search gèrera les inévitables abus d’un tel système ? On peut se poser la question…
Les internautes peuvent également contribuer en rédigeant des mini-articles, qui sont en partie affichés tout en haut des résultats. On est déjà habitués avec les pages de Wikipedia qui sortent dans Google ;-)
Pour le reste de l’intervention humaine, ça se limite à la création de profils pour afficher des photos de personnes en rapport avec la requête. De là à estimer que Wikia Search n’est qu’un réseau social de plus, il n’y a qu’un pas que certains ont déjà franchi d’après ce que j’ai pu lire sur des blogs.
En conclusion, il est encore beaucoup trop tôt pour juger le moteur de recherche Wikia, car l’index est trop petit, et surtout les apports des internautes sont encore inexistants ou presque.