Mirail
sciences du langage toulouse
<head></head>
).casse noisettes
"casse noisettes"
david
vincent
david vincent
"david vincent"
david OR vincent
david -vincent
vincent -david
le policier tue
"le policier tue"
Cherchez un cours de français sur les prépositions telles qu'elles sont présentées dans les classes primaires :
a de par pour sans
Qu'observe-t-on ? Comment l'expliquer ?
Comment peut-on améliorer cette requête ?
Comment trouver à quoi correspond le symbole chimique au ? ne ?
Quel problème complique la requête ?
- héros
- héro
- crack héro
- crack héros
- crack "héros"
- crack "héro"
- crack hero
- crack "hero"
Il y a quelques années, les moteurs de recherche ignoraient les caractères non alpha-numériques. Quels problèmes cela pouvait-il poser ?
Effectuez les requêtes suivantes (note : C++ et C# sont des langages de programmation) :
- canal+
- c++
- c#
Quelles conclusions peut-on tirer ?>>>
.
- perl >>>
- perl ">>>"
En C++, à quoi correspond -- ?
Testez :
- c++ --
- c++ "--"
À quoi correspond la formule chimique CnH2n+2
? CnH2n-2
?
En lisant le passage hors-contexte "A* est plus adapté que Dijkstra", vous voulez savoir ce que signifie A*
et effectuez la requête suivante : A*
Que se passe-t-il ? Y a-t-il un moyen d'obtenir une réponse lorsque l'on ignore totalement de quoi il s'agit ?
Effectuez la requête suivante :
algorithme A*
Cherchez la signification de l'étiquette @card@
- soundslike:boulo
- allergie soundslike:boulo
- métro soundslike:boulo
- soundslike:bayé language:fr
- soundslike:bayer language:fr
- désamifier after:01/01/2010
- désamifier before:01/01/2010
- désamifier before:01/01/2009
Quelle application pour la linguistique peut-on faire de cette fonctionnalité ?
- bravitude after:01/03/2010
- bravitude after:31/12/2007
- bravitude before:01/01/2006
- bravitude before:01/01/2009
- bravitude before:01/01/2000
Commentez.
Les moteurs de recherche les plus connus (Google, Yahoo, Exalead et autres) représentent la partie la plus connue
du domaine plus général appelé recherche d'information (RI), ou Information Retrieval (IR).
Le but de ces moteurs est de définir, en fonction d'une requête, un sous-ensemble de documents jugés pertinents parmi
une collection donnée.
Les moteurs généraux sont dits plein texte, i.e. la requête est exprimée par une liste de mots (termes de la recherche) et le moteur recherche les documents contenant si possible tous ces termes.
Le fonctionnement d'un moteur se décompose en plusieurs étapes :Lors de la phase 1, plusieurs traitements peuvent différer selon les moteurs : suppression des mots vides (stopwords),
lemmatisation, racinisation (stemming), prise en compte des diacritiques, des caractères non alpha-numériques, etc.
Note : on trouve dans des forums concernant le référencement les termes lemmatisation et stemming employés
comme synonymes. Il s'agit bien de deux choses différentes : le stemming, ou racinisation, est la troncature des mots
(on ne conserve que les n premières lettres du mot -et encore, la troncature n'est que le procédé de racinisation le plus
simple, il en existe d'autres-) et la lemmatisation est le remplacement
d'un mot par sa forme canonique.
Le but de la phase 2 est de sélectionner tous les documents pertinents parmi la collection et rien que ceux-là (en fonction de la présence ou non des termes de la requête dans les documents). La réalité est en fait la suivante :
Le moteur sélectionne des documents effectivement pertinents, mais :
Le but à atteindre est de réduire bruit et silence de manière à faire se chevaucher les deux ensembles "documents sélectionnés" et "documents pertinents".
La phase 3, le classement des résultats trouvés par ordre de pertinence, est cruciale et spécifique à chaque moteur. Les statistiques varient, mais la majorité des internautes, dans la plupart de leurs recherches, ne regardent jamais au-delà de la première page de résultats d'un moteur, c'est-à-dire au-delà des 10 premiers documents. Une page peut être beaucoup plus pertinente que les autres par rapport à une requête donnée, mais si elle est classée 100ème, elle a peu de chances d'être visitée.
Un des critères de pertinence majeur, et partagé par tous les moteurs plein texte, est la pondération des termes.
En simplifiant, on peut dire que tous les moteurs appliquent une version du "tf*idf" (term frequency * inverted document frequency).
Cette mesure est calculée pour chaque terme de la requête et chaque document.
Le principe est d'établir la notion de spécificité dans un document d'un terme de la requête par rapport à l'ensemble de la collection.
Pour un mot et un document donnés, tf est le nombre d'occurrences du mot dans le document. idf est inversement proportionnel
au nombre de documents contenant le mot.
En plus de ce système de pondération, Google a développé un modèle, appelé PageRank, qui donne plus de poids aux pages "populaires" : plus une page a de liens qui pointent vers elle, plus elle a un PageRank fort. Formulée telle quelle, cette explication n'est pas totalement exacte : il s'agit d'un modèle probabiliste plus sophistiqué mais nous nous limiterons à cette simplification comme première approche.
On peut néanmoins retenir qu'un grand nombre de liens pointant vers une page contribue à donner un fort PageRank à cette page. De plus, un lien intervient d'autant plus dans le calcul du PageRank d'une page qu'il provient d'une autre page ayant déjà un PageRank élevé. Ce principe est illustré dans la figure ci-dessous : la page (rouge) en haut à droite n'a qu'un seul lien qui pointe vers elle, mais ce lien provient d'une page ayant un PageRank très élevé. La page vers laquelle pointe le lien obtient ainsi un PageRank élevé.
Ainsi, si vous créez une page web personnelle qui parle de TreeTagger, il y a fort à parier qu'elle aura un PageRank moindre
que la page sur TreeTagger de l'Université de Stuttgart vers laquelle
toutes les pages qui parlent de l'étiqueteur renvoient.
Si un internaute soumet le seul terme TreeTagger
comme requête et si votre page contient plus d'occurrences
de ce terme que la page "officielle" (donc ayant un tf*idf supérieur),
il est possible (probable) que votre page apparaisse après celle de l'Université de Stuttgart.
D'autres critères viennent s'ajouter à la pondération des termes et au PageRank, comme la présence d'un mot dans le titre d'une page, dans son adresse, ou le fait qu'un mot apparaisse en début de page.
L'étude des mécanismes des moteurs de recherche se heurte à l'opacité volontaire quant à leur fonctionnement. Il est difficile de déterminer l'importance relative de la pondération des termes et du PageRank ainsi que les différents traitements opérés entre l'indexation et la présentation des résultats à l'utilisateur. Une des raisons de cette opacité est l'effet "recette Cola" : volonté de ne pas divulguer ses méthodes à la concurrence. D'autre part, les webmasters essaient d'obtenir artificiellement des bons classements en trompant les moteurs de recherche. Référenceur est même devenu un métier à part entière ; on parle même de référenceur Google, référenceur Yahoo, etc. Il s'agit de modifier le contenu, visible ou invisible, des pages de manière à ce qu'elles "remontent" dans le classement des résultats.