Quand Google donne des infos sur les infos

31 01 2008

Google est une boite très intéressante. Fondamentalement créative et, j’en suis convaincu, bien intentionnée, elle collecte une quantité phénoménale de données utilisées pour améliorer l’accès à l’information de ses centaines de millions d’utilisateurs.

Parfois, ces données agglomérées fournissent des indications imprévues. Par exemple l’outil Google Suggest essaie de deviner ce que vous allez chercher sur le Net en complétant les premières lettres que vous tapez avec les recherches les plus fréquentes sur Google. Par exmple, si vous tapez “is ” (avec espace), Google Suggest vous liste les demandes les plus fréquentes commençant par “est-ce que … “. Ces jours-ci ça donne ça :

En gros, les 4 recherches les plus fréquentes+récentes concernent la religion du candidat Obama aux élections états-uniennes… Intéressant, non ?

Les 8 millions de gens qui ont cherché les paroles (=lyrics) de la chanson “Is this love?” de Bob Marley sont classés après parce que certainement moins fréquentes, en nombre / jour.

Autre effet intéressant du système “PageRank” de classement des résultats de Google : si beaucoup, énormément de sites font un lien sur une secte dangereuse (ne pas cliquer dessus, c’est inutile…), Google va augmenter le “Page Rank” de la scientologie associée aux mots “secte dangereuse”. Comme énormément de sites en anglais l’ont fait sur les mots “dangerous cult“, la scientologie sort en premier lorsqu’on recherche ces mots ! Pas mal, non ?

Ca s’appelle une “Google Bomb”, et ça sera possible tant que Google (et les autres) ne seront pas capables de comprendre la signification des pages. Mais ils y travaillent. Ca s’appellera le “web sémantique” et ça méritera le titre de “web 3.0″.

Sources:





informatique = IT + CS

10 01 2008

Est-ce que l’informatique de demain sera hébergé uniquement à distance ?

C’est la question que pose Sandrine à propos du livre “The Big Switch” de Nicolas Carr, discuté sur le blog de Louis Naugès.

Voici mon (humble) avis sur la question :

Comme souvent, nos collègues de l’IT posent l’équation “informatique=IT” et donc “futur de l’informatique = futur de l’IT”. La tendance “informatique=web” est comparable, quoique moins arrogante.

Désolé, mais : informatique > IT + web

Il existe de nombreuses applications qui nécessitent des processeurs puissants accessibles avec une (très) large bande passante, donc localement : CAO, calcul scientifique, jeux 3D ! C’est le marché de ces applications qui sert de locomotive à l’industrie du hardware et permet de vous proposer tous les 18 mois une machine 2x plus puissante que la précédente. En hébergeant tout sur le “cloud”, Intel ne vendrait ses processeurs qu’à Google et aux autres fournisseurs, et plus aux entreprises pour lesquelles un  PC d’il y a 10 ans serait suffisant…

La tendance est en réalité inverse : les machines perso et bureau étant très peu utilisée (sauf quand on joue…), elles peuvent être utilisées pour des applications réparties. C’est ainsi que le réseau formé par les consoles PlayStation 3 faisant tourner le programme Folding@home dépasse la puissance de calcul de l’ordinateur le plus puissant du monde, le BlueGene/L !

Dans la même veine, à quoi bon faire des disques durs de 500 Gb par millions si les fournisseurs de services web stockent nos vidéos (piratées) à un seul exemplaire, voire zéro ? les réseaux P2P sont en train de réaliser une fonctionnalité très recherchée : l’immortalité des données, et leur indépendance du support grâce à une forte redondance sur un réseau distribué.

Pour quiconque n’a pas courbé ses cours d’architecture hardware pour approfondir sa maitrise du SQL, le web s’est simplement glissé sous le disque dur en devenant la couche la plus basse de la hiérarchie mémoire. La propulser au rang de maitre du monde informatique, c’est mettre la charrue avant les boeufs.

informatique = IT + CS
CS = COMPUTER SCIENCE !