lundi 21 octobre 2013

Geek'n roll (2): chroniques du web invisible

             « Il y a un autre monde mais il est dans celui-ci ». Cette belle phrase de Paul Eluard pourrait illustrer le phénomène intéressant que constitue l’existence d’un réseau « alternatif » représentant une somme de données cinq à six cent fois plus importante que l’internet que nous connaissons et utilisons tous les jours pour accéder à sa boîte mail, perdre son temps sur Youtube ou Facebook. La plupart des internautes qui s’adonnent quotidiennement à ces activités ne se doutent pas une seconde qu'au hasard de leurs pérégrinations électroniques, ils enjambent les interstices béants qui font bailler les coutures du world wide web.          
« Le net est vaste et infini » concluait sobrement le Major Kusanagi, à la fin de Ghost in the shell, manga visionnaire de Mamuro Oshii et Kenji Kamiyama, mettant en scène un monde dans lequel des êtres humains ont massivement recours à la cybernétique et possèdent presque tous leur « ghost » - est-ce une ombre ? Une âme ? – stocké quelque part dans l’immensité d’un réseau informatique mondial. Sorti en 1995, c’est-à-dire il y a une éternité pour internet, le film inspiré d’un manga publié cinq années plus tôt décrit une humanité totalement interconnectée et emprunte largement aux visions prophétiques et cyberpunk de William Gibson. La même année, un étudiant irlandais achevait sa thèse de doctorat en informatique qui s’appuyait sur un projet intitulé « Système de stockage et de récupération de données distributif et décentralisé », consistant à proposer une nouvelle manière d’utiliser internet en préservant complètement son anonymat. Le projet laisse de marbre son jury de thèse mais Ian Clarke, notre jeune étudiant, subodore que, comme souvent, l’université, dans sa grande sagesse, n’a pas saisi toutes les implications et le potentiel d’un travail qui se situe beaucoup trop à la pointe de l’économie numérique pour des universitaires encore bloqués sur Marshall MacLuhan et sa théorie des médias froids inlassablement réchauffée. Ainsi, Ian Clarke poursuit ses recherches et développe par ses propres moyens le logiciel Freenet, qu’il publie en 2000.


 Un projet ambitieux ou une simple bonne idée peut accéder au statut de véritable innovation technologique si le contexte s’y prête, évidemment. Dans le cas de Freenet, le contexte du début des années 2000 a été tout à fait favorable au logiciel, bien qu’il ne se soit après tout téléchargé que deux millions de copies de celui-ci à partir du site officiel. A ce moment, Freenet répond à deux interrogations au sein de la communauté des internautes. Tout d’abord comment contourner la législation qui s’attaque de plus en plus directement au téléchargement dans de nombreux pays ? Et ensuite comment assurer une navigation réellement anonyme et sécurisée au moment où internet semble être de plus en plus livré à la surveillance d’organismes gouvernementaux et d’agences privées ? Alors que Napster a déjà subi les foudres des tribunaux américains et que Kaaza est dans le collimateur des autorités, Freenet fait partie des multiples solutions proposées pour surfer – et éventuellement s’échanger des contenus – de façon tout à fait anonyme. La différence est cependant que Freenet n’est pas un simple système de P2P crypté, il s’agit plutôt d’un protocole permettant d’accéder à un véritable réseau parallèle composé de millions de pages web et de terabytes de données ignorées par les moteurs de recherche tels que Google ou Yahoo. Comme le précise sa notice Wikipedia : « Freenet est un réseau informatique anonyme et distribué construit sur l'Internet. Il vise à permettre une liberté d'expression et d'information totale fondée sur la sécurité de l'anonymat, et permet donc à chacun de lire comme de publier du contenu. Il offre la plupart des services actuels d'Internet (courriel, Web, etc.). » Contenu publié et échangé sous forme de paquets de données cryptées garantissant, en théorie, un anonymat complet pour ceux qui y accèdent.



Néanmoins, pour ceux qui découvraient Freenet au milieu des années 2000, l’ambitieux projet de Ian Clarke n’était pas la panacée : lent, éventuellement dangereux pour le système d’exploitation (il donnait accès à du contenu peut-être crypté mais éventuellement aussi truffé de virus). Bref, ce n’était pas encore, pour l’utilisateur lambda, le paradis du téléchargement. En revanche, ceux qui sont allés y faire un tour à l’époque (en y laissant éventuellement leur disque dur…), ont pu s’apercevoir que le « réseau parallèle » accueillait déjà quelques publications exotiques (The Anarchist cookbook y figurait en bonne place. Désormais il est sur Amazon…) et du contenu fort peu recommandable, ce dont les fondateurs de Freenet s’excusaient ainsi : « Bien que la plupart des gens aimeraient que la pornographie infantile et le terrorisme n'existent pas, l'humanité ne devrait pas être privée de la liberté de communiquer simplement parce qu'un très petit nombre de personnes pourraient l'utiliser à d'autres fins. » Avec de la chance, Freenet utilisant une technique de fichiers déconcentrés, on pouvait éventuellement retrouver des morceaux de fichiers pas très ragoûtants dans ses fichiers temporaires.
Quand il est apparu que les usines à gaz nommées LOPPSI ou HADOPI s’avéraient aussi inefficaces (et inutilement dispendieuses pour l’Etat) les unes que les autres et que d’autres protocoles d’échange privés, tels que Waste ou Tribal Web, s’avéraient tout aussi efficaces, moins complexes et plus sains, l’étoile de Freenet a quelque peu pâli. La mentalité des internautes a également considérablement évolué avec l’explosion des réseaux sociaux. Adieu l’anonymat et bonjour l’extraversion ! Le web 2.0 s’annonçait plus transparent, plus solidaire, plus simple et plus festif. Blogs et réseaux sociaux se sont développés à toute vitesse et la devise d’internet, de « pour vivre heureux, vivons cachés » est plutôt devenue « Venez comme vous êtes ! », comme chez Mac Do. Malgré cela, le « Deep Web » n’a cessé de grandir, en toute discrétion, au même rythme qu'internet. 



Qu’appelle-t-on exactement le « deep web » ou « web profond » ?

Le "deep web" n’est pas vraiment, à proprement parler, un internet hors de portée. Il s’agit plutôt d’un ensemble de ressources (.pdf, .doc, audio, vidéo…etc) qui ne sont pas directement accessibles via les moteurs de recherche classiques. Ainsi, le contenu de bases de données énormes telles qu’IMDB n’est en réalité indexé qu’à hauteur de 50% par les moteurs de recherche actuels. Le deep web est aussi constitué des versions les plus anciennes de sites publics qui ne sont plus accessibles aujourd’hui sur le web public ou de milliards d’octet de données constitués par des documents mis en ligne à une époque où google ne recensait pas encore le .doc ou le .pdf. et il faut ajouter à cela l’ensemble des réseaux privés ou cryptés auxquels les moteurs et robots de recherche n’ont pas accès. La masse de données concernée est énorme. En 1998, rapporte une étude de la société Digimind, le magazine Nature estimait qu’il existait 800 millions de pages. Le rythme de croissance exponentiel d’internet permet d’estimer qu’il existe aujourd’hui plus de soixante milliards de pages publiées sur internet (et vous êtes actuellement en train d’en lire une de plus). Le web n’est qu’une collection de liens hypertextes sur lesquels on peut cliquer pour accéder à de nouvelles pages et qui sont plus ou moins référencés par les moteurs de recherche. Les meilleurs moteurs de recherche, à savoir Yahoo ou Google, n’en indexeraient que 10%. Le reste appartient aux entrailles du « web invisible » dont la taille représente 500 fois celle du « web de surface ». Ces données supposément "invisibles" sont néanmoins accessibles par le biais de moteurs de recherche alternatifs, tels que BASE, ou via des sites tels que Archive.


Un certain nombre d'entreprises, privées ou publiques, se consacrent aujourd'hui au développement d'outils capables d'aller chercher, et surtout indexer, ces informations qui peuvent se révéler précieuses et sont tout simplement stockées anarchiquement dans divers recoins de la toile. Internet est peut-être célébré comme un fantastique outil de communication mais c'est aussi, et surtout, une vaste poubelle qui s'auto-alimente en permanence et grandit de façon exponentielle à mesure que l'activité se décuple sur le réseau "visible". Il serait étonnant cependant que ces abysses inexplorés n'accueillent pas des activités plus clandestines, voire illégales, auxquelles seuls des outils bien spécifiques permettent d'avoir accès. 

Les oignons, ça fait pleurer.

« Ceux qui descendent sur la mer dans des navires, et qui trafiquent sur les grandes eaux, Ceux-là ont vu les œuvres de l'Éternel, et ses merveilles dans les lieux profonds. » 
Psaume 107 ; 23 ; 24

Si l'expression "deep web" désigne donc plutôt un contenu hétéroclite et monumental constitué par l'ensemble des pages non - ou mal - référencées, la notion de "web caché" désigne une virtualité à la fois plus fascinante et plus dérangeante. Le fait de n'être indexé et accessible par aucun moteur de recherche peut en effet représenter un intérêt dès que vous cherchez à développer en toute discrétion des activités que la morale, voire la loi, réprouvent. Il existe donc un ensemble de sites qui ne sont pas enregistrés en .com, .org ou .fr mais en .onion et qui ne sont accessibles qu'en installant un navigateur spécifique nommé TOR (The Onion Router). La métaphore de l'oignon illustre ce qu'est le réseau TOR: une superposition de couches de routeurs (dites en "oignon") qui permettent d'échanger des informations de manière décentralisée. Le réseau TOR donne accès à un ensemble de noeuds permettant un échange crypté d'informations. En clair, il s'agit d'un réseau de taille mondiale, hébergeant des sites auxquels il est impossible d'accéder en utilisant un navigateur traditionnel (Chrome, Firefox ou autre...) et sur lequel la navigation est garantie comme complètement anonyme. Néanmoins, et du fait de sa nature même, le réseau TOR possède deux inconvénients de taille. 

1) Les sites qui y sont référencés y changent d'adresse constamment. Aucun moteur de recherche ne permet donc d'indexer et de retrouver la moindre information. Autant essayer de retrouver en tâtonnant un objet dans un débarras plongé dans l'obscurité. Il n'existe en réalité qu'une forme de cartographie, très sommaire, de cet internet alternatif, sous la forme d'une page Wikipedia, elle-même indexée en .onion, connue sous le nom de "Hidden Wiki", qui donne une liste non exhaustive et constamment changeante d'adresses web associées à des sites à la localisation très volatile. 


Cette situation pousse à l'extrême la situation imaginée par Jorge Luis Borgès dans sa nouvelle La bibliothèque de Babel: celle-ci est composée d'innombrables rayonnages qui contiennent des millions d'ouvrages dont pas un n'est identique à un autre. Tout le savoir du monde a beau être à portée de main, il n'en reste pas moins qu'il manque une information capitale à détenir pour le lecteur : savoir où chercher le livre dont il a besoin. 
La métaphore peut prendre des allures inquiétantes avec le web caché. Le Hidden Wiki recense en effet un certain nombre d'adresses qui donnent accès à des articles scientifiques, à des publications et bases de données d'intérêt divers, à des liens de téléchargements mais aussi à des sites au contenu pornographique, pédopornographique, voire bien pire car les rumeurs qui circulent sur le web caché font carrément état de vastes bases de données de snuff movies et de paradis des groupes terroristes en tout genre, voire de sites où il est possible de commanditer un assassinat pour quelques bitcoins, la monnaie couramment utilisée sur ce réseau parallèle. Autant dire qu'en plus des innombrables virus qui circulent sur ce genre de réseau, un clic peut coûter beaucoup plus cher qu'un simple plantage du système.  


 2) L'autre gros inconvénient du système TOR, qui avait été au départ créé pour garantir l'anonymat sur internet, est qu'il peut parfaitement être utilisé à des fins de contrôle de l'information et des individus. Comme le rappelle la petite illustration ci-dessus, même si elle correspond à un espace caché immense, cette partie d'internet reste largement surveillée par les agences gouvernementales qui, si elles ne peuvent pas contrôler ce qui s'y passe, gardent un oeil attentif sur les informations qui s'y échangent et éventuellement les IP (adresses électroniques) qui s'y baladent. Il est même, pour des agences privées ou gouvernementales, oeuvrant dans le domaine du renseignement, possible d'utiliser TOR pour espionner une partie du réseau, visible ou invisible. Hormis le simple développement d'activités illicites sur le web caché, qui peuvent enflammer les imaginations, le véritable intérêt du deep web réside, pour les gouvernements et sociétés privées, dans l'abondance de données qu'il recèle et auxquelles on peut accéder par des moyens bien différents, que cela soit BASE, Freenet ou le réseau TOR. 
Dans le contexte actuel, un certain nombre d'états, de taille moyenne ou d'importance plus grande, ont tendance à miser de plus en plus sur l'information disponible sur la toile. La récente affaire Snowden a montré à quel point les gouvernements, secret de polichinelle, pouvaient être attentifs à la captation d'informations privées qui circulent via gmail, hotmail ou Facebook. La  collecte de renseignements en libre accès, ce que les anglo-saxons nomment OSINT (Open Source Intelligence, par opposition à l'HUMINT, Human Intelligence, le renseignement plus classique), est en plein essor du fait de sa croissance exponentielle et de son moindre coût. Le deep web, qui est très loin de se limiter au seul "web caché", concept plus spectaculaire, est, tant pour les entreprises privées que pour les agences gouvernementales, devenu depuis quelques années un champ d'action et d'exploration stratégique et cette tendance ne devrait pas se démentir. 

Aucun commentaire:

Enregistrer un commentaire