Ce n'était pas possible il y a cinq ans: un homme a monté son propre moteur de recherche avec des parties d'un ancien serveur et (beaucoup) de l'aide de l'IA

Il y a près de trente ans, lorsque Google est né en tant que projet de recherche à l'Université de Standford appelée «Backrub», ses fondateurs l'ont lancé avec un matériel modeste pour l'époque: un serveur expérimental avec 40 gigaoctets de stockage hébergés dans une carcasse fabriquée avec des blocs LEGO. Aujourd'hui, quelqu'un voulait imiter ces mêmes origines dans sa propre maison.

Répétition. Maintenant, cette histoire semble être répétée d'une manière vraiment intéressante. Avec l'ingéniosité et le profit du matériel que les grandes entreprises rejettent, un développeur nommé Ryan Pearce a créé un moteur de recherche fonctionnel et étonnamment robuste. Mieux encore, le centre de données derrière est un coin de sa machine à laver, en particulier juste à côté du sèche-linge.

De cet humble endroit, Pearce Opera Searcha Page et sa variante se sont concentrés sur la vie privée, cherche ninja. De cette façon, lorsqu'une recherche est effectuée sur ces pages, la consultation se déplace directement à un serveur qui fonctionne entre les cycles de lavage. Et la chose la plus incroyable est que, à l'exception d'une légère latence que Pearce a amélioré, les résultats sont de qualité incroyable.

« En ce moment, dans la buanderie, j'ai plus de capacité de stockage que Google en 2000 », explique Pearce. Et c'est la clé de tout: la démocratisation d'une technologie qui semblait inaccessible.

Le contexte. La création d'une base de données pour donner vie à un moteur de recherche n'est pas simple. Dans ce cas, Pearce a construit la base avec 2 000 millions de billets et prévoit de le doubler en moins de six mois. Pour contextualiser, le Google de 1998 avait 24 millions de pages indexées. Et bien que les chiffres de Pearce soient une baisse de l'océan par rapport aux 400 000 millions de billets que Google a gérés en 2020, est une grande réussite pour un projet de solendal.

Le matériel. Pearce a profité d'un phénomène que nous pourrions appeler « Mettre à jour l'arbitrage ». Les grandes entreprises renouvellent leurs serveurs tous les trois ou quatre ans, jetant des équipes incroyablement puissantes qui se retrouvent sur le marché du deuxième main aux prix des rires. Et c'est là que Pearce a essayé de tirer le meilleur parti de.

Le cerveau de son système est un CPU AMD EPYC 7532 de 32 cœurs. Lors de son lancement en 2020, ce processeur a coûté plus de 3 000 $. Pearce l'a obtenu sur eBay pour moins de 200 $. Le système complet, qui comprend le Terabyte RAM, a coûté environ 5 000 $, une fraction minimale de sa valeur d'origine. C'est un parfait exemple d'auto-olajamiento (Auto-hébergement) pris à l'extrême.

Beaucoup d'aide de l'IA. Mais le véritable changement de paradigme n'est pas dans le matériel, mais dans le logiciel. Ce qui permet à Pearce de rivaliser, au moins conceptuellement, est l'intelligence artificielle elle-même, qui génère actuellement la controverse au sein des navigateurs.

C'est pourquoi, alors que de nombreux utilisateurs critiquent les résumés générés par Google ou le chatbot Bing, Pearce utilise de grands modèles de langage (LLM) d'une manière différente. Il ne les utilise pas pour vous donner une réponse directe, mais en tant qu'outil de développement pour accélérer la création du moteur de recherche.

« Ce que je fais, c'est vraiment une recherche très traditionnelle, ce que Google était il y a 20 ans », explique Pearce. « La seule différence est que j'utilise l'IA pour l'expansion des mots clés et pour aider à comprendre le contexte, qui est la partie difficile. »

Utiliser la stratégie. De cette façon, au lieu de construire des complexes d'algorithmes de traitement du langage naturel, Pearce tire parti des modèles comme il l'appelle 3 (via le service à faible coût de Sambanova) pour affiner les recherches. Cela vous permet de créer un système complexe de manière interactive, en écrivant du code traditionnel pour remplacer progressivement les fonctions que vous déléguez initialement à l'IA. Son code de base a déjà environ 150 000 lignes, mais il en souligne déjà beaucoup plus.

Il n'est pas seul. Le cas de Pearce n'est pas isolé. C'est le fer de lance d'une nouvelle tendance de développeurs indépendants qui osent réinventer la recherche. Un autre exemple est Wilson Lin, qui, contrairement à Pearce, a opté pour une approche basée sur le cloud. Lin a créé son propre moteur de recherche à l'aide de bases de données vectorielles, où les résultats sont regroupés par similitude sémantique plutôt que par coïncidence des mots clés à quoi nous sommes habitués.

Les deux projets, bien qu'avec des philosophies différentes (une auto-alajo et traditionnelle, l'autre dans le nuage et le vecteur), dépendent de deux piliers fondamentaux:

  1. Modèles d'IA accessibles: les LLM ont considérablement réduit la barrière d'entrée pour le développement de systèmes de compréhension des langues complexes.
  2. Données ouvertes: les deux s'appuient sur Common Crawl, un référentiel de données Web public et massif qui sert de base à la formation de l'IAS et à la création de taux de recherche sans avoir à suivre l'ensemble du site Web à partir de zéro.

Moteurs de recherche alternatifs. Ces projets rejoignent une famille croissante de moteurs de recherche alternatifs tels que DuckDuckgo, Brave Search ou le niche le plus marginalement, qui se concentre sur la découverte de sites Web petits et non commerciaux. Ce que Pearce et Lin démontrent, c'est que la technologie pour construire un moteur de recherche n'est plus le principal obstacle. « Le seul obstacle à vraiment rivaliser avec Google », explique Lin, « n'est pas tant la technologie, mais principalement les forces du marché. »

L'avenir. Ryan Pearce est consciente des limites de son projet. Son serveur génère tellement de chaleur qu'il a dû le déplacer de sa chambre à la lessive. Pour l'instant, il ne fonctionne qu'en anglais et a commencé à expérimenter des publicités d'affiliation pour financer sa croissance.

Son plan est que si le trafic continue d'augmenter, déplacer le serveur vers un centre de placement de données. Le « Google de la Lavadero » n'y vivra pas pour toujours.

Images | Christin Hume

Newsletter

Rejoignez notre newsletter pour des astuces chaque semaine