Sonstiges

Langsame Suche: Google Mail umfasst mehr Daten als der Index der Websuche


Interessante Frage, die gerade heiß auf Quora diskutiert wird: Warum braucht Google mehr als drei Sekunden, um den Posteingang von GMail zu durchsuchen, aber nicht einmal eine Sekunde, um Suchergebnisse aus dem weltweiten Netz zurückzuliefern. Die Antwort, die viele von euch auf den ersten Blick ebenso überraschen dürfte wie mich: Weil Google bei der Suche auf dem GMail-Server mehr Daten durchforsten muss als bei der Websuche.

Wie bitte?

Der Google-Suchindex erfasst das öffentliche Web, zumindest sehr große Teile davon. 40 Milliarden Websites dürften aktuell im Zwischenspeicher sein, kennen dürfte Google wohl mehr als eine Billion Seiten. Der Suchriese hat mehr als 100 Millionen Gigabyte Suchdaten (100 Petabyte) gespeichert, was allerdings auch Bildsuche und Videodaten umfasst. Der Suchindex der Websuche dürfte bedeutend kleiner sein. Bei 200 Millionen GMail-Nutzern und einem Durchschnitt von 1 Gigabyte pro Nutzer wären das 200 Petabyte an Daten.

Quora-Nutzer Adam D’Angelo schreibt dazu, und Ex-Google-Mitarbeiter widersprechen ihm nicht:

  • Das Mehr an Daten bei GMail dürfte ein Mehr an Servern bedeuten, die bei einer Suche beansprucht werden.
  • Das Zauberwort heißt „Caching“: Google legt für die Websuche einen Zwischenspeicher der wichtigsten Ergebnisse an, die allen Nutzern präsentiert werden. Die Suchergebnisse für GMail dagegen sind gewissermaßen personalisiert und müssen in Echtzeit verfügbar sein.

GMail-Suchergebnisse sind darüber hinaus nach Zeit sortiert, was mehr Genauigkeit erfordert. Websuch-Ergebnisse sortiert Google nach Relevanz, was Annäherungen erlaubt. Hier ist Zeit nicht der wichtigste Faktor. Wer aber seine E-Mails durchsucht, will schon, dass eine Nachricht, die vor 30 Sekunden eingetroffen ist, darin auftaucht. Verfolgt die Diskussion hier.

(Jürgen Vielmeier)

Über den Autor

Jürgen Vielmeier

Jürgen Vielmeier ist Journalist und Blogger seit 2001. Er lebt in Bonn, liebt das Rheinland und hat von 2010 bis 2012 über 1.500 Artikel auf BASIC thinking geschrieben.

26 Kommentare

  • Ich glaube nicht, dass die Datenmenge eine Rolle spielt. Ich denke bei den meisten Benutzern machen Binärdateien (Bilder in Emails, Anhänge) ~90% des Speicherplatzes aus. Der Textanteil ist bei Emails nicht so hoch.
    Das zwischenspeichern ist vermutlich das größte Problem. Ich vermute wenige der Suchanfragen die man Google stellt wurden in den letzten Tagen noch nicht gestellt, Google tut es sich hier also relativ leicht, ergebnislisten vorzuhalten. Ich kann mir auch kaum vorstellen, dass ansonsten das durchforsten eines so großen Indexes in der Zeit von statten gehen kann.

    Übrigens werden laut Google selbst Emails und Webcache mit der gleichen Speichertechnologie gespeichert (BigTable), so dass die grundsätzliche Effizienz der Bearbeitung gleich hoch sein dürfte.

  • Halöööchen ich such ne Seite wo ich die ganzen Folgen vom Blockhaus.tv ansehen kann !!!!

    Kann mir vielleicht jemand helfen ????
    Wäre mir echt wichtig habe nämlich in der Woche keien Zeit zu gucken aber ich find die Serie sooooooooo cool !!!!!
    🙂
    vorallem weil ich dass was mit lisa und cuzai passiert ist auch erlebt habe 🙂 aber ich bin immer noch mit meinem Freund zusammen Dort sind sie es ja nicht mehr 🙁

    Naja wolln wa mal zum Ende kommen 🙂

    Wäre mir echt wichtig wenn mir jemand ne Seite sagen könnte

    Ich liebe euch 🙂 monique

  • „Bei mehr als 7570.493777 Megabytes (und mehr) freiem Speicherplatz.“

    „Sie nutzen 128 MB (1 %) von Ihren 7570 MB.“

    Hmm.. 😀

  • „GMail-Suchergebnisse sind darüber hinaus nach Zeit sortiert, was mehr Genauigkeit erfordert. Websuch-Ergebnisse sortiert Google nach Relevanz, was Annäherungen erlaubt.“

    Kann mir nicht vorstellen, dass das der Grund ist. Im Gegenteil: Es benötigt viel weniger Aufwand, Datensätze nach einem fixen Kriterium zu sortieren (Quicksort etc.), als wenn man das Kriterium erst noch annähern muss. Da muss interpoliert, optimiert und riesige Gleichungssysteme gelöst werden. Oder nicht?

    rupert

    rupert

  • Die google-Suche ist doch ein Eigenwertproblem. Das konvergiert mit einem guten Algorithmus nach wenigen Schritten, ziemlich egal wie groß die Datenbank ist. Die Sortierung nach Relevanz ergibt sich dabei automatisch ohne Mehraufwand.

    Bei eMails müssen hingegen alle Daten mit dem Suchwort abgeglichen und anschließend sortiert werden, falls sie nicht vorsortiert sind.

  • Das ist wirklich interessant. Wer hätte daran gedacht? Bei dem Mailaufkommen und den starken Kundenabsorptionsbewegungen seitens Google + eigentlich immer größer werdenden Mails aufgrund sämtlicher toller angehängter Contents ist das echt kein Wunder. Danke für die Aufklärung!

  • „Die Suchergebnisse für GMail dagegen sind gewissermaßen personalisiert“
    Macht Google bei den SERPs inzwischen doch aber auch – eingeloggten Usern werden andere Suchvorschläge unterbreitet als nicht eingeloggten Usern, dazu kommt noch der Aufenthaltsort des Googelnden etc pp. Das weicht zwar nicht immer von normalen Ergebnissen ab und selten wirklich deutlich, aber das Cachen von SERPs dürfte damit auch nicht mehr wirklich durchgehend machbar sein/ nur für nicht angemeldete Nutzer.

  • Google ist ja schon ein paar Mal mit – na nennen wir es beim Namen – der Vorratsdatenspeicherung aufgefallen. Allerdings entmüllt in heutiger Zeit kaum wer noch seine Platte, stattdessen wird einfach die nächste Platte verbaut und vollgemüllt.

    „640K ought to be enough for anybody.“ – Bill Gates, 1981

    Viel kritischer sehe ich da die von google eingesetzten Wortfilter, aber gut…. Wohl dem, der seinen eigenen Werbserver und damit nur providerabhängig durch die Gegend surft 😉

  • Bei meinem Postfach würde es mich nicht wundern. Ich hatte mein Postfach bis vor kurzem zu über 90% zugebaut.
    Ich hätte auch eher vermutet, dass die Websuche mit Leistung in Anspruch nimmt als ein einfach Mail-Konto… wieder was gelernt.

  • Die heutigen Festplatten sind doch erst dicht, wenn man Filme downloadet. Für den normalen User sind die Festplatten doch schon überdemnsioniert.

  • Den wortfilter finde ich auch gelinde gesagt doof, der eigene Webserver sollte heute kein Problem mehr sein, ca. 30 euro, dann haste schon etwas gutes / monatlich, lol.