Single post

Wehrt Google sich gegen Startpage?

Nach dem ich im vorherigen Beitrag den Klick-Tracking-Mechanismus von Google Search besprochen habe, hier nur eine kurze desillusionierende Notiz: Startpage ist zwar ein großartiges Tool, um das Tracking zu umgehen, viele von uns verwenden es längst als Standard-Suchmaschine. Aber Google wehrt sich dagegen.

Startpage – https://startpage.com/ – nennt sich selbst „the world’s most private search engine“. Ob das stimmt oder nicht, sei dahingestellt; seine technische Funktionsweise beschreibt Startpage so: Es nimmt die Suchanfrage der User und leitet sie von ihren Servern aus an Google weiter. Dabei schneiden sie alle identifizierenden Informationen heraus, es ist für Google nur die IP-Adresse StartPage-Servers als Urheber der Suche erkennbar. Auch die HTTP-Header, welche Informationen über den Verwendeten Browser, Betriebssystem, Sprachen etc. enthalten, werden stark vereinfacht und anonymisiert (in diesem Beitrag hatten wir erläutert, wie leicht man allein anhand der HTTP-Header im Netz identifizierbar ist). Und dann nimmt StartPage die Suchresultate von Google entgegen, schneidet alle Tracking-Javascripts und sonstiges Zeugs heraus, bereitet sie in seinem eigenen Layout auf und schickt sie an den User zurück.

Setzen wir voraus, dass wir StartPage vertrauen können, dann kann man sagen: Klingt gut – das ist das Prinzip eines klassischen Anonymisierungs-Gateways, und wohl auch tatsächlich momentan das Beste, was man gegen das Google-Tracking tun kann. Denn JavaScript ausschalten hilft nicht, wie im vorherigen Beitrag beschrieben, und auch Firefox-Plugins wie „Remove Google Tracking 1.10.1“ ist nicht zuverlässig (bei mir funktioniert es gar nicht, und es ist davon auszugehen, dass Google immer für jede aktuelle Version eines solchen Plugins mit einem Java Script testen kann, ob es zum Einsatz kommt, um dann irgendein Workaround zu installieren, das ist tatsächlich nicht viel Aufwand und deswegen eine ganz prinzipielle Limitierung für solche Plugins.)

Seit ein paar Wochen allerdings beobachte ich, dass die Suchresultate mit StartPage teilweise stark von denen direkt mit Google abweichen – auch wenn ich alle Cookies lösche und nicht in einem Google Service eingeloggt bin. Nehmen wir die Suche nach „münkler-watch psychologie“. Hier die ersten 10 Suchergebnisse, die ich mit verschiedenen Konfigurationen erhalte:

SP home Google home Google VPN HU Google mit Tor
hu.blogsport.de welt.de tagesspiegel.de tagesspiegel.de
hu.blogsport.de tagesspiegel.de welt.de tagesspiegel.de
spiegel.de hu.blogsport.de hu.blogsport.de welt.de
welt.de spiegel.de hu.blogsport.de hu.blogsport.de
berliner-zeitung.de carl-auer.de opposition24.de hu.blogsport.de
tagesspiegel.de block011.de spiegel.de hu.blogsport.de
sciencefiles.org block011.de berliner-zeitung.de opposition24.de
opposition24.de sciencefiles.org block011.de spiegel.de
opposition24.de opposition24.de block011.de berliner-zeitung.de
carl-auer.de berliner-zeitung.de sciencefiles.org block011.de

Legende: SP = SpartPage.com; Google = google.de; home = Zugriff von zu Hause; VPN HU = Zugriff über VPN HU-Berlin; Tor = Zugriff über Tor.

Markant ist nicht nur, dass block011.de über StartPage nicht angezeigt wird (auch nicht auf der zweiten Seite der Suchresultate). Es fällt viel allgemeiner auf, wie kontingent die Gewichtung der Suchresultate ist. In den drei Varianten der Verwendung von google.de – jeweils mit dem selben Browser von der selben Maschine – entsteht jedes Mal ein ganz anderes Suchbild. Man kann nicht seine Oma anrufen und sagen: Nimm das dritte Suchresultat auf Google. Und nachdem wir erfahren haben, dass Google alle verfügbaren Informationen – IP, Headers, Suchhistorie, Geolokation – zur individuellen Gewichtung der angezeigten Resultate verwendet, ist das auch kaum verwunderlich.

Erstaunlicher wird es dann schon, wenn man die StartPage-Suche über verschiedene Zugriffsnetzwerke wiederholt – wieder: selber Browser, selbe Maschine, nur anderes Netzwerk:

SP home SP aus VPN HU SP mit Tor
hu.blogsport.de welt.de welt.de
hu.blogsport.de hu.blogsport.de spiegel.de
spiegel.de tagesspiegel.de carl-auer.de
welt.de tagesspiegel.de hu.blogsport.de
berliner-zeitung.de opposition24.de tagesspiegel.de
tagesspiegel.de berliner-zeitung.de berliner-zeitung.de
sciencefiles.org spiegel.de opposition24.de
opposition24.de spiegel.de sciencefiles.org
opposition24.de sciencefiles.org sciencefiles.org
carl-auer.de carl-auer.de wdr5.de

Sollte StartPage nicht alle individuellen Merkmale aus der Suchanfrage herausschneiden? Wie kommt es dazu, dass ich trotzdem drei völlig verschiedene Resultate erhalte? Und wieso kommt es dazu, dass block011.de als Suchresultat mit StartPage komplett fehlt, als einiges? Während die ganzen Zeitungs-Artikel nur ihre Reihenfolge verändern? Weiß Google etwa, dass ich auf block011.de schreibe und dass es deshalb für mich relevant ist? Aber nur für mich, so dass es vielleicht niemand sonst angezeigt bekommt, der nach „münkler-watch psychologie“ sucht?

Noch erstaunlicher: Sucht man in StartPage direkt nach „block0806“, dann gibt es nur eine Seite mit Suchresultaten, und da ist block011.de nicht dabei:

SP home SP Tor Google home + VPN HU
hu.blogsport.de mdonatoandcompany.com block011.de
hu.blogsport.de hu.blogsport.de block011.de
mdonatoandcompany.com hu.blogsport.de block011.de
sf-planning.org sf-planning.org block011.de
sf-planning.org patentimages.storage.googleapis.com block011.de
6502.org 6502.org block011.de
patentimages.storage.googleapis.com block011.de
packtpub.com block011.de
packtpub.com block011.de

Wir sehen: Über Tor sind es weniger Resultate, die StartPage liefert, verglichen mit dem Zugriff von mir zu Hause (wahrscheinlich kann Google jetzt anhand der Suchresultate rekonstruieren, wo mein Zuhause ist). Und block011.de ist über StartPage gar nicht dabei.

Kann das jemand interpretieren? Ich sehe zwei Probleme:

  1. In welcher Reihenfolge StartPage oder Google ihre Resultate anzeigen, ist massiv von der Art des Zugriffs abhängig. Während das bei Google nicht verwundert, ist es bei StartPage bemerkenswert – weil die doch behaupten, die Suchanfrage zu anonymisieren. Wie kommt es dazu?
  2. Und wie kommt es dazu, dass dezidiert block011.de – also eine ganze Seite – bei StartPage nicht vorkommt?

Wie arbeitet Startpage überhaupt?

Haben wir überhaupt eine Ahnung, wie Startpage arbeitet? Wie können die überhaupt als Google-Gateway funktionieren? Wenn ich z.B. über eine Tor-Exit-Node mit Google.de suchen möchte, dann kommt es oft genug vor, dass ich ein Captcha machen muss, also so ein Ding, wo man etwa eine verzerrte Schrift erkennen und eingeben muss, um nachzuweisen, dass man ein Mensch ist. Google möchte den Missbrauch ihrer Services durch Bots verhindern – wieso sollte es dann nicht die Weiterleitung der Suchanfragen durch StartPage verhindern? Wie genau schafft es StartPage, den freien Zugriff bei Google zu erzwingen? Hat es etwas damit zu tun, dass sie ein Proxy (ixquick) sind, über das so viele Menschen ins Netz gehen, dass Google sonst auf einen Schlag auf einen ganzen Marktanteil verzichten würde?

Irgendwas in die Richtung scheint sich in der spärlichen FAQ dazu auf startpage.com anzudeuten:

„Why does Google let StartPage access their search results?
Last modified on 06 August 2013 06:43 PM

StartPage has a contract with Google that allows us to use their official „Syndicated Web Search“ feed. So we have to pay them to get those results. Sometimes we get slightly different results but in general they are the same high quality.

Our sister search engine Ixquick uses multiple search engines and web sources to power its results.

The beauty is that you can be sure we never share your personal details with any third party, including Google. Your privacy is absolutely secured.
You can read more about this in our Privacy Policy.“ [Quelle]

Aha, wenn Startpage Google dafür bezahlt auf all ihre Tracking-Magick und die Verknüpfung mit den Google-Konten zu verzichten (ist das in Bezug auf die Konten, in die man gleichzeitig eingeloggt ist, eigentlich bewiesen?), womit verdient StartPage dieses Geld? Was für ein Interesse haben die daran?

Übrigens gibt es in der Startpage in der FAQ auch eine Stellungnahme dazu, dass es offenbar vorkommt, dass die Suchresultate von den Google-Suchresultaten abweichen:

„Why do I get different results with StartPage than Google?
Last modified on 01 June 2013 10:12 PM

One of two things may be happening to cause you to receive different StartPage results than what you would receive from Google.

The first may involve Google’s tailored search feature. Google keeps a record of all of your interests, based on things you write about in your Gmail account, things you search for on their search engine, and other Google services you use. They use this information to pre-select what search results they believe you are actually looking for. […]

We believe this is a benefit, rather than a bug.

The other possibility is that Google may occasionally provide different results to StartPage than to its direct users. Because we act as an intermediary between you and Google, we are dependent on the results Google sends to us. We do not modify these results in any way, but deliver them to you exactly as Google delivers them to us. We have noted that occasionally Google provides different results to StartPage than they offer to the general public, for reasons that are not entirely clear. We believe, however, that the privacy advantages of using StartPage vastly outweigh the occasional difference in results.“ [Quelle]

Ist das ein Eingeständnis? Dass Google sich „wehrt“ gegen Startpage und eben doch nicht alle Suchresultate zur Verfügung stellt? Aber was ist das System dahinter? Warum werden ganze Webseiten herausgefiltert und als nicht existent betrachtet? Betrifft es nur die „neuesten“ Seiten oder so etwas, so dass wer richtig aktuelle Resultate will, lieber mit Google suchen sollte? (Das ist nur eine unbegründete Hypothese.)

Wir sollten Beispiele sammeln!

Tloen Uqbar
Juni 10th, 2015 at 1:37 am

Ich hatte schon länger die Beobachtung, dass startpage ziemlich schlecht bei deutschen Resultaten ist. Vielleicht erhält startpage nur amerikanische Resultate, und da tauch block0806 auf? Das müsste mal mit einer google-Abfrage über einen proxy in den USA überprüft werden.

Comments are closed.

theme by teslathemes