Sonstiges

Projekt Tasterati = News zum User kommen lassen

Alexander Graf beschreibt im Artikel „Last.FM für News – Google 2.0?“ folgende Projektidee:

Eine meiner Lieblingsseiten zu dieser Zeit war Last.fm. Die Idee über Profilabgleiche zu passender Musik zu kommen ist einfach genial. Im Rahmen meiner Recherchen auf hunderten verschiedener Websites (inkl. Blogs) kam mir irgendwann der Einfall, dass man doch das gleiche System für viele Arten von Informationen benötigt. Eine Art Last.fm für News. Ein System, was mir aus unendlich vielen Quellen so etwas wie ein personalisiertes Spiegel Online erstellt und dabei auf unzählige (messbare) Informationen für die Personalisierung zurückgreift…. Man möchte eigentlich nur die wirklich spannenden Themen im Longtail der Informationen für sich finden. Eine redaktionelle Sortierfunktion á la Golem oder Spiegel Online funktioniert da leider nicht mehr. Die Qualität von Informationen wird zunehmend weniger durch redaktionelle Systeme (z.B. Zeitungen) sichergestellt, als von unabhängigen Fachexperten und Nischenjournalen. Dieses Problem betrifft momentan „€œnur“€? die Informationworker (Blogger, Trendforscher, IT-Freaks“€¦), aber langfristig alle Nutzer. Denn auch das Grundrauschen in vornehmlich privaten Informationen muss irgendwann gefiltert werden.

Aus dem Projekt ist aufgrund der Komplexität, Zeitmangels und wohl auch Finanzen nach viel Arbeit letztlich nichts geworden. Kompliment jedoch, dass es Alexander recht feindetailiert beschreibt!

Nur eine nette Idee, die schon daran scheitert, dass man ein System auf die Beine stellt, „was mir aus unendlich vielen Quellen so etwas wie ein personalisiertes Spiegel Online erstellt und dabei auf unzählige (messbare) Informationen für die Personalisierung zurückgreift.“?

Wenn etwas zu komplex wird, modelliert und simplifiziert man, indem man zahlreiche Parameter fixiert, weglässt oder zunächst ignoriert. Fangen wir demnach bei Last.fm an, einem bekannten Modell für Musikentdeckung. Man hört Musik. Man „hört“ Musik. Das macht man nebenbei. Und meldet damit Last.fm, was man hört, um es mit anderen zu sharen. Der laufende Stream von Musikstücken -die auch getaggt, favorisiert und in Playlisten gestopft werden- erzeugt in der Summe ein Entdeckungssystem für die User, das insbesondere im Long Tail funktioniert (jeder Nischengeschmack findet etwas).

Was ist aber „News“? Man kann es nicht hören. Wir simplifizieren! Man kann es jedoch sehen (meistens, wenn man jetzt Blinde außen vor läßt). Was man sieht, liest man. Was man liest, sieht man. Was man liest, „streamt“ man zum Zentralsystem (-> Last.fm for News, da sind wir noch). Wie? Welche Metrik nutzt man? Zeiteinheiten! Hier verlassen wir Musik/Last.fm, weil das dort nicht nach Zeiteinheiten abgefackelt wird. Nehmen wir an, ein Standarduser braucht für 1.000 Zeichen 1 Minute (keine Ahnung, obs stimmt). Für 500 Zeichen braucht er 30 Sekunden. Für 2.000 Zeichen 2 Minuten. Etcpp.

Wir ignorieren die Komplexität eines Textes. Nehmen wir weiter an, es gäbe nur 1 Newsseite weltweit. Die jeden Tag 10 Artikel für 10 Themenbereiche produziert. Und es gibt exakt 10 Benutzergruppen, die sich ausschließlich für eine der 10 Themenbereiche interessieren.

Wird Artikel 1/Thema 1 im Schnitt und im Median bei einer Länge von 1.000 Zeichen 10 Sekunden gelesen (Stoppuhr sei vorinstalliert im Browser, ebenso die Sensorik, welcher Artikel das ist), wissen die User, die den Artikel noch nicht gelesen haben, dass der Artikel nur zu 10/60 interessant ist. Diese Ableitung ist berechtigt, um festzustellen, ob die User den Artikel nun lesen oder nicht. Es ist völlig egal, wie schrottig der Artikel sein mag!

Wir können das System nun weiter vereinfachen: Es ist nicht wichtig, dass ein Sensoriksystem weiß, zu welcher Themenkategorie ein Artikel gehört. Forget Semantik! 9 Benutzergruppen werden diese Artikel nicht einmal anlesen. 1 Benutzergruppe sehr wohl. Alles was der faule User tun muss? Abwarten, dass die ersten User seiner Interessensgruppe „seine“ Artikel lesen und ihm dadurch melden, ob ein Artikel spannend ist. Woher weiß der User, zu welcher Benutzergruppe er gehört?

Wir verkomplizieren die Welt: Es gibt Benutzer, die mehrere Themen lesen, manche alle, manche nur eins. Unser fauler User parametrisiert sich selbst, indem er sich seine Interessensgruppen zuordnet (Sport = total interessiert, Politik = nie, Film = geht so =50%, …). Erfüllt ein Artikel gemäß der verbratenen Zeitdauer die Vorgabe „super“ (=mind. 90% der Zeit, die man braucht , um den Artikel mit 1.000 Zeichen Länge zu lesen), wird er ihm angezeigt. Selbst wenn der Artikel nur zu 10% gelesen worden wäre. Also ein Sportartikel. Wird ein Filmartikel zu 40% gelesen, wird er dem User nicht angezeigt. Etcpp. Mit der Zeit klemmt sich der faule User an bestimmte Standarduser dran, die ihm persönlich gute Artikelindikatoren liefern. Das macht der letztlich wie bei Last.fm.

Wir drehen das Modell auf: Aber User haben unterschiedliche Lesegeschwindigkeiten. Richtig! Das System eicht sich ein. Wo ein User nur 10 Sekunden für 500 Zeichen braucht, benötigt der andere 100 Sekunden. So what? Das System erfährt dennoch, ob ein Artikel komplett gelesen wurde. Oder nicht. Oder üebrhaupt angelesen wurde. Vorteil: Es ist saubequem. Man muss sich fast nicht drum kümmern. Nur zu Beginn seine Themen parametrisieren und mit der Zeit sich an bestimmte User dranklemmen, was er eh machen wird, wenn das System eine Interaktion zwischen Usern erlaubt. Nun kann man noch, wenn man will, tags, favorites, readlists hinzufügen als weitere Messmetriken.

Wir drehen abermals das Modell auf: Was ist mit der Komplexität? Ein Text kann zwar langweilig und doof sein, dennoch braucht der Schnellleser und Langsamversteher dadurch die zehnfache Menge an Zeit. Auch das kann man messen. Indem man nichts anderes macht als zuvor: Die Zeit stoppen. Das System hat nun eine Messung, die besagt, dass der User -egal welcher Typus von Schnellleser- 10x so lange benötigt hat wie gewöhnlich. Wir ignorieren „away from keyboard“-Abweichungen btw! Ist das nun ein Problem zum Melden, ob ein Artikel spannend ist? Nein, denn wenn die anderen User ebenso länger brauchen, kann das System immer noch sagen, dass bei einer 5fachen Abweichung nach oben der Artikel solala war. Bei einer 10fachen Abweichung muss der Artikel wohl komplett und intensiv gelesen worden sein. Und, das Messsystem kann oW User in Lesegeschwindigkeitsgruppen aufteilen und damit bestimmte User zusammenbringen (korrekt: es bringt die richtigen News zu den geeigneten Lesergruppen), wenn man gedanklich Lesegeschwindigkeit und Verständnisgeschwindigkeit voneinander trennt.

Über den Autor

Robert Basic

Robert Basic ist Namensgeber und Gründer von BASIC thinking und hat die Seite 2009 abgegeben. Von 2004 bis 2009 hat er über 12.000 Artikel hier veröffentlicht.

13 Kommentare

  • Wäre es da nicht einfacher, einen „Bann“ und einen „I-Like-It“ Button in den Reader zu bauen? Was man mag, makiert man irgendwann mit „I-Like-It“, uninteressante Artikel landen wohl sehr schnell auf der persönlichen Bann-Liste. Gelesene Artikel ohne Tag sind dann „so lala“. Ich glauber, viel genauer muss der Maßstab nicht sein und kann er auch nicht werden; Die Menge der bewerteten Artikel macht die Qualität der Personalifizierung aus, nicht die genaue Bewertung eines jeden gelesene Artikels. Von daher halte ich deinen Zeit-Ansatz ein wenig für Overkill.

    Ich glaube, LastFM macht das auch nicht viel anders: Mögen oder nicht – Durch die Menge der Lieder weiß das System auch so schon bald, wo die eigenen Interessen liegen.

    Möglich wäre so ein System bestimmt; Nur brauch man dafür erstmal die Zeit, sowas auf die Beine zu stellen. Ich wäre bestimmt einer der ersten Benutzer…

  • Jepp, schließe mich dem Vorredner an – ich würde die Lesedauer einfach weglassen. Eine Bewertung des Users einführen und gleichzeitig müsste das durch die interne Klassifizierung abgedeckt werden können. Auf die lange Sicht müsste der User immer wieder „News“ lesen, die ähnlich klassifiziert sind, da müsste es so eine Art „Trainingsphase“ geben.
    Aber insgesamt glaube ich, dass das Thema „News“ bei weitem nicht so vielschichtig ist wie es das Thema „Musik“ ist. Zumindest die Zahl der lesenswerten Artikel (und damit die Autoren, bei denen ich bereit bin meine Zeit in eine News zu investieren) ist zumindest bei meinen Themen, ziemlich überschaubar.
    Die RSS-Feeds werden da nicht dreistellig – eine Vorsortierung der Feeds, das wäre etwas praktisches.

  • Lesedauer und Bewertung im Sinne von „I like it Buttons“ sind nur zwei von vielen messbaren Größen. Ziemlich gute aber!

    @Martin: Das System muss auch ohne Training sehr gut funktionieren, sonst ist es schwer kritische Größen zu erreichen. Genau daran ist u.a Findory gescheitert.

    @Rob: Danke für den netten Artikel – genau das möchten wir erreichen: Weiterdenken. Mal schauen ob sich eine Interessengruppe beim Barcamp HH findet.

  • idee ist prinzipiell ja nicht schlecht, wird nur daran haken das musik i.d.r. ja was ganz anderes ist als news. appropo, was last.fm für musik ist, könnte yigg und co ja für news sein, vom prinzip her – oder sehe ich das falsch?

  • ist es ja auch schon (ok,nicht in den Massen). Leidet aber immer wieder unter demn Vorwurf, es würde nicht den Content bieten, für den sich die User da draußen interessieren ebenso seien manche hochgevoteten News wieder zu alt

  • ok, also gehts um ein verbessertes „yigg“. müsste dann halt z.b. ein filter rein, der „news“ nach einem bestimmten zeitraum aus der liste rausnimmt.

    woher bezieht yigg die daten? die werden (soweit ich weiß) ja von den usern selbst gepostet, d.h. es müsste ein roboter/spider eingesetzt werden der bestimmte newsquellen regelmäßig prüft. (und kategorisiert)

  • @peter: es geht nicht um ein verbessertes yigg oder digg. Die Filtereinstellungen die du in diesem Systemen vornimmst sind manuell. Wenn das automatisch wäre und Yigg selber Nachrichten finden die nicht von Nutzern gepostet werden, dann kommen wir schon eher in die richtige Ecke.

  • @alex: ok danke für die info. demnach wäre eine kombination aus google news (spidern und kategorisieren der news) und yigg eigentlich das richtige. muss sagen solche themen finde ich faszinierend. wobei würde mich ja nicht wundern, wenn man bei google eingeloggt ist, und google dan ndurch loggen der daten ect. schon die lieblingsnews bereithält.

  • google wäre natürlich ein super anbieter eines solchen systems, aber ich glaube die sind schon zu groß, um so etwas zu entwickeln. die kerntechnologie kann auch google nicht mal eben so aus dem ärmel schütteln. es ist eher eine kombination aus last.fm, digg und google news

  • @#10: Wieso sollte Google zu groß sein? Je größer, desto besser. Denn Google hat wohl die Mitarbeiter, um so etwas hinzukriegen. Außerdem haben sie durch Google News ja schon Erfahrung.

    Hat schon jemand versucht, so etwas wie „Tasterati“ umzusetzen? Ich glaube nicht, dass man mit einem System wie Digg oder Last.fm weit kommt: Beide Dienste vergleichen ja das eigene Verhalten mit dem der anderen Nutzer und wollen so ähnliche User entdecken. Von denen holt man sich dann automatisch Empfehlungen.

    Meiner Meinung nach ist das System von Pandora auch bei News viel sinnvoller: Man sucht in den Texten Merkmale und ordnet jedem Nutzer zu, welche Merkmale die gelesenen News oft haben.

    Bei DNnetz teste ich das auch mit Themen/Tags. Wenn ein User einen Artikel liest, werden dessen Themen gespeichert. Andere News mit denselben Themen werden später höher gerankt.

  • Also das „I like it“ Kriterium finde ich etwas zu banal, genauere Abstufungen fänd ich nützlicher. Tags gehören sicher auch dazu. Ich stell mir das so in Form von „Send this to *wiederDienstdannheisst*“. Und anstatt Lesedauer könnte man auch Wörter/Zeichen zählen. Ist sicher eine genauere Angabe als die Lesedauer, die eine Einzelperson hat.

  • @Roman (#12): Würdest du statt „I like it“ eher eine Bewertung mit 3 Stufen nehmen (z.B.: gut, geht so, schlecht)?
    Meinst du das mit „Send to …“ so, dass man einen Artikel an einen Social-Bookmarking-Dienst, Facebook, Yigg usw. schickt? Dann soll dieses Weiterleiten auch heißen, dass man den Artikel gut findet (also Weiterleiten=Bewertung)?
    Wieso willst du denn Wörter/Zeichen zählen? Dann weißt du doch immer noch nicht, ob der Artikel dem User gefallen hat …