Skip to content

Blogprobleme

Heute schrieb mir Björn (der hoffentlich nichts gegen dieses öffentliche Zitat hat) per Mail folgendes:
Bei mir gibt es in letzter Zeit das Problem, daß ich alle ein bis zwei Wochen nochmal die letzten ca. 20 Blog-Einträge erneut über den Feed reinbekommen. Dadurch sind mittlerweile die meisten doppelt bis dreifach vorhanden.
Zum Abrufen nutze ich den hier gerade verwendeten Thunderbird.


Das war gut, denn seit den letzten Problemmeldungen habe ich ja die Archivierung des RSS-Feeds zur Fehlersuche gestartet. Und dann vergessen. Inzwischen hat das Viech 55MB an Daten gesammelt, den schalte ich jetzt mal wieder ab hust hust danke, Björn ^^;

Ich habe also seit fast einem Monat alle 30 Minuten den RSS-Feed abgerufen und in eine Datei gespeichert. Der Dateiname enthält Abrufdatum- und Zeit. Aussehen tut das ganze dann so (Teil einer Ausgabe von ls -l):
-rw-r--r-- 1 mitch mitch 45K 2008-04-17 21:28 feed.20080417-233302.xml
-rw-r--r-- 1 mitch mitch 45K 2008-04-17 21:28 feed.20080418-000301.xml
-rw-r--r-- 1 mitch mitch 45K 2008-04-17 21:28 feed.20080418-003301.xml
-rw-r--r-- 1 mitch mitch 51K 2008-04-17 23:21 feed.20080418-010301.xml
-rw-r--r-- 1 mitch mitch 51K 2008-04-18 01:08 feed.20080418-013301.xml
-rw-r--r-- 1 mitch mitch 51K 2008-04-18 01:08 feed.20080418-020301.xml
-rw-r--r-- 1 mitch mitch 51K 2008-04-18 01:08 feed.20080418-023301.xml
-rw-r--r-- 1 mitch mitch 51K 2008-04-18 01:08 feed.20080418-030301.xml
-rw-r--r-- 1 mitch mitch 51K 2008-04-18 01:08 feed.20080418-033301.xml
-rw-r--r-- 1 mitch mitch 51K 2008-04-18 01:08 feed.20080418-040301.xml
-rw-r--r-- 1 mitch mitch 51K 2008-04-18 01:08 feed.20080418-043301.xml
-rw-r--r-- 1 mitch mitch 51K 2008-04-18 01:08 feed.20080418-050301.xml
-rw-r--r-- 1 mitch mitch 51K 2008-04-18 01:08 feed.20080418-053301.xml
-rw-r--r-- 1 mitch mitch   0 2008-04-18 06:03 feed.20080418-060301.xml
-rw-r--r-- 1 mitch mitch 51K 2008-04-18 01:08 feed.20080418-063301.xml
-rw-r--r-- 1 mitch mitch 51K 2008-04-18 01:08 feed.20080418-070301.xml
-rw-r--r-- 1 mitch mitch 51K 2008-04-18 01:08 feed.20080418-073301.xml


Folgende Erkenntnisse lassen such daraus ziehen:
  1. Zuerst einmal macht mein Rechner jeden Tag um ca. 06:00h einen DSL-Reconnect. Das erklärt alle 0 Byte großen Dateien mit dem Zeitstempel -060301.
  2. wget setzt das Dateidatum auf das Datum, das der Webserver als Dateidatum liefert, weshalb sich Uhrzeit und Datum der Datei vom Zeitstempel im Dateinamen unterscheiden.
  3. serendipity cached die Daten: der gelieferte Zeitstempel des Feeds ändert sich nur dann, wenn sich am Feed auch was geändert hat (z.B. ein neuer Eintrag).

Beim Überfliegen der Dateigrößen ist zu keinem Zeitpunkt eine gravierende Abweichung zu sehen. Es gibt kein "Stottern" in irgendeine Richtung: Weder enthält der Feed mal zufällig nur zwei Einträge, noch enthält er ab und zu mal 20 Einträge mehr als vorher.

Ich deklariere hiermit alle gemeldeten Probleme für clientseitig!

Es könnte z.B. sein, dass Thunderbird ein Timeout für das interne Archiv hat und z.B. bereits heruntergeladene und gelesene Artikel nach 5 Tagen verwirft. Wenn wir im Blog nicht schnell genug neue Artikel schreiben, dann hat Thunderbird die alten Artikel verworfen, guckt in den Feed, sieht 20 Artikel, die er noch nicht kennt (Björn aber schon) und zeigt die an.
Oder vielleicht auch ganz anders. Leute, nehmt den Akregator (und das, obwohl ich eigentlich nichts von KDE-Bloat halte), da funktioniert das :-)

Wer sich selbst überzeugen will (oder mich vom Gegenteil), der kann sich die gesammelten Dateien auch gerne selbst angucken: ant-blog-bug-hunt.tar.gz (13MB)

Trackbacks

Keine Trackbacks

Kommentare

Ansicht der Kommentare: Linear | Verschachtelt

hergen am :

Nachdem mehrere Leute unabhängig voneinander Probleme mit unterschiedlichen Clients berichten, und diese Probleme genau seit der Blog-Umstellung auftreten, halte ich diese Sichtweise für etwas... vereinfachend.

Das Problem mit doppelten Einträgen im Thunderbird tritt bei mir übrigens auch auf. Und nein, es hat nichts mit einem Expire zu tun. Zum einen sind die alten Artikel definitiv noch da (sonst wären sie ja nicht doppelt ^_-), zum zweiten steht mein Expire auf 30 Tage, vor allem aber sind die Doubletten völlig unzusammenhängend. Eine von heute, zwei aus den letzten Tagen, eine aus der letzten Woche, und zwei mehrere Wochen alte Artikel könnte man zur Dekoration auch gerade nochmal als neu melden. :-(

Hmm... und Clientsoftware jeweils "passend" zum Blog zu verwenden, verkehrt den Sinn eines RSS-Feed irgendwie ins Gegenteil. :P

fyl am :

Ich habe keine Problemen. :P

mitch am :

Ja, aber was sollen/können wir denn anders machen?
In den archivierten Dateien ist mir noch kein Unterschied zwischen "geht" und "geht nicht" aufgefallen. Wenn da immer das gleiche kommt und der Client mal so und mal so reagiert, bin ich ratlos.
Woran "erkennt" Thunderbird denn "gleiche" Artikel? Sollte das nicht über die GUID gehen? Die sollte sich ja nun wirklich nicht ändern.
Welche Artikel sind es denn, die "neu" werden? Ggf. die, bei denen ein Kommentar geschrieben wurde?

hergen am :

Leider ist da keine Systematik erkennbar. 99 von 100mal geht es gut, und dann kommt urplötzlich ein ganzer Schwall von Duplicates, die keinerlei erkennbaren Zusammenhang zueinander haben.

Ich hab' jetzt mal den Fiddler dazwischengeklemmt, in der Hoffnung, irgendwann den "Ernstfall" aufzeichnen zu können.

Dabei ist mit zumindest schon einmal eine Merkwürdigkeit aufgefallen: Der Thunderbird (und vermutlich auch Rons Firebird?) sendet beim Abfragen des RSS-Feed einen ominösen, immer gleichen Session-Cookie mit, der vermutlich noch vom Zeitpunkt des Subscribe stammt. Könnte es sein, daß der Server von diesem (längst verfallenen) Cookie unter bestimmten Umständen Schluckauf bekommt?

mitch am :

Ein Session-Cookie für einen Feed-Abruf klingt erstmal überflüssig. Wer weiß, was an der Session dranhängt. Das könnte ja durchaus ein "xyz hab ich schon, das brauchst du nicht nochmal zu schicken" sein. Oder Thunderbird nimmt den Cookie mit zum Identifizieren der Einträge nimmt und dann gibt's irgendwann einen neuen Cookie, was natürlich auch jede Menge Einträge produziert...

Ich habe jetzt mal die RFC2616-Kompatibilität von "nein" auf "ja" umgestellt. Der Hilfetext dazu liest sich einfach göttlich. Andere Einstellungen in der Richtung hab ich nicht gefunden.

- - - -

Strikte RFC2616 RSS-Feed Kompatibilität
Falls RFC2616 NICHT strikt ausgelegt wird, können alle Conditional GET Anfragen zu Serendipity die letzten Einträge seit dem letzten Client-Abruf zurückliefern - für Benutzer, die auch nach ihrem Urlaub alle Artikel lesen wollen, ist dies eine tolle Sache. Jedoch können dadurch einige spezielle Clients wie z.B. Planet aus dem Tritt gebracht werden, und neue Artikel ihres RSS-Feeds falsch interpretieren. Wenn diese Option also auf JA gesetzt wird, wird zwar die RFC befolgt, aber ihre RSS-Leser könnten Einträge verpassen wenn Sie länger nicht auf ihrer Seite waren. Wie auch immer sie sich entscheiden, entweder ärgern Sie damit Clients wie Planet oder Ihre Benutzer. Referenz: SourceForge

Kommentar schreiben

Umschließende Sterne heben ein Wort hervor (*wort*), per _wort_ kann ein Wort unterstrichen werden.
Formular-Optionen

Kommentare werden erst nach redaktioneller Prüfung freigeschaltet!