Kategorien
Ausfälle Probleme

Server viermal in nichtmal zwei Stunden gecrasht

Aus bisher ungeklärten Gründen ist der Server, auf dem die Jabber Dienste laufen, viermal in den letzten nichtmal zwei Stunden gecrasht. Von einer auf die andere Sekunde nimmt sich der ejabberd Prozess alle Resourcen, die er kriegen kann, und sogar mehr. 8GB RAM und 8GB virtueller Speicher, alles weg. Plus jede Menge CPU Load. Der Server war so überlastet, dass “top” sich ~ alle 5 Minuten aktualisierte nur letztendlich nur noch ein Hardware Reset half um den Server neu zu starten.

For the tech geeks:

top – 19:56:21 up 31 min,  1 user,  load average: 22.86, 13.11, 8.71
Tasks: 240 total,   3 running, 231 sleeping,   0 stopped,   6 zombie
Cpu(s):  1.4%us,  5.8%sy,  0.0%ni, 12.4%id, 80.3%wa,  0.0%hi,  0.1%si,  0.0%st
Mem:   8190900k total,  8138972k used,    51928k free,      796k buffers
Swap:  8393848k total,  7276916k used,  1116932k free,    42404k cached

PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
3239 ejabberd  20   0 15.7g 6.0g 460 S   23 76.7   3:06.65 beam.smp

Wir recherchieren nach wie vor an dem Problem. Eventuell ein kritischer Bug von ejabberd, eventuell eine DoS Attacke. Wir wissen es noch nicht.

Kategorien
Ausfälle Funktionen Transportdienste Wartungsarbeiten

Server heute morgen offline wegen Wartungsarbeiten

Der Server war heute morgen wegen Kernel- und MySQL-Upgrades offline. Alles wäre deutlich schneller gegangen wenn der Server nach dem “shutdown -r now” sauber heruntergefahren und somit wieder hochgefahren wäre – was er nicht tat. Also mussten wir zuerst jemanden zu der Maschine schicken, der den Resetschalter drückte.

Zusätzlich haben wir Spectrum aktualisiert um JID Escaping zu nutzen. Sollte das bei unseren Tests funktionieren (anscheinend gibt es Probleme mit einigen Clients, die das inoffizielle %, das als Ersatz für @ verwendet wird, nicht unterstützen), schreibe ich hier mehr über dieses Thema.

Kategorien
Ausfälle Probleme

Problem mit Jabber Datenbank

Es gab leider ein Problem mit der Datenbank aller Konten der jabber.hot-chilli.net Domain (Konten anderer Domains, wie jabber.hot-chilli.eu, sind nicht betroffen).

Zu guter Letzt mussten wir ein Backup vom 4./5. Mai 2010 (der Tag des Serverumzugs) einspielen und dafür den Jabber Server 2 Stunden herunterfahren.

Betroffen sind nur die Kontaktlisten sowie die Kontaktgruppen. Dies bedeutet, dass Du als betroffener Benutzer alle seitdem geänderten Kontakte neu hinzufügen oder auch löschen musst.

Bitte entschuldige vielmals die Unannehmlichkeiten, vor allem, weil das Backup leider eine Woche alt ist.

Die Frage bleibt, warum im aktuellen Datenbankbackup von heute morgen nur 20 von 150000 (!) Datensätze zu finden waren. Wir werden uns die Backupprozedur sehr genau anschauen.

Kategorien
Ausfälle Funktionen Wartungsarbeiten

Passende Zertifikate für die Sekundärdomains

Um Loginfehler oder -nachrichten zu vermeiden und auch um gewisse Probleme mit Server-to-Server Verbindungen zu vermeiden haben wir heute passende Zertifikate für die sekundären Domains installiert.

Die Jabber Dienste mussten dazu mehrfach neu gestartet werden, sorry deswegen. Das ejabberd Configfile ist nicht wirklich gut kommentiert, ausserdem hat uns Google zuerst nicht die passende Lösung angezeigt. Jetzt funktioniert aber alles wie es soll.

PS: Für veraltete SSL Verbindungen auf Port 5223 gibt es keine dynamischen Zertifikate. Dies ist aufgrund der Funktionsweise von SSL schlicht nicht möglich.

Kategorien
Ausfälle Sicherheit Wartungsarbeiten

Upgrade auf ejabberd 2.1.3

Heute um 14 Uhr CEST habe ich den Server auf ejabberd 2.1.3 aktualisiert. Es handelt sich um ein Bugfixrelease. Endlich ist das Debianpaket verfügbar. Entschuldige bitte den weniger als eine Minute dauernden Ausfall der Dienste. ;-)

Kategorien
Ausfälle Probleme

Stundenlange Netzwerkprobleme

Unser Provider hatte Netzwerkstörungen, die gestern (06.05.2010) um 14 Uhr CEST begannen. Die Ausfälle betrafen viele Internetprovider. T-Online und Alice hier in Deutschland haben funktioniert, viele andere wie KabelBW und Strato haben nicht funktioniert. Diese massiven Probleme sind gegen 18 Uhr wieder weg gewesen, trotzdem traten weiterhin kleinere Probleme bis heute morgen auf. Laut unserem Provider gehört die Sache nun aber der Vergangenheit an. Die Probleme wurde von einer 50 Gbit Attacke verursacht.

Kategorien
Ausfälle Probleme

6 Stunden Ausfall…

Der Jabber Server ist eben nach einem 6-stündigen Ausfall um 9:00 Uhr CEST wieder hochgefahren.

Sorry, der Grund war ein Fehler in der Config, verursacht durch das Hinzufügen einer neuen Jabber Domain.

Wir bedauern die Unannehmlichkeiten.

Kategorien
Ausfälle Probleme Transportdienste Wartungsarbeiten

Serverumzug fast abgeschlossen

Ok, der Serverumzug ist nahezu abgeschlossen. JMC, jDisk und SMS müssen noch umgezogen werden, das passiert später am Tag… ;-)

Bei anderen Problemen bitte bei uns melden!