[Initiative] Monitoring-/Observability
Zur Überwachung von Zustelldienst und Routingdienst wird ein Monitoring-Konzept benötigt und die technischen Details zur Anbindung des Zustelldienstes an eine Monitoring-Infrastruktur sind zu klären. Hierbei sind mind. die folgenden Aspekte zu betrachten:
- Monitoring der korrekten Funktionalität bereitgestellter Schnittstellen (z.B. API-Tests mit Testanträgen, Statusnachrichten etc.)
-
Monitoring von Systemressourcen, statistischen Daten und Auslastung (z.B. verfügbarer Speicher, Anzahl der übermittelten Anträge, CPU-Auslastung etc.), z.B. via Prometheus, Altertmanager, Grafanaverschoben nach https://git.fitko.de/fitko/architekturmanagement-standards/fit-connect/projektmanagement/-/issues/114
Denkbar wären hier ein Prometheus-Exporter oder ein ähnliches Tool für eine ggf. andere eingesetzte Monotoring-Infrastruktur.
Akzeptanzkriterien
-
Observability- und Health-Metriken sind definiert.
Anforderung unklar -
Im Rahmen der OpenAPI Spezifikation soll es einen /status Endpunkt geben, über welchen die Gesundheit des Zustelldienstes überwacht werden. kann. Ob und in welchem Umfang das gewünscht ist muss entschieden werden, sowie an wlechen Metriken und Events das festgemacht wird.
=> Jeder Service besitzt einen /health Endpunkt der uns sagt, ob ein Service bereit ist Traffic entgegenzunehmen -
Ich kann in unserem Logging alle Reverse Proxy Log Einträge nach "http response status code" filtern bzw. eine Übersicht erstellen.
=> Ist in creoline möglich. -
Ich kann in unserem Logging alle Java Anwendungs Logs nach "Log level" filtern bzw. eine Übersicht erstellen.
=> Ist in creoline möglich -
Das Monitoring kann zwischen regelmäßigen, geplanten und ungeplanten Störungen unterscheiden.
=> Alerts sind inzwischen so konfiguriert, dass sie uns nur bei echten Problem anpingen. -
Eine Benachrichtigung (Alterting) erfolgt nur bei ungeplanten Störungen.
=> siehe Punkt 5 -
Das Alerting verfügt über Eskalationsstufen, falls eine Störung länger andauert.
=> Anforderung ist unklar. Alerts haben ein Severity Level.
Referenzen
- https://wiki.fit-connect.fitko.dev/de/Konzeption/Observability_Monitoring
- https://wiki.fit-connect.fitko.dev/de/Konzeption/Monitoring_Logging_Statistiken
- https://wiki.fit-connect.fitko.dev/de/Konzeption/Logging
- https://git.fitko.de/fit-connect/routingdienst#umleitung-der-logs-zu-einem-zentralen-logserver
- https://assertible.com/
- https://sentry.io/
- https://prometheus.io/
Weitere Informationen:
- Warten auf Feedback von IT.N
- Evtl. Dataport noch interessant
- IT.N bei Bedarf einladen und Konzept evtl. vorstellen?
Edited by Rico Lang