Region wählen:
Sprache wählen:
Frankfurt - Deutsch

Die Datenflut bewältigen – Data Science für Aktuare

Was braucht es, um aus Daten wirklich relevante Informationen abzuleiten?

Digitale Transformation macht auch vor dem Versicherungswesen keinen Halt. Einige Versicherungen haben so schon eigene Data Science Center gegründet. Aber was genau bedeutet Data Science und wie kann man davon am besten profitieren?

Aufgrund der technologischen Entwicklung wachsen Datenmengen seit Jahren. Schon in der Vergangenheit wurde zwar ein Teil der Daten gesammelt, konnte aber nicht adäquat ausgewertet werden. Die vorhandene Rechnerleistung war einfach zu gering. Mittlerweile hat sich das grundlegend geändert, so dass derart umfangreiche Auswertungen technisch vorgenommen werden können. Jedoch liegen diese enormen Datenmengen heutzutage auf diverse Weise vor: strukturiert, unstrukturiert und nur wenig homogen. Diese Tatsache stellt gerade Versicherungsunternehmen vor eine weitere Herausforderung, wollen sie Informationen für angepasste Tarifierungs- und Reservierungsmodelle nutzen. Hier kommen interdisziplinäre Kenntnisse ins Spiel. Daten zum Fahrverhalten, Resultate aus Genanalysen oder Social Media können für die Ergänzung von mathematischen Modellen von Bedeutung sein, um bessere Ergebnisse zu erhalten.

Was braucht es, um aus Daten wirklich relevante Informationen abzuleiten?

Machine Learning Algorithmen. Bei diesen Verfahren werden Daten aus der Vergangenheit als Trainingsdaten verwendet, um Prognosen abzuleiten oder daraus Zusammenhänge zu erkennen. Dabei braucht es nicht zwingend die Erkenntnis vorab, welche Daten einen Mehrwert bringen, sondern dies wird durch den Algorithmus erledigt. Grundsätzlich unterscheidet man beim Machine Learning zwischen überwachtem und unüberwachtem Lernen. Das überwachte Lernen ermöglicht im Allgemeinen Prognosen zu treffen, wohingegen das unüberwachte Lernen zum Ziel hat, die Daten zu verstehen und konkrete Erkenntnisse daraus abzuleiten.

Im Folgenden stellen wir jeweils ein Beispiel für überwachtes und unüberwachtes Lernen vor.

  • Überwachtes Lernen: Entscheidungsbäume

Entscheidungsbäume zählen zum überwachten Lernen und werden häufig verwendet. Eine spezielle Form von Entscheidungsbäumen sind Regressionsbäume. Dabei wird beispielsweise eine Verteilung für die zu prognostizierende Größe angenommen. Durch erklärende Variablen wird das Datenset in unterschiedliche Teilmengen – sogenannte Äste – unterteilt. Jeder Ast unterliegt am Ende der gleichen Verteilung, aber mit unterschiedlichen Parameterwerten. Regressionsbäume lassen sich gut zur Vorhersage der Schadenwahrscheinlichkeit bzw. der Schadenanzahl verwenden. In Bezug auf Sterbetafeln lassen sich durch Regressionsbäume bedingte Wahrscheinlichkeiten für die Sterblichkeit aufgrund bestimmter Todesursachen ableiten.

Entscheidungsbaum
  • Unüberwachtes Lernen: Clustering

Die Methoden des Clustering sind ein Beispiel für unüberwachtes Lernen. Einer der bekanntesten Algorithmen ist der k-means-Algorithmus. Bei diesem Verfahren wird die Summe der quadrierten Abweichungen vom jeweiligen Gruppenmittelpunkt minimiert. Der k-means-Algorithmus ist einfach und effizient, jedoch bei Ausreißern weniger robust als beispielsweise der k-median-Algorithmus. Durch das Clustering lassen sich Risikoklassen identifizieren, Schäden segmentieren oder Tarifierungs-Gruppen festlegen.

Clustering

Datenaufbereitung und Algorithmuswahl

Es ist wichtig, die Daten im Voraus zu validieren, um aussagekräftige und plausible Ergebnisse zu erhalten. Zudem kann es notwendig sein, die Daten vorgängig zu transformieren. Insbesondere beim Clustering ist es wichtig, dass die Wertebereiche der verschiedenen Attribute nicht zu stark voneinander abweichen, um eine Verzerrung des Resultats zu vermeiden. Dazu werden die Daten häufig standardisiert. Neben der korrekten Datenaufbereitung ist es entscheidend den passenden Algorithmus zu identifizieren. Nicht jeder Algorithmus ist stets gleich gut geeignet für ein und dieselbe Fragestellung. Je nach Variabilität der Daten kann es sinnvoll sein mehrere Algorithmen zu plausibilisieren – beispielsweise Regressionsbaum versus Random Forest.

Durch die Berücksichtigung von unkonventionellen Daten in Kombination mit Machine Learning Algorithmen können Versicherer schnellere, akkuratere Bewertungen vornehmen als mit den bislang bewährten Methoden. Des Weiteren können neue Erkenntnisse aus bislang noch nicht berücksichtigten Daten gewonnen und so ein Vorteil gegenüber der Konkurrenz geschaffen werden.

Nutzen Sie Machine Learning, um wertvolle Erkenntnisse aus ihren Daten zu ziehen. Wir unterstützen Sie dabei!

Anja Friedrich
Senior Consultant
anja.friedrich@synpulse.com
 Anja Friedrich
Ihr Browser ist veraltet!

Bitte aktualisieren Sie Ihren Browser, um diese Website korrekt darzustellen. Den Browser jetzt aktualisieren

×