Nachlese zum TIP-Webinar: Fraud Detection

5% des Einnahmen verliert ein Unternehmen durch Betrugsfälle!

Möglich ist das, weil es an systematisch Überprüfungen von Anomalien im Zahlungsverkehr fehlt. Die Ursachen für Betrug können vielfältig sein. Fehler von Mitarbeitern oder Datenlecks bei Lieferanten könnten ein Grund sein, ebenso wie Diebstahl von Materialien oder Verrechnung von nicht erbrachten Leistungen.
Betrugsfälle treten vor allem im Onlinehandel auf. Hier im Speziellen handelt es sich um Kreditkartenbetrug, Identitätsdiebstahl oder bestellte und bezahlte Ware wird nicht geliefert.

Im TIP-Webinar wurde von zwei Expertinnen von Applied Statistics erklärt, wie man diese Betrugsfälle aufdecken kann.  Die TeilnehmerInnen bekamen einen Einblick darüber, welche Lösungen es gibt, um Betrugsfällen vorzubeugen.  Dafür kommen Big Data, Netzwerkanalysen und KI zum Einsatz.
Die KI kann statistische Ausreißer in Echtzeit erkennen und somit auf Anomalien hinweisen. Der Mensch prüft die Ergebnisse und entscheidet, ob es sich tatsächlich um einen möglichen Betrugsfall handelt, oder ob die Abweichung erklärbar ist. So ist es möglich zu erkennen, warum zum Beispiel die Einnahmen beim Verkauf von Schreibtischlampen üblicherweise um die 90.000 €/Monat liegen, im Juli jedoch nur bei 88,13 €. Die Ursache für diese Anomalie war, dass ein Dezimaltrenner beim Erstellen der Statistik als Komma interpretiert wurde (s.g. Encoding Hell). Ein Betrugsfall konnte somit ausgeschlossen werden.

 

Webinar-Aufzeichnung

Dr. Irene Ortner

Als Lead Data Scientist und Partnerin von Applied Statistics bringt Dr. Irene Ortner bereits jahrelange Erfahrung in der Datenanalyse mit sich.
Das fundierte Wissen aus Ihrem Studium der Statistik gibt Sie heute als Dozentin unter anderem an den Hochschulen TU Wien, Boku Wien, sowie bei weiteren Institutionen und Unternehmensschulungen weiter.
Eines Ihrer Fachgebiete ist das Thema „Fraud Detection“, mit dem Sie sich im Finanzsektor bezüglich Kreditkartentransaktionen, aber auch für Industriekunden, in Hinsicht auf Betrugsfälle bei eingehenden Rechnungen beschäftigte.

Dr. Natalie Vollert

Als Senior Data Scientist übernimmt Dr. Natalie Vollert die Leitung von Projekten bei Applied Statistics und ist seit Jahren tatkräftig an der Digitalisierung der Betriebe unserer Industriekunden beteiligt.
Ihr akademischer Hintergrund aus der technischen Mathematik und Statistik bildet die Grundlage für eine präzise Arbeit mit Daten, aus denen in Zusammenarbeit mit unseren Kunden Business Value geschaffen werden kann.
Von Predictive Maintenance zu Qualitätsprognose und Ertragsmaximierung werden verschiedenste Use Cases mit maßgeschneiderten Lösungen bedient.

Dr. Natalie Vollert

Als Senior Data Scientist übernimmt Dr. Natalie Vollert die Leitung von Projekten bei Applied Statistics und ist seit Jahren tatkräftig an der Digitalisierung der Betriebe unserer Industriekunden beteiligt.
Ihr akademischer Hintergrund aus der technischen Mathematik und Statistik bildet die Grundlage für eine präzise Arbeit mit Daten, aus denen in Zusammenarbeit mit unseren Kunden Business Value geschaffen werden kann.
Von Predictive Maintenance zu Qualitätsprognose und Ertragsmaximierung werden verschiedenste Use Cases mit maßgeschneiderten Lösungen bedient.

Die Vorträge zum Nachlesen als PDF:

Applied Statistics

Präsentation von Frau Dr. Vollert und Frau Dr. Ortner

Jetzt herunterladen

KI

Fördermöglichkeiten

Jetzt herunterladen

TIP

Einführung ins Webinar

Jetzt herunterladen

FAQ’s aus dem TIP-Webinar: Fraud Detection

  • Nachdem es auch um große Datenmengen geht, werden hier auch Blockchaintechnologien eingesetzt?

Blockchaintechnologien werden zur fälschungssicheren Übermittlung von Information genutzt. In den hier genannten Use Cases war das nicht relevant.

  • Sie haben bisher statistische Methoden zur Anomalieerkennung beschrieben? Welche Machine Learning Methoden verwenden Sie? Gibt es hier best practices?

Unsere Anomalieerkennung basiert auf Methoden, die Abweichungen von Korrelationsstukturen in den Daten findet. Um die Korrelationsstukturen zu modellieren können beliebige Regressionsmethoden verwendet werden. Wichtig ist dabei nur, dass die modellierten Zusammenhänge nicht durch Ausreißer verzerrt werden (robuste Modelle zur Vermeidung von masking effects). Bei Machine Learning Methoden wendet man üblicherweise zuerst eine einfache Anomaliedetektion, z.B. LOF (local outlier factor), an (wenn die Anforderungen im Use Case an Dimensionalität und Update-Geschwindigkeit es zulassen). Dann modelliert man auf den verbleibenden Daten die gewünschten Zusammenhänge mit z.B. Random Forest (wieder stark Use Case abhängig).

  • Die KI erkennt also hier nur Anomalien in Daten und nicht den eigentlichen Betrug (wie beim CreditCard Fraud)?

Es gibt in der Fraud Detection zwei unterschiedliche Ansätze (die wir auch beide in der Credit Card Fraud Detection eingesetzt haben). Einerseits Klassifikation, wie in dem Beispiel im Webinar beschrieben: Anhand von Daten über reguläre und betrügerische Transaktionen lernt ein Algorithmus die speziellen Muster in den Daten, die einen Betrug von einer regulären Transaktion unterscheiden.  Andererseits gibt es (modellbasierte) Anomalieerkennung. Hier lernt der Algorithmus die Muster für reguläre Transaktionen zu erkennen und schlägt an, wenn eine Transaktion nicht diesem regulären Muster entspricht. In beiden Fällen muss überprüft werden, ob es sich tatsächlich um Betrug handelt.

  • Könnnen Sie einen ungefähren Kostenschlüssel für die KI angeben (pro Mitarbeiter, pro 10.000,– Umsatz…)?

Die Kosten sind vor allem von der Anzahl an Geschäftsbereichen und unterschiedlichen Arten von Lieferanten/Kontraktoren abhängig. Ein weiterer treibender Faktor ist ob die Daten, die verwendet werden sollen, bereits in einer gepflegten Datenbank vorliegen.

  • Wieviel von den produktiven Daten waren für die Fraud Detection geeignet?

Das ist immer eine Kosten/Nutzen Frage: oft gibt es PDFS, unstrukturierte Freitexte in SAP oder sogar handschriftliche Vermerke. Wie weit man als Data Engineer in der Datenaufbereitung gehen muss und soll, um das Ziel zu erreichen und den Aufwand zu rechtfertigen, hängt stark vom Business Case ab.

  • Bei der Fraud-Analyse wurden Daten genutzt. Diese kommen zu einem großen Teil aus den operativen – bestehenden  Daten. Daraus lassen sich bei manueller Betrachtung 5% Fraud erkennen. Was musste an Daten zusätzlich erfasst werden (in %), um maschinell zu 25% Erkennungsrate zu kommen?

Um die im Webinar erwähnten 25% oder 30% zu erreichen, wurden keine neuen Daten erhoben, sondern nur die vorhandenen Daten zusammengeführt, analysiert und für eine KI verwendet.

  • Können Sie sagen, wie hoch die false positives bei Prüfungen von Überweisungen typischerweise sind?

Die false positive rate kann bei Klassifikationsproblemen durch Verschiebung der Entscheidungsgrenze beliebig verändert werden durch einen trade-off zwischen false positive und false negative rate und sollte auf Basis der Unternehmenskosten optimiert werden. Daher betrachtet man eher den AUC (oder noch besser die Area under Precision Recall Curve). In unserem Paper “robROSE: A robust approach for dealing with imbalanced data in fraud detection” (https://arxiv.org/pdf/2003.11915.pdf) erreichen wir mit simplen Methoden einen AUC von 0.9-0.97 für Daten aus dem Kreditkartenbetrug und Sie finden dort eine Grafik, die die false positive rate der false negative rate gegenüberstellt.

  • Wie unterscheidet man den Effekt des Abschreckungseffekts von dem der dadurch entsteht, dass die Betrüger dazulernen?

Eine sehr spannende Frage! Wenn genug Kapazität zur Überprüfung vorhanden ist, kann der tatsächliche Anteil an Betrug durch eine regelmäßige zufällige Stichprobe erhoben werden. Das sollte spätestens dann gemacht werden, wenn die Anteile der entdeckten Betrugsfälle signifikant zurückgehen.

  • Wie kann ein Kleinstunternehmen (auch EPUs) eine datengetriebe Betrugserkennung sinnvoll einsetzen und gibt es leistbare Software-Empfehlungen (u.a. eben für Datenanalysen) für diese Zielgruppe?

Für Datenanalysen und datengetriebene Betrugserkennung empfehlen wir die Open Source Software R oder Python. Beide bieten mit shiny und Dash auch interaktive Dashboards an.

Beitrag teilen Link kopiert!