Was ist der SPSS Modeler?

Der IBM SPSS Modeler ist eine hochprofessionelle Lösung, um typische Predictive Analytics und Data Mining Fragestellungen anzugehen, z. B.:

  • Kundensegmentierung - Welche Kundengruppen gibt es und welche Kunden sind für ein bestimmtes Produkt/Serviceangebot affin?
  • Kundenabwanderung - Welche Kunden sind abwanderungsgefährdet?
  • Next best action - Kundenindividuelle Interaktion bzw. Handlungsempfehlungen in Echtzeit am PoS (z.B. Hotline, Filiale, etc.)
  • Vorausschauende Instandhaltung und Ausschussminimierung im Produktionsprozess
  • Wie erkenne ich Versicherungs - oder Subventionsbetrug?
  • Justizwesen - Qualitätsmanagement, Sozialtherapien und kriminologische Forschung

Was ist neu in Version 18?

Die neue SPSS Modeler Version 18 ist schneller (Big Data), offener (Open Source) und flexibler (Plattform, Support). Vor allem aber für Sie auch kostengünstiger, weil bisherige notwendige Investitionen (z.B. der Analytics-Server) in vielen Fällen komplett entfallen.

Die Neuerungen von Version 18 können in die folgenden drei Themenbereiche eingeordnet werden:

1) Big Data: Neue Algorithmen im Modeler

In früheren Versionen (17.1) vom Modeler wurden einige an neue Algorithmen hinzugefügt, die allerdings nur in Kombination mit dem Analytic Server ausgeführt werden konnten. In Version 18 können jetzt alle dieser Algorithmen direkt im Modeler auch ohne Analytic Server benutzt werden. Zudem gibt es einen verbesserten Zeitreihenalgorithmus. All diese Algorithmen unterstützen parallele Prozessierung für die Modelbildung, das heißt, dass die Modelbildung auf großen Datenmengen nun viel schneller erfolgen kann (Big Data Algorithmen).

Folgende Algorithmen aus Version 17.1 sind jetzt im Modeler 18 verfügbar - auch ohne Analytic Server

  • Statistische Methoden: Linear-AS und GLE
  • Linear Support Vector Machines
  • Entscheidungsbäume: Random Trees und Tree-AS (i.e. CHAID)
  • Clustering Algorithmen: Two-Step-AS

Ihr Mehrwert der neuen Algorithmen: Multi-Threading

  • Schnellere Modellbildung bei großen Datenmengen durch Parallelverarbeitung und effizientere Nutzung der Hardwareressourcen
  • Alle neuen Algorithmen sind Multithreading-fähig, auch im lokalen Modeler (ohne Modeler Server bzw. Analytic Server)
  • In früheren Modeler-Versionen waren Multithreading-fähige Algorithmen auf einen der o.g. Server angewiesen

Ihr Mehrwert der neuen Algorithmen: Regularization

  • Verhindert “Overfitting” (ungenaue Vorhersagen auf neuen Daten) indem extreme und komplexe Parameterwerte reguliert werden
  • Ohne Regularization werden oft nur auf den Daten, auf denen das Modell aufgebaut wurde, hervorragende Ergebnisse erzielt, nicht jedoch auf neuen Daten
  • Verfügbar in GLE und Linear Support Vector Machines

Ihr Mehrwert der neuen Algorithmen: Automatische Datenaufbereitung

  • Tree-AS und Linear Support Vector Machines benutzen im Hintergrund eine automatische Datenaufbereitung
  • Für Sie reduziert sich hierdurch sowohl der Zeitaufwand als auch die Fehleranfälligkeit einer manuellen Datenaufbereitung erheblich
  • Nur drei Beispiele dieses Features: Kategoriale Felder mit mehr als 12 Ausprägungen werden zusammengeführt (Default: <=12Bins), Transformation eines Datums bzw. Zeitfeldes in eine kontinuierliche Variable (z. B. Geburtstag in Alter), Leerzeichen bei Stringfeldern werden 'getrimmt'

Exkurs: Random Trees

  • Random Trees ist ein 'Ensemble Model', bestehend aus einer Vielzahl von Entscheidungsbäumen (C&RT)
  • Hauptziel von Random Trees: exakte Vorhersage der abhängigen Variable. Hier liegt der Fokus also nicht auf dem Erkennen unbekannter Zusammenhänge oder Muster.

Exkurs: Neuer Time Series Algorithmus

  • 'Split' Modeling - verschiedene Zeitreihenvorhersagen werden für definierte Gruppen berechnet (anhand der Split-Variable). Multithreading-fähig und lauffähig in Analytic Server
  • Ist die Splitvariable z.B. das Geschlecht oder die verschiedenen Filialen eines Retailers, dann können hierauf Zeitreihenvorhersagen erstellt werden

2) Open Source: Python for Spark, Predictive Extensions

Der SPSS Modeler kann jetzt auch Python for Spark ohne Zuhilfenahme des Analytic Server ausführen. Zudem ist die on-demand Integration von Predictive Extensions nun sehr vereinfacht. Damit geht SPSS weiter den Weg, Open Source Technologien zu integrieren (vgl. auch R).

  • Spark ist Open Source Technologie und sehr schnell im Umfeld von Big Data Analytics. Aufgrund der in-memory Technologie um ein Vielfaches schneller als vergleichbare Techniken
  • Spark MLlib Algorithmen sind im Modeler 18 via Python for Spark zugänglich, verfügbar auch für 'nicht-Hadoop' Datenquellen. Collaborative Filtering und Page Rank sind bereits als Extensions verfügbar
  • Der Custom Dialog Builder unterstützt jetzt auch Python for Spark ohne Analytic Server. Der Programmiercode wird in benutzerfreundliche GUIs eingebunden und ermöglicht so auch 'Nicht-Programmierern' Zugang zu Spark Funktionalitäten
  • Predictive Extensions kann man innerhalb des Modeler unmittelbar laden, so dass der gewünschte Algorithmus ohne Umwege sofort zur Verfügung steht

3) Flexibilität: SPSS Community, Macintosh & Windows 10

  • SPSS Community
    • Neu in Modeler Version 18: direkter Zugriff zu den Foren und zur SPSS Community
    • Die SPSS Community ist 'DIE' zentrale Anlaufstelle für SPSS Anwender
    • Alle technischen Infos & Support, auch Predictive Extensions
    • Support via Chat oder Email, ohne Kauf einer Lizenz/ ICN/ Recorded Entitlement
  • Macintosh Version von Modeler Personal und Modeler Professional (noch nicht für Modeler Premium) erhältlich
  • Modeler 18 läuft auch auf Windows 10
  • Neue DB2 on Z/OS In-Database Algorithmen. Fünf In-Database Algorithmen laufen in DB2 auf Z/OS oder IDAA (IBM DB2 Analytics Accelerator): Decision Tree, Regression Tree, K-Means, Naïve Bayes, Two-step

Für weitere Informationen rund um das Thema steht Ihnen das IBM SPSS Team gerne unter +49.89-4504 2022 zur Verfügung.