Hi,
ich denke Algorithmen werden den Unterschied hier nicht machen.
Wie man das Problem formuliert und Daten/Features werden hier IMHO den Unterschied machen.
Meine oben aufgeführte Liste ist immer nur der erste Wurf.
Ridge/Lasso Regression:
=> hat man ein hochdimensionales Problem und viele features, hilft einem eine stark regularisierte Ridge/Lasso Regression vernünftige Features zu identifizieren und das Verfahren ist auch einigermaßen robust gegen Probleme wie coliniearity etc.
Einfache Trees
=> am Ende ist XGboost noch immer mein Favorit für abschließende Lösung. XGBoost (und random forest und andere komplexere Tree Modelle) haben aber zusätzliche Hyper Parameter, die es zu optimieren gilt. Das hebt am Schluss noch einmal die Güte um ein paar %, am Anfang ist es aber IMO wichtig zu erkennen: habe ich da nicht-linearität drin? Erzeugt das bei gleichen features bessere Ergebnisse als die Regression? Ist mein Problem wirklich ein Problem vieler "!wenn..dann" Szenarien?
Dann geht man sowieso noch mehrere Runden im Feature Design ..uns jedes mal muss ma dann die Hyper Parameter neu justieren. Einfache Trees sind IMO sehr gut um nicht-linearität zu erkennen und das Problem zu explorieren.
Huber Regression:
=> du kennst die Sauerei mit den Daten. Was ist noch ein outlier, was ein Datenfehler.....muss Punkt x wirklich ins sample, oder verzerrt er das Bild? Daten Säuberung sollte nicht Aufgabe des Verfahrens sein, aber wenn deine Huber Regression (bei gleichen Features) besser ist, als einfache Trees...dann muss man da nochmal ran.
GP
=> ermöglicht es einem gut die komplexität zu erforschen. Ist die Datenmenge nicht zu gewalttätig und Scored so ein Ding gut....dann ist da vielleicht wirklich eine komplexere und kontinuierliche Funktion in den Daten zu lernen.
=>
ich denke Algorithmen werden den Unterschied hier nicht machen.
Wie man das Problem formuliert und Daten/Features werden hier IMHO den Unterschied machen.
Meine oben aufgeführte Liste ist immer nur der erste Wurf.
Ridge/Lasso Regression:
=> hat man ein hochdimensionales Problem und viele features, hilft einem eine stark regularisierte Ridge/Lasso Regression vernünftige Features zu identifizieren und das Verfahren ist auch einigermaßen robust gegen Probleme wie coliniearity etc.
Einfache Trees
=> am Ende ist XGboost noch immer mein Favorit für abschließende Lösung. XGBoost (und random forest und andere komplexere Tree Modelle) haben aber zusätzliche Hyper Parameter, die es zu optimieren gilt. Das hebt am Schluss noch einmal die Güte um ein paar %, am Anfang ist es aber IMO wichtig zu erkennen: habe ich da nicht-linearität drin? Erzeugt das bei gleichen features bessere Ergebnisse als die Regression? Ist mein Problem wirklich ein Problem vieler "!wenn..dann" Szenarien?
Dann geht man sowieso noch mehrere Runden im Feature Design ..uns jedes mal muss ma dann die Hyper Parameter neu justieren. Einfache Trees sind IMO sehr gut um nicht-linearität zu erkennen und das Problem zu explorieren.
Huber Regression:
=> du kennst die Sauerei mit den Daten. Was ist noch ein outlier, was ein Datenfehler.....muss Punkt x wirklich ins sample, oder verzerrt er das Bild? Daten Säuberung sollte nicht Aufgabe des Verfahrens sein, aber wenn deine Huber Regression (bei gleichen Features) besser ist, als einfache Trees...dann muss man da nochmal ran.
GP
=> ermöglicht es einem gut die komplexität zu erforschen. Ist die Datenmenge nicht zu gewalttätig und Scored so ein Ding gut....dann ist da vielleicht wirklich eine komplexere und kontinuierliche Funktion in den Daten zu lernen.
=>
__________________
Forum-Besserwisser und Wissenschafts-Faschist