"oder ob die Daten nach der Erstveröffentlichung noch revidiert wurden"
Fundamentaldaten sind super super eklig.
Mein erster Job bestand im wesntlichen aus eine Daten Aggregations- und Bereinigungs Plattform mit den entsprechenden ETL Pipelines zu entwerfen und zu bauen. Das war ein Hallo Wach an mich auc Daten von Betreibern wie Bloomberg und Reuters zu prüfen...und ich rede nicht nur von "Meta Informationen" wie Fundamentaldaten...sonder auch Preis und Volumen!!!
Solche fachlichen Fragestellungen wie "von wann ist die Information genau?" zu prüfen war hässliche Kleinarbeit und irgendwie auch sinnlos...weil die Quellen sich ständig geändert haben.
Was mich etwas verwirrt ist dass du von "Regressionsverfahren" sprichtst....also iich das falsch verstanden und du hast doch kein "classifier problem" sondern ein "regression problem".
Bei Regressionen habe ich immer gute Erfahrungen gemacht im ersten Schritt die drei simplen verfahren zu testen:
=> ein regularisierte Regression wie lasso oder ridge regression
=> einen einfachen decission tree (kein boosting, kein random forrest): welche features werden gezogen? Wenn es besser ist als die linearen Verfahren habe ich eventuell nicht-linearität
=> huber regression => wenn es besser ist als die lasso/ridge regression habe ich eventuell ein Problem mit Ausreßern
Fundamentaldaten sind super super eklig.
Mein erster Job bestand im wesntlichen aus eine Daten Aggregations- und Bereinigungs Plattform mit den entsprechenden ETL Pipelines zu entwerfen und zu bauen. Das war ein Hallo Wach an mich auc Daten von Betreibern wie Bloomberg und Reuters zu prüfen...und ich rede nicht nur von "Meta Informationen" wie Fundamentaldaten...sonder auch Preis und Volumen!!!
Solche fachlichen Fragestellungen wie "von wann ist die Information genau?" zu prüfen war hässliche Kleinarbeit und irgendwie auch sinnlos...weil die Quellen sich ständig geändert haben.
Was mich etwas verwirrt ist dass du von "Regressionsverfahren" sprichtst....also iich das falsch verstanden und du hast doch kein "classifier problem" sondern ein "regression problem".
Bei Regressionen habe ich immer gute Erfahrungen gemacht im ersten Schritt die drei simplen verfahren zu testen:
=> ein regularisierte Regression wie lasso oder ridge regression
=> einen einfachen decission tree (kein boosting, kein random forrest): welche features werden gezogen? Wenn es besser ist als die linearen Verfahren habe ich eventuell nicht-linearität
=> huber regression => wenn es besser ist als die lasso/ridge regression habe ich eventuell ein Problem mit Ausreßern
__________________
Forum-Besserwisser und Wissenschafts-Faschist