Python war hier am Board schon mehrfach im Gespräch.
Hier die wichtigsten packages für den Umgang mit Daten:
pandas: Alles was man mit xls machen kann...und mehr. Wenn man sich eingearbeitet hat, ist es recht intuitiv:
https://pandas.pydata.org/
polars: wenn die Daten größer werden, mann aber noch immer auf einem einzelnen Rechner arbeiten will. PyArrow als Columns. Geschrieben in Rust:
https://www.pola.rs/
scipy: wichtige library für Nummerik, Statistik und signal processing (FFT!)
https://scipy.org/
scikit learn: supervised und unsupervised learning (PCA...wichtig für Factor Analysis). Immernoch der Gold Standard im MAchine Learning:
https://scikit-learn.org/stable/
klassische statistische Modellierung. Hypothesetests und SARIMAX Zeitreihenprognose. Hat auch einen wrapper um das berühmte "forecast" R-packagde von Hyndman.
https://www.statsmodels.org/stable/index.html
Data is King. Immer noch. Aber auf der algorithmischen Seite kommt Gradient Boosting free-lunch erstaunlich nahe. Es ist erstaunlich wie gut Anfänger mit den Default-Einstellungen werden können. Auch die Hyperparameter Optimierung lässt sich mit Copy& Paste aus der Dokumentation gut hinbekommen.
Hier die 3 Platzhirsche:
https://xgboost.readthedocs.io/en/stable/ (NVIDIA)
https://catboost.ai/ (Yandex)
https://lightgbm.readthedocs.io/en/v3.3.2/ (Microsoft)
Darts: ich bin noch immer nicht zufrieden, aber es geht in die richtige Richtung. Endlich mal ein brauchbares time series package:
https://unit8co.github.io/darts/
der quantopian stack:
zipline: backtesting engine
https://github.com/quantopian/zipline
Pyfolio; Portfolio Analyse:
https://github.com/quantopian/pyfolio
Hier die wichtigsten packages für den Umgang mit Daten:
pandas: Alles was man mit xls machen kann...und mehr. Wenn man sich eingearbeitet hat, ist es recht intuitiv:
https://pandas.pydata.org/
polars: wenn die Daten größer werden, mann aber noch immer auf einem einzelnen Rechner arbeiten will. PyArrow als Columns. Geschrieben in Rust:
https://www.pola.rs/
scipy: wichtige library für Nummerik, Statistik und signal processing (FFT!)
https://scipy.org/
scikit learn: supervised und unsupervised learning (PCA...wichtig für Factor Analysis). Immernoch der Gold Standard im MAchine Learning:
https://scikit-learn.org/stable/
klassische statistische Modellierung. Hypothesetests und SARIMAX Zeitreihenprognose. Hat auch einen wrapper um das berühmte "forecast" R-packagde von Hyndman.
https://www.statsmodels.org/stable/index.html
Data is King. Immer noch. Aber auf der algorithmischen Seite kommt Gradient Boosting free-lunch erstaunlich nahe. Es ist erstaunlich wie gut Anfänger mit den Default-Einstellungen werden können. Auch die Hyperparameter Optimierung lässt sich mit Copy& Paste aus der Dokumentation gut hinbekommen.
Hier die 3 Platzhirsche:
https://xgboost.readthedocs.io/en/stable/ (NVIDIA)
https://catboost.ai/ (Yandex)
https://lightgbm.readthedocs.io/en/v3.3.2/ (Microsoft)
Darts: ich bin noch immer nicht zufrieden, aber es geht in die richtige Richtung. Endlich mal ein brauchbares time series package:
https://unit8co.github.io/darts/
der quantopian stack:
zipline: backtesting engine
https://github.com/quantopian/zipline
Pyfolio; Portfolio Analyse:
https://github.com/quantopian/pyfolio
__________________
Forum-Besserwisser und Wissenschafts-Faschist