
RE: Open Source Tools und Daten
| 05.01.2023, 14:38 (Dieser Beitrag wurde zuletzt bearbeitet: 05.01.2023, 14:41 von Lancelot.)Lancelot
Wenn du
- eh primär mit Python arbeitest
- und deine Datenmengen nicht super riesig sind und Performance nicht enorm wichtig ist
würde ich entweder:
- pytables verwenden: (hdf5) komprimiert, relativ performant, intuitiv und einfach aufzusetzen. Das habe ich oft verwendet. https://www.pytables.org/
- ordentlich partitionierte (Beispiel symbol, date) parquet files (zstd compression) un dein bisschen boilerplate code in polars schreiben. Das ist imnmer meine erste Art Daten zu organisieren. https://www.pola.rs/. Ich hab mein eigenem packages für.
Liest sich dann in etwa so ticker.read_symbol.ohlc("AAPL").freq("5min").from(start_date).to(end_date) oder ticker.read_symbol.quotes_and_trades("SPY").from(start_date) und raus kommt ein polars dataframe.
Tatsächlich habe ich kdb+ aus python nicht viel verwendet. Ich hatte getrennte kdb+ jobs/Prozesse die Daten aufbereitet haben und dann aggregiert irgendwo abgelegt haben. Auf diese Aggregate bin ich dann separat mit Python.
Mann sollte sich das genau überlegen ob man eine echte Datenbank braucht. In der Regel kommt man mit den beiden oben beschriebenen Wegen weit genug.
__________________
Forum-Besserwisser und Wissenschafts-Faschist