RE: Open Source Tools und Daten

TomJoe · | 05.01.2023, 14:05

(05.01.2023, 12:01)Lancelot schrieb: Da besteht wohl ein Missverständnis. kdb+ ist eine Time Series Datenbank + Real Time Analytics. Das ist Software. kdb+ ist kein Datenlieferant. Das wird auch von Formel 1 Teams und Telecoms benützt. Das ist erstmal agnostisch zu Daten. Da ist kdb+ keine Magie (wie alles). Da liegen auch nur Files in einem Filesystem.

Wie die Daten in die Datenbank kommen, ist eine andere Fragestellung. Dafür bist du selbst zuständig. Du kannst natürlich Daten über IB in die kdb+ Datenbank ziehen. IB bietet auch FIX an. Da gibst überall Code Schnippsel für. Wenn du die Client API verwendest kannst du das mit ein bisschen code in den Ticker Plant von kdb+ schieben.

So etwa:
https://github.com/mfitsilis/ibfeed

Aber das ist natürlich von der Performance der IB Client das Bottleneck.

Hast du eigentlich Erfahrung mit der Anbindung von python und kdb+ (Stichwort pyq;

Code:
x = q.f('IBM', date(2006,10,6))

)?

Aktuell liegen bei mir gecached Kursdaten einfach mit ihrem Symbol in einem Verzeichnis. Ich hatte mir immer schon mal überlegt, die in eine Datenbank zu packen, allerdings war mir dann die ganze Aufrufgeschichte doch zu aufwendig. Mit kdb+ scheint das ja deutlich einfach zu sein.

Lancelot · (Dieser Beitrag wurde zuletzt bearbeitet: 05.01.2023, 14:41 von Lancelot.)

Lancelot
Wenn du
- eh primär mit Python arbeitest
- und deine Datenmengen nicht super riesig sind und Performance nicht enorm wichtig ist

würde ich entweder:
- pytables verwenden: (hdf5) komprimiert, relativ performant, intuitiv und einfach aufzusetzen. Das habe ich oft verwendet. https://www.pytables.org/
- ordentlich partitionierte (Beispiel symbol, date) parquet files (zstd compression) un dein bisschen boilerplate code in polars schreiben. Das ist imnmer meine erste Art Daten zu organisieren. https://www.pola.rs/. Ich hab mein eigenem packages für.
Liest sich dann in etwa so ticker.read_symbol.ohlc("AAPL").freq("5min").from(start_date).to(end_date) oder ticker.read_symbol.quotes_and_trades("SPY").from(start_date) und raus kommt ein polars dataframe.

Tatsächlich habe ich kdb+ aus python nicht viel verwendet. Ich hatte getrennte kdb+ jobs/Prozesse die Daten aufbereitet haben und dann aggregiert irgendwo abgelegt haben. Auf diese Aggregate bin ich dann separat mit Python.

Mann sollte sich das genau überlegen ob man eine echte Datenbank braucht. In der Regel kommt man mit den beiden oben beschriebenen Wegen weit genug.

TomJoe · | 05.01.2023, 15:00

(05.01.2023, 14:38)Lancelot schrieb:
Lancelot
Wenn du
- eh primär mit Python arbeitest
- und deine Datenmengen nicht super riesig sind und Performance nicht enorm wichtig ist

würde ich entweder:
- pytables verwenden: (hdf5) komprimiert, relativ performant, intuitiv und einfach aufzusetzen. Das habe ich oft verwendet. https://www.pytables.org/
- ordentlich partitionierte (Beispiel symbol, date) parquet files (zstd compression) un dein bisschen boilerplate code in polars schreiben. Das ist imnmer meine erste Art Daten zu organisieren. https://www.pola.rs/. Ich hab mein eigenem packages für.
Liest sich dann in etwa so ticker.read_symbol.ohlc("AAPL").freq("5min").from(start_date).to(end_date) oder ticker.read_symbol.quotes_and_trades("SPY").from(start_date) und raus kommt ein polars dataframe.

Tatsächlich habe ich kdb+ aus python nicht viel verwendet. Ich hatte getrennte kdb+ jobs/Prozesse die Daten aufbereitet haben und dann aggregiert irgendwo abgelegt haben. Auf diese Aggregate bin ich dann separat mit Python.

Mann sollte sich das genau überlegen ob man eine echte Datenbank braucht. In der Regel kommt man mit den beiden oben beschriebenen Wegen weit genug.

Gute Tipp! Die Voraussetzungen dürften für mich passen, werde mir pytables mal anschauen.

lomo · | 05.01.2023, 18:03

Welche Python-Module brauche ich für so was hier:

Ich habe je 1000 Datensätze in je 100 CSV-Dateien.
Ich möchte für jeden Datensatz in der neuesten Datei recursiv nach den zum Teil übereinstimmenden Einträgen in den übrigen 99 Dateien suchen und daraus ggf. für jeden der 1000 Datensätze einen 2 dimensionales Array bzw. Tabelle erstellen, um diese dann auszuwerten.

Pandas? Pytables? Am besten beides? Was anderes?

Lancelot · (Dieser Beitrag wurde zuletzt bearbeitet: 05.01.2023, 19:56 von Lancelot.)

(05.01.2023, 18:03)lomo schrieb: Welche Python-Module brauche ich für so was hier:

Ich habe je 1000 Datensätze in je 100 CSV-Dateien.
Ich möchte für jeden Datensatz in der neuesten Datei recursiv nach den zum Teil übereinstimmenden Einträgen in den übrigen 99 Dateien suchen und daraus ggf. für jeden der 1000 Datensätze einen 2 dimensionales Array bzw. Tabelle erstellen, um diese dann auszuwerten.

Pandas? Pytables? Am besten beides? Was anderes?

was heißt "zum Teil übereinstimmend" heißt du hast einen fachlichen Schlüssel? Also du hast Einträge zu MSFT in deiner neusten csv und suchst alle Einträge zu MSFT in den alten Dateien?

Für sowas ist ne Datenbank schon nett. Bei so kleinen Datenmengen geht das auch mit brute force machen. Dauert völlig bescheuert programmiert unter 3 Sekunden.

Der Großteil des codes ist da um Testdaten zu erzeugen.

Code:
import pandas as pd

import numpy as np

import glob

import os

import time

start_time = time.time()

# hier einen pfad für die erstellten Testdaten eintragen

my_path = "C:/Data/test/"

# test daten erzeugen

anzahl_keys = 10

anzahl_daten = 1000

anzahl_files = 100

keys = ["key_" + str(x) for x in range(anzahl_keys)]

for file in range(anzahl_files):

    if file == 1:

        filename = "new_file.csv"

    else:

        filename = "file_nr_"+ str(file)+".csv"

    pd.DataFrame(

        data = np.concatenate((np.random.choice(keys, (anzahl_daten, 1)),

                               np.random.standard_normal((anzahl_daten, 1))), axis=1),

    columns = ["key","value"]).to_csv(my_path + filename)

# daten lesen und auf die keys in der neusten filtern.

new_df = pd.read_csv(my_path + "new_file.csv")

new_keys = new_df["key"].drop_duplicates()

old_dfs = pd.concat([pd.read_csv(file).merge(new_keys,on=["key"], how = "inner")

                     for file in list(filter(lambda x: "new_file" not in x,glob.glob(os.path.join(my_path , "*.csv"))))])

all = pd.concat([new_df,old_dfs])

print("zeit? " + str( (time.time() - start_time)) )

Du müsstest konkreter werden was genau dein Ziel ist. Was sind die zwei Dimensionen? Der neue Wert und die "ähnlichen" (was heisst das?) Werte der alten Daten? Sind die Werte in der neuen csv eindeutig?

lomo · | 06.01.2023, 11:08

100 Files (100 Tage) mit je 1000 Wertpapierkennungen inkl. OHLC-Daten auf EoD-Basis (täglich rolierend, spielt aber hier keine Rolle).
Ich müsste daraus ein File erstellen, die z.B. 100 Schlußkurse dieser Hundert Tage für jede der 1000 Kennungen beinhaltet, um dann mit dieser Matrix zu arbeiten.
Ich will jetzt deine Thread nicht zumüllen. Mir ging es nur darum, welche Module in Python hilfreich wären, um dies effizient zu erledigen. Das hast du ja mit dem vorigen Post beantwortet.

lomo · (Dieser Beitrag wurde zuletzt bearbeitet: 12.01.2023, 16:08 von lomo.)

https://chat.openai.com/

Wie beurteilt ihr das hier (ich finde schon etwas krass):

Input:
"Calculate the slope of each stock in the S&P 500 on daily basis for a time span of 90 days, and then sort the stocks in descending order by their slope and printed them out. Use pandas_datareader libraries for grap all members of S&500 in wikipedia and get EoD data in Yahooo Finance. Use yfinance as well."

Output:
Here is an example of how you could use the yfinance library to download the end-of-day data for each stock in the S&P500 from Yahoo Finance, calculate the slope of the closing prices for each stock on a daily basis for a time span of 90 days, sort the stocks in descending order by their slope, and print out the stock symbol and its slope:

This will give you the slope of the closing prices for each stock in the S&P500 on a daily basis for a time span of 90 days, sorted in descending order, and it will print out the stock symbol and its slope.
Please note that the above code will download the data for all the stocks in S&P500 and it may take a while to execute. Also, it will skip the stocks if it doesn't find the data for the stock.

TomJoe · | 12.01.2023, 16:32

(12.01.2023, 15:58)lomo schrieb: https://chat.openai.com/

Wie beurteilt ihr das hier (ich finde schon etwas krass):

Input:
"Calculate the slope of each stock in the S&P 500 on daily basis for a time span of 90 days, and then sort the stocks in descending order by their slope and printed them out. Use pandas_datareader libraries for grap all members of S&500 in wikipedia and get EoD data in Yahooo Finance. Use yfinance as well."

Output:
Here is an example of how you could use the yfinance library to download the end-of-day data for each stock in the S&P500 from Yahoo Finance, calculate the slope of the closing prices for each stock on a daily basis for a time span of 90 days, sort the stocks in descending order by their slope, and print out the stock symbol and its slope:

This will give you the slope of the closing prices for each stock in the S&P500 on a daily basis for a time span of 90 days, sorted in descending order, and it will print out the stock symbol and its slope.
Please note that the above code will download the data for all the stocks in S&P500 and it may take a while to execute. Also, it will skip the stocks if it doesn't find the data for the stock.

Großartig - die angebliche Intelligenz des Menschen wird maßlos überschätzt. Ich liebe chatGPT und warte drauf, dass die "KI" auf Zugriff auf aktuelle Daten hat und mit einigen Heuristiken ihre Antworten bewertet.

chatGPT ich will ein Kind von dir Pctap

... muss nur noch schauen, wo ich das Baby großziehen kann - wird wohl nicht billig...

lomo · | 12.01.2023, 17:08

(12.01.2023, 16:32)TomJoe schrieb: chatGPT ich will ein Kind von dir ... muss nur noch schauen, wo ich das Baby großziehen kann - wird wohl nicht billig...

Das Ding ist so was von krass...
Es macht sogar vorschläge zur Verbesserung des Inputs selber

"
This task requires a significant amount of programming and data analysis. Here is an outline of the steps that would need to be taken in order to complete it:
1 ...
2 ...
3 ...
4 ...
5 ...
6 ...
It's important to note that this task requires a good understanding of mathematical and statistical concepts such as exponential growth, R-squared, and slope. It also requires proficiency in programming and data analysis using Python and the pandas library.
"

Lancelot · | 13.01.2023, 14:03

Die Diskussion hatte ich erst vor kurzem mit jemanden aus der frühen Schachprogrammierwelt. Eventuell ist das alles gar nicht so toll, was wir Menschen machen. Also unsere Intelligenzleistung ist vielleicht nicht so überragend.

Es ist irgendwie immer das Selbe: sobald die Machine Learning Community ein Problem löst, heißt es immer: ja aber Intelligenz ist was anderes.

1992: TD Gammon => so gut wie die besten Spieler in Back Gammon. Neuronales Netzt mit Temporal Difference Learning. Ja aber..nicht wirklich Intelligent. So was wie Schach könnte das nicht spielen.
1997: Deep Blue => ja aber eigentlich Brute Force Search auf nem Riesenrechner. Ein bisschen Heuristik und dann rechnet das einfach alles durch. Keine Intelligenz
2005: Hydra zerlegt mühelos Schach Großmeister mit nem Normalen Laptop. Ja aber nur monte carlo tree search.... Ein komplexeres Spiel wie Go geht so nicht. Da ist der Suchraucm zu groß. Menschen können das aber trotzdem.
2011: Siri => ja, aber die peilt ja garnix
2016: AlphaGo => ups
2019: Pluribus zerlegt einen ganzen Tisch von Profi Poker-Spielern. Obwohl die Profis tatsächlich eher gegen den Algo kooperieren anstatt selbs zu spielen.
> 2020 ChatGTP3 und Cicero (das ist wirklich für mich das härteste: eine AI di kommuniziert, plant, manipuliert..).

Login
Benutzername/E-Mail:
Passwort:	Passwort vergessen?
	Merken

Möglicherweise verwandte Themen…
Thema		Verfasser	Antworten	Ansichten	Letzter Beitrag
	Kostenlose Historische EOD Daten	atze2000	69	75.912	04.03.2021, 15:55 Letzter Beitrag: Noni-Binder
	EOD Daten Feeds	atze2000	7	9.557	08.02.2019, 12:59 Letzter Beitrag: Noni-Binder
	Free Future Daten	atze2000	0	2.345	11.01.2019, 13:27 Letzter Beitrag: atze2000
	Cot Daten	atze2000	2	3.870	10.01.2019, 19:46 Letzter Beitrag: atze2000