Daten (Langzeit-)Analyse Tools und DBs



  • Guten Morgen Miteinander,

    ich darf mir ein Konzept überlegen hinsichtlich Long-Term-Data-Analyse. (Big-Data) Grundsätzlich geht es darum dass eine
    Anwendung /Maschine/Anlage für Mess-Daten liefert, auf Basis dieser sollen durch Analysen später (irgendwelche) Rückschlüsse gezogen werden können.

    Dafür fehlt mir ein passende Workbench, Toolset.. quasi ein Eco-System umd sowas zu mcahen:

    -Datenbank (SQL oder nicht!? )
    -Auswertung (Matlab!?)
    -Visualiserung !?!?

    Quasi ein Excel für Große Jungs und viele Daten:)

    Könnte Ihr mir da ne Richtung geben, welche Tools da in Kombi passend wären?
    Vielen dank und guten Morgen;)


  • Mod

    Kommt sehr auf die Datenmengen an. Welche Größenordnung schätzt du grob für folgendes:

    • Was ist ein typisches Zeitintervall für die Anwendung?
    • Anzahl Datensätze pro typischem Zeitintervall?
    • Wie viele Zeitintervalle sollen vorgehalten werden? ("Alle" ist auch eine mögliche Antwort)
    • Wie viele Zeitintervalle von Daten fließen in typische Analysen ein? ("Alle" ist auch eine mögliche Antwort)

    Außerdem Rahmenbedingungen:

    • Größenordnung für das Budget? Ganz grob zwischen "armer Student" und "multinationaler Konzern" geschätzt.
    • Gibt es Bedenken bezüglich Geheimhaltung?
    • Gibt es Bedenken bezüglich Verbindungen zwischen den Systemen und/oder dem Internet?
    • Wie gut ausgebildet sind die Analysten?
    • Gibt es irgendwelche unbeweglichen Teile? Z.B. irgendein Entscheider, der sagt, dass man unbedingt alles in Fortran machen muss?


  • Naja erstmal ist wichtig die Daten in ihrer Rohform abzuspeicher. Möglichst verlustfrei und möglichst in einem Format das einfach von diversen Tools zu lesen ist.

    Weitere Schritte wie das Aufbauen irgendeiner schlauen Datenstruktur (Index, Cube, ...) sind vermutlich wenig sinnvoll so lange man nicht weiss was man eigentlich analysieren will.



  • @SeppJ sagte in Daten (Langzeit-)Analyse Tools und DBs:

    Gibt es Bedenken bezüglich Geheimhaltung?

    Möchte ich erweitern um die scheinbar einfache Frage, wem die Messdaten gehören.

    Gehören sie dem Maschinenhersteller?
    Gehören sie dem Kunden, der die Maschine nutzt?
    Bist du Maschinenhersteller, der die Maschine überwacht oder der Kunde, der die Maschine benutzt? Ggf. darfst du dann nur einen Teil der Sensordaten nutzen. Es gibt auch Fälle, wo die Messdaten eigentlich dem Hersteller gehören, aber der Kunde bei manchen Einsätzen der Maschine "geheime" Dinge tut und währenddessen einfach die Daten nicht zurück überträgt.
    Sind Daten vorhanden, ob/wann Sensoren getauscht wurden? Sind die Sensoren alle kalibriert (wahrscheinlich nicht). Gibt es Unterlagen dazu, wann welcher Prozess durchgeführt wurde?

    Wir wollten einmal jung&naiv Maschinendaten analysieren und sind dabei in all die obigen Probleme gelaufen...



  • @SeppJ sagte in Daten (Langzeit-)Analyse Tools und DBs:

    Gibt es Bedenken bezüglich Geheimhaltung?
    Gibt es Bedenken bezüglich Verbindungen zwischen den Systemen und/oder dem Internet?

    Nur um auch nochmal das Verständniss für solche Probleme zu schärfen, ich hatte mal ein Fall, wo die Daten dann von der Stelle wo sie angefallen sind zu der verarbeitenden Stell auf einer externen Festplatte mit dem Auto transportiert worden sind (und das innehalb eines multinationalen Konzern).

    Für kleine Jungs 😉 bin ich schon mal ganz gut mit Datenhaltung in einer SQL Datenbank und Auswertung via Python Pandas gefahren. Aber da musste ich mir um oben genannte Probleme keine Gedanken machen.


  • Mod

    @Schlangenmensch sagte in Daten (Langzeit-)Analyse Tools und DBs:

    Für kleine Jungs 😉 bin ich schon mal ganz gut mit Datenhaltung in einer SQL Datenbank und Auswertung via Python Pandas gefahren.

    Das wäre jetzt auch meine erste Empfehlung, außer die Frage nach den Datenmengen deutet auf hunderte von Millionen Records hin. Noch Jupyter(lab) zur freien Analyse und Visualisierung dazu, und dann kommt man damit verdammt weit. So lange man genug Arbeitsspeicher hat.



  • Ich schmeiß mal noch R in den Raum als Alternative zu Python. Nicht weil das irgendwie besser ist, sondern falls dir das mehr zusagt, ist das ebenfalls ein ziemlich sicheres Pferd, auf das du damit setzen würdest.



  • Mahlzeit,

    ok gut , paar Randparameter,:

    pro Stunde eine Datenaufzeichnung von ca 10000 Daten(Messwerten)
    Die Daten werden "vorerst "Lokal (PC) gehalten.

    Können Datensicherheit und Daten-Hoheit erst mal bei Seite lassen.

    Der Ansatz SQL-Datenbank und Python Pandas werde ich mal recherchieren 🙂 Und ja von R hab ich auch schon gehört, das schau ich mir auch an.. und Datenvisualisierrung ?

    Vielen Dank schonmal;)



  • @SoIntMan sagte in Daten (Langzeit-)Analyse Tools und DBs:

    und Datenvisualisierrung ?

    Auch R bzw. Python.
    (Minitab wird bei uns auch teilweise genutzt, weiß aber nicht wie gut das ist).


  • Mod

    Also hundertausende bis mehrere Millionen Datensätze. Das klingt nach einem guten Fall für irgendeine freie Datenbank (ziemlich egal welche, da du sie nur als Datenhalde benutzen wirst), und dem Analysegespann Python/Pandas/Jupyter.


Anmelden zum Antworten