Textfile lesen

wob

Wie wärs mit sowas - nur ein getline, wenn ein Fehler auftritt:

#include <fstream>
#include <iostream>
#include <string>
using namespace std;

int main() {
    ifstream in("data.txt");

    double m_low, m_high, y_low, y_high, pt_low, pt_high, yield, uncertainty;
    std::string str;

    std::streampos in_pos;
    while (in) {
        in_pos = in.tellg();
        if (in >> m_low >> m_high >> y_low >> y_high >> pt_low >> pt_high >> yield >>
            uncertainty && in.peek() == '\n') {
            printf("Found entry, yield is %f\n", yield);
        } else {
            in.clear();
            in.seekg(in_pos);
            std::string s;
            if (getline(in, s)) {
                if (s.empty() || s.find("#") != std::string::npos) {
                    // ok, empty or comment (# irgendwo in Zeile, für am Anfang whitespace skippen)
                } else {
                    cout << "Error in line: " << s << "\n";
                }
            }
        }
    }
}

Zafar

@wob , danke dir!
Ich habe das angewendet auf einer Textdatei die mehr als 10000 Zeilen hat und bei diesem Fall werden einige Zeilen nicht ausgegeben. Da werden ersten 100 Zeilen komplett ignoriert. Ich weiß nicht ob es an der Zeilenanzahl abhängt

wob

@Zafar sagte in Textfile lesen:

Da werden ersten 100 Zeilen komplett ignoriert. Ich weiß nicht ob es an der Zeilenanzahl abhängt

Ich behaupte mal: kann nicht sein. Irgendwas stimmt da nicht. Du hast aber nicht zufällig "#" in den ersten 100 Zeilen drin? Ansonsten sollte das Programm doch auch Zeilen ausgeben, wenn es die nicht lesen kann. Man könnte am Ende nochmal testen, ob man wirklich eof erreicht hat oder ob andere Fehler vorliegen (generell geht mehr Fehlerkontrolle bestimmt), aber dass die ersten 100 Zeilen grundlos überlesen werden, ist nicht zu glauben. Wobei: das Programm hat möglicherweise Probleme, wenn die Anzahl der Felder pro Zeile nicht stimmt, da beim in >> auch Zeilenumbrüche überlesen werden können. Aber wenn dir Datei korrekt ist, liest das Programm korrekt, würde ich mal behaupten.

Zafar

@wob Eigentlich hat nur die erste Zeile ein #. Ja das ist sehr komisch. Die hinteren Zeilen werden problemlos und ohne Lücken ausgegeben . Es geht hauptsächlich um die ersten hunderten von Zeilen.

Ist es möglich hier diese Textdatei anzuhängen ?

wob

@Zafar ich habe oben noch ein && in.peek() == '\n' ins if eingebaut, sodass "Zeilenende nach lezter Zahl" Pflicht wird.

Ist es möglich hier diese Textdatei anzuhängen ?

Kannst du nicht einfach testen, ob das Problem auch bei einer kleineren Testdatei auftritt, z.B. wenn du nur die ersten 20 Zeilen nimmst? Werden die dann auch übersprungen? Sieht die Textdatei ansonsten "normal" aus?

Finnegan

@wob sagte in Textfile lesen:

Ich würde daher inzwischen immer https://github.com/fmtlib/fmt empfehlen.

Man sollte vielleicht nicht unerwähnt lassen, dass die mittlerweile auch zum (C++20) Standard gehört: std::format.

Zafar

Dieser Beitrag wurde gelöscht!

Zafar

@wob Ich habe die ersten 50 Zeilen genommen und es hat problemlos funktioniert. Nur bei mehr als 10000 Zeilen ignoriert er die ersten Zeilen, voll komisch.

Das Output startet einfach ab Zeile 1279

wob

@Zafar sagte in Textfile lesen:

@wob Ich habe die ersten 50 Zeilen genommen und es hat problemlos funktioniert. Nur bei mehr als 10000 Zeilen ignoriert er die ersten Zeilen, voll komisch.

Das Output startet einfach ab Zeile 1279

Du machst etwas anderes falsch oder die Textdateien enthalten nicht das, was du denkst. Die Funktion weiß doch am Anfang noch gar nicht, wie viele Zeilen es geben wird.

Wie sieht dein vollständiges Programm aus, woher weißt du, dass es die ersten Zeilen nicht korrekt einliest? Hinterfrage jedes Detail deiner Annahmen!

(und zuletzt: bist du sicher, dass du C++ brauchst, geht nicht Python? Geht es um parton density functions von Blei-Blei und Muonen-Transversalimpuls? Wäre meine Vermutung anhand des Dateinamens...)

Zafar

@wob Ich habe was ausprobiert, habe in der while Schreife einen counter eingebaut und dann diesen counter ausgeben lassen. Bei beispielsweise 500 Zeilen gibt der counter mir auch 500 an. Vielleicht liegt es daran, dass mein bash diese große Anzahl an Zeilen net komplett ausgeben kann. Ich benutze zur Info Linux.

Ich benutze ein framework, das sich root nennt. das ist auf c++ basiert

wob

Was hat bash jetzt damit zu tun?! (es gibt auch ein paar Commits von mir im ROOT-Source...)

Rat: Nimm Python (ok, zumindest für soche Sache wie Einlesen)! ROOT hat doch wundervolle Python-Bindings.

Zafar

@wob einfach den Code fürs Einlesen in python umwandeln?

wob

Das ist nur ein genereller Rat. Weil solche Dinge in Python sehr viel einfacher sind. Aber du hast doch schon praktisch den ganzen Einlesecode. Ich kann nicht erraten, was bei dir falsch läuft.

Liest du in einen TTree ein? Nutzt du RDataFrames?

Zafar

@wob Weder das eine noch das andere. Ich lese nur die Datei ein mit ifstream und will daraus ein Histogram erstellen

wob

kannst du die Datei irgendwo hochladen?

Zafar

@wob Hast du Dropbox?

wob

nö

Zafar

https://github.com/zmomtaz/Textfile-.git

Hier ist die Textdatei

wob

Also bei mir kommt da raus:

$ g++ orig.cpp&&./a.out|grep Found|wc -l
11276

Aber warum nicht einfach alles wegschmeißen und es so machen: root starten und eingeben:

auto t = new TTree("t", "t");
t->ReadFile("data.txt", "q2lo/D:q2hi:ylo:yhi:qTlo:qThi:PDF0:uncertainty");
t->Draw("PDF0>>h(100,-20,20)");

oder halt nach dem ReadFile einfach nen TBrowser starten.

Zafar

Aus dem TTree kann ich "yield" einlesen oder?