SQLite plattgemacht ;-)

Scheppertreiber

Zebald schrieb:

Was erwartest du dir bei der Abfrage select count(*) von einem Index?

Die Anzahl der vorhandenen Records - was sonst.

Die Abfrage ist nicht wichtig, halt mal probiert. Er erstellt immer noch
den Index.

Zebald

Aggregierungen (z.B. count, sum) über alles in einer Tabelle sind eigentlich Beispiele, wo ein Index nichts bringt.

Edit: Was mich noch interessieren würde: Wie groß ist das SQLLite-File?

hustbaer

Also count(*) sollte eine Datenbank "so" können.

Und bei sum() kann ein Index schon was bringen, nämlich wenn die Tabelle relativ breit ist und der Index relativ schmal, aber ausreicht um die Abfrage durchzuführen (=alle nötigen Spalten enthält).

Wobei ich nicht weiss ob SQLite nen Index so verwenden kann (SQL Server kann es).

sqlite ist einfach nicht webscale

Scheppertreiber

Zebald schrieb:

Wie groß ist das SQLLite-File?

3,81 GB (4.101.040.128 Bytes) lt. "Eigenschaften" (Größe Auf Datenträger 3,81 GB (4.101.042.176 Bytes)). Der Windows-Explorer zeigt 4.004.922 KB.

Also in dieser Gegend ...

Scheppertreiber

brogram schrieb:

sqlite ist einfach nicht webscale

Was meinst Du damit ?

vario-500

das sqLITE nicht fürs web gemacht ist, sondern für andere dinge

Scheppertreiber

vario-500 schrieb:

das sqLITE nicht fürs web gemacht ist, sondern für andere dinge

Es funktioniert aber wirklich gut. Nur ab ca 5 Mio Records wird es etwas
langsam (muß ich noch mal genauer testen). SQLite habe ich im Live-Betrieb
laufen. Die Kunden sind zufrieden.

Problematisch sind halt größere Datenmengen >100 GB / Jahr.

Der Kunde wo ich da probiert habe, wird pro Jahr >200 Mio Records haben.
Es war halt mal ein Versuch. Im Moment habe ich da eine selbsgebaute DB
laufen.

Ich habe das mit Kollegen besprochen - alle meinten dafür braucht's einen
Oracle-Cluster

hustbaer

Scheppertreiber schrieb:

vario-500 schrieb:

das sqLITE nicht fürs web gemacht ist, sondern für andere dinge

Es funktioniert aber wirklich gut. Nur ab ca 5 Mio Records wird es etwas
langsam (muß ich noch mal genauer testen).

Könnte das vielleicht genau die Grenze sein wo der File-Cache nimmer ausreicht um die relevanten Teile der DB vorrätig zu halten?

Problematisch sind halt größere Datenmengen >100 GB / Jahr.

Problematisch sind Abfragen die zu viele IOs brauchen um ausgeführt zu werden, ganz egal wie man zu diesen IOs kommt.

Und genau da schraubt man dann auch: entweder man kauft sich mehr IOs/Sekunde, oder man guckt dass man weniger IOs/Sekunde braucht.
Dafür braucht es dann oft ne schlauere Datenbank als SQLite, oder man muss es zu Fuss programmieren.

Aber zurück zum Thema SQLite: welche Einstellungen verwendest du?

Scheppertreiber

Aber zurück zum Thema SQLite: welche Einstellungen verwendest du?

Ich habe es ma bei den Standardeinstellungen belassen.

Die Applikation archiviert und stellt die Zettel über das Web zur Verfügung.
Mit dem üblichen Rattenschwanz an Zugriffsrechten die man kaum noch über DBs
abbilden kann, vielen kundenspezifischen Gimmicks und Zertifikaten.

Verarbeitet werden Streamdaten (Text, XML *bäh*) und PDF/TIFF. Zur Ausgabe werden
die PDF entweder ausgeliefert oder on-the-fly erzeugt. Die Dokumente kann
der Kunde auch auf eine CD/DVD mit Abfrageprogramm bekommen (uA der Grund
für SQLite - ich kann es für alles nehmen).

Bei einem großen Kunden sind das knapp 500 GB pro Jahr.

Bei kleineren Kunden hat sich SQLite prima bewährt. Flexibel (halt SQL) und
einfach anwendbar, es sind dadurch noch einige WorkFlow-Anwendungen dazu
gekommen.

Vorteile SQLite:

* keine Installation oder Pflege notwendig
* alle Platformen
* die beiden Admins die sich um die Systeme kümmern haben Zeit für Wichtigeres

Problematisch ist, ich muß irgendwo eine Grenze ziehen die sich durch eine
erträgliche Performance SQLite ergibt. Da versuche ich mich heranzutasten.

Mit SQLite3.exe kann ich mein 3-Mio-Records-Monster abfragen, es dauert aber ...

Die Sache mit dem Cache müsste man mal genauer beobachten. Ich habe ja immer
noch im Hinterkopf, alles auf Linux umzuheben (in C ja machbar) und mich um
Caching nicht gekümmert. Im Moment laufen die Server und XP prof.

Compiler: Watcom C, nix PHP oder so.

hustbaer

Und Indexe etc. passt alles?

Scheppertreiber

hustbaer schrieb:

Und Indexe etc. passt alles?

Weitestgehend

Wie es so schön heißt: Immer Platz für Optimierungen ...

Im Moment lese ich mal in mein System 40 GB Daten ein und vergleiche das mal.

MongoDB

Scheppertreiber

Soderle, schlaffe 36 GB Daten sind importiert (in meine Eigenkonstruktion).
Es paßt nicht alles auf meinen Server, also nur 1 Monat. Die Suchzeiten sind
dramatisch kleiner (ich habe ja auch alles rausgeworfen was nicht unbdedingt
notwendig ist).

Quelle: XML-Daten mit assoziierten PDF, insgesamt 9.615.069 Datensätze /
PDF. Ist 2 Tage gelaufen. Suchzeiten incl. Ausgabe als HTML/CSV, Excel in
1 sec bei 100 Treffern. Wäre nicht die Zeit um das über den Webserver zu
jagen wäre ich noch mehr zufrieden

guenni81

Hallo, mal dumm gefragt, wäre es aber bei der Menge an Daten nicht eventuell eine Überlegung wert auf andere DB's zurück zu greifen z. B. PostgreSQL, MySQL, etc...?

Scheppertreiber

guenni81 schrieb:

Hallo, mal dumm gefragt, wäre es aber bei der Menge an Daten nicht eventuell eine Überlegung wert auf andere DB's zurück zu greifen z. B. PostgreSQL, MySQL, etc...?

Mir wurde berichtet, ein Oracle-Cluster hätte da auch dran zu kauen ...

guenni81

Scheppertreiber schrieb:

Mir wurde berichtet, ein Oracle-Cluster hätte da auch dran zu kauen ...

Ich behaupte mal das kommt wohl auch auf die größe des Clusters an.

Scheppertreiber

Klar. Wir sind aber eine kleine Firma mit 7 Leuten, das ist zu teuer

hustbaer

Ich würde sagen das kommt auch noch auf einen Haufen anderer Faktoren an.

Der Schluss "XXX GB Daten/Jahr => brauchst du Oracle Cluster" ist vollkommener Quatsch.

Je nachdem wie die Abfragen aussehen die man auf diese Daten macht kann das ein einzelner MS SQL/Oracle Server oder auch eine "kleine" Datenbank-Engine ala SQLite locker packen.
Bzw. auch einen dicken Cluster überfordern - nur durch den Cluster werden die Disks ja z.B. nicht schneller. (Und mehr bzw. schnellere Disks kann man auch schön an einen einzelnen Server anbinden. Bis zu dem Punkt wo es auf Grund von anderen Engstellen nimmer schneller wird - aber bis der erreicht ist hat man einiges an Geld verbraten.)

Marc-O

hustbaer schrieb:

Ich würde sagen das kommt auch noch auf einen Haufen anderer Faktoren an.

Der Schluss "XXX GB Daten/Jahr => brauchst du Oracle Cluster" ist vollkommener Quatsch.

Je nachdem wie die Abfragen aussehen die man auf diese Daten macht kann das ein einzelner MS SQL/Oracle Server oder auch eine "kleine" Datenbank-Engine ala SQLite locker packen.
Bzw. auch einen dicken Cluster überfordern - nur durch den Cluster werden die Disks ja z.B. nicht schneller. (Und mehr bzw. schnellere Disks kann man auch schön an einen einzelnen Server anbinden. Bis zu dem Punkt wo es auf Grund von anderen Engstellen nimmer schneller wird - aber bis der erreicht ist hat man einiges an Geld verbraten.)

Da bin ich komplett deiner Meinung, habe aktuell auch mit einen Kunden zu tun, bei den laufen ca. 100 GB an Daten im Jahr auf und dort läuft ein MS SQL Server. Dort habe ich auch schon einiges an Optimierung rein gesetzt und das meiste ging bis jetzt in dem die Konstrukte umgestrikt wurden um die Daten passend zu selektieren oder eben die Indexe zu treffen :-).