performance: (geometry instancing) uniform buffers vs glVertexAttribDivisor

dot

rapso schrieb:

gibt gl_InstanceID nicht die ID der primitive an und nicht von tatsaechlichen instanz?

Nö, das was du meinst ist wohl gl_PrimitiveID...

rapso

ok, mein ogl sheet sagte es ist ein 'primitive id', so wie hier
http://www.opengl.org/sdk/docs/manglsl/xhtml/gl_InstanceID.xml
dann sorry.

rapso schrieb:

gibt gl_InstanceID nicht die ID der primitive an und nicht von tatsaechlichen instanz?

Nö das ist die Instanz. Zumindest wüsste ich nicht warum mein Code sonst funktioniert. Hier (http://www.opengl.org/sdk/docs/manglsl/xhtml/gl_InstanceID.xml) steht zwar auch es ist die Primitive, aber ich glaube das ist nur schlechte Wortwahl.

wie du feststellst, constant reading ist schneller als main-memory reading auf der gpu.

Hm... kannst du das genauer erklären? Naiv würde ich mir vorstellen dass sowohl bei nem Uniform Buffer als auch bei nem normalen Array Buffer das Zeug irgendwo auf der Grafikkarte im Speicher landet und dann irgendwie beim Ausführen des Shaders herangezogen wird. Die Ausgangsdaten finde ich sehen ziemlich gleich aus... bei beiden Varianten weiss die Grafikkarte wie groß die Gesamtladung ist, die Datenmenge unterscheidet sich nicht, beides liegt kontinuierlich im Speicher. Wird eines der beiden Buffer-Varianten besonders behandelt?

wie zeichnest du mit uniform buffern 10k instances mit je 100 polys?

10k gar nicht, da gabs bei mir nen fullscreen-quad der über den rgb farbraum interpoliert hat

Aber prinzipiell einfach ein Uniform-Buffer der 10k Matrizen hat (oder halt sonstige Daten die sich pro Instanz ändern) und dann wie oben gesehen im Shader hardgecodet wie viel da ankommt (geht bestimmt etwas eleganter).

Oder gehts dir um was anderes?

dot

rapso schrieb:

ok, mein ogl sheet sagte es ist ein 'primitive id', so wie hier
http://www.opengl.org/sdk/docs/manglsl/xhtml/gl_InstanceID.xml
dann sorry.

Da hast du wohl einen Fehler in den Reference Pages gefunden:

OpenGL Specification schrieb:

gl_InstanceID holds the integer instance number of the current primitive in an instanced draw call

dot

TravisG schrieb:

Naiv würde ich mir vorstellen dass sowohl bei nem Uniform Buffer als auch bei nem normalen Array Buffer das Zeug irgendwo auf der Grafikkarte im Speicher landet und dann irgendwie beim Ausführen des Shaders herangezogen wird.

Richtig; allerdings hat eine GPU verschiedene Speicherbereiche (eigentlich einfach verschiedene Caches), die für verschiedene Zugriffsmuster optimiert sind. Instanzdaten, die du mit den Vertices fütterst, gehen durch den vertex fetcher (Input Assembler Stage), der (zumindest auf Desktop Hardware) der zwar vermutlich auch cached, aber offenbar nicht so ganz auf Broadcasting (verteilen der gleichen Daten an mehrere Cores) ausgelegt ist und die Werte wohl relativ oft aus dem Global Memory holen wird. Uniform Buffer dagegen, liegen im Constant Memory, d.h. die gehen durch den sog. Constant Cache, der einzig und allein auf gleichzeitigen Zugriff von vielen Cores auf die selbe Adresse ausgelegt ist...

rapso

TravisG schrieb:

rapso schrieb:

gibt gl_InstanceID nicht die ID der primitive an und nicht von tatsaechlichen instanz?

Nö das ist die Instanz. Zumindest wüsste ich nicht warum mein Code sonst funktioniert. Hier (http://www.opengl.org/sdk/docs/manglsl/xhtml/gl_InstanceID.xml) steht zwar auch es ist die Primitive, aber ich glaube das ist nur schlechte Wortwahl.

war nur eine randnotiz, nicht dass wir birnen mit aepfeln vergleichen

wie du feststellst, constant reading ist schneller als main-memory reading auf der gpu.

Hm... kannst du das genauer erklären? Naiv würde ich mir vorstellen dass sowohl bei nem Uniform Buffer als auch bei nem normalen Array Buffer das Zeug irgendwo auf der Grafikkarte im Speicher landet und dann irgendwie beim Ausführen des Shaders herangezogen wird. Die Ausgangsdaten finde ich sehen ziemlich gleich aus... bei beiden Varianten weiss die Grafikkarte wie groß die Gesamtladung ist, die Datenmenge unterscheidet sich nicht, beides liegt kontinuierlich im Speicher. Wird eines der beiden Buffer-Varianten besonders behandelt?

constant buffer sind glaube ich das zweit bzw dritt schnellste (je nach hw), einzig register sind schneller (und manchmal wohl local store -> stack wuerde ein c programmer wohl sagen, aber das siehst du als 3d programmierer wohl nichtmal, nur ocl/cuda).

wie zeichnest du mit uniform buffern 10k instances mit je 100 polys?

10k gar nicht, da gabs bei mir nen fullscreen-quad der über den rgb farbraum interpoliert hat

emm, du meinst, du zeichnest dauernt fullscreen quads zum benchmarken?
(ich denke ich missverstehe)

Aber prinzipiell einfach ein Uniform-Buffer der 10k Matrizen hat (oder halt sonstige Daten die sich pro Instanz ändern) und dann wie oben gesehen im Shader hardgecodet wie viel da ankommt (geht bestimmt etwas eleganter).

Oder gehts dir um was anderes?

ich wollte sehen wie du die drawcalls abschickst und was genau zu zeichnest. z.b. waere es fuer soeinen benchmark unnoetig ueberhaupt pixel zu zeichnen.

rapso schrieb:

wie zeichnest du mit uniform buffern 10k instances mit je 100 polys?

10k gar nicht, da gabs bei mir nen fullscreen-quad der über den rgb farbraum interpoliert hat

emm, du meinst, du zeichnest dauernt fullscreen quads zum benchmarken?
(ich denke ich missverstehe)

Meine Grafikkarte ist abgeschmiert, danach hab ich das Testen sein lassen.

Aber prinzipiell einfach ein Uniform-Buffer der 10k Matrizen hat (oder halt sonstige Daten die sich pro Instanz ändern) und dann wie oben gesehen im Shader hardgecodet wie viel da ankommt (geht bestimmt etwas eleganter).

Oder gehts dir um was anderes?

ich wollte sehen wie du die drawcalls abschickst und was genau zu zeichnest. z.b. waere es fuer soeinen benchmark unnoetig ueberhaupt pixel zu zeichnen.

glUseProgram(_shader);

//methodenabhaengig hier dann noch uniform buffer oder normalen buffer updaten

glBindBuffer(GL_ARRAY_BUFFER,_buffer);
glEnableVertexAttribArray(VERTEX_ATTRIB_INDEX);

glVertexAttribPointer(VERTEX_ATTRIB_INDEX,4,GL_FLOAT,GL_FALSE,0,0);

glDrawArraysInstanced(GL_TRIANGLES,0,_numTriangles,instanceCount);

glDisableVertexAttribArray(VERTEX_ATTRIB_INDEX);

glBindBuffer(GL_ARRAY_BUFFER,0);
glUseProgram(0);

TravisG schrieb:

rapso schrieb:

wie zeichnest du mit uniform buffern 10k instances mit je 100 polys?

10k gar nicht, da gabs bei mir nen fullscreen-quad der über den rgb farbraum interpoliert hat

emm, du meinst, du zeichnest dauernt fullscreen quads zum benchmarken?
(ich denke ich missverstehe)

Meine Grafikkarte ist abgeschmiert, danach hab ich das Testen sein lassen.

windows? hat es mehr als 2s gedauert? windows watch dog?

wenn du wirklich fullscreen quads gezeichnet haben solltest, wundert es mich wenn du ueberhaupt einen unterschied wahrgenommen hast.

raps schrieb:

TravisG schrieb:

rapso schrieb:

wie zeichnest du mit uniform buffern 10k instances mit je 100 polys?

10k gar nicht, da gabs bei mir nen fullscreen-quad der über den rgb farbraum interpoliert hat

emm, du meinst, du zeichnest dauernt fullscreen quads zum benchmarken?
(ich denke ich missverstehe)

Meine Grafikkarte ist abgeschmiert, danach hab ich das Testen sein lassen.

windows? hat es mehr als 2s gedauert? windows watch dog?

wenn du wirklich fullscreen quads gezeichnet haben solltest, wundert es mich wenn du ueberhaupt einen unterschied wahrgenommen hast.

nene, der fullscreen quad war ein witz. Wenn meine Grafikkarte abschmiert "zeichnet sie nen fullscreen quad der über den rgb farbraum interpoliert". Also Monitor mit bunten Farben

axo

falls du dich wunderst wieso es beides gibt, das langsammerere war zuerst da und ein reines software feature wegen der langsammkeit von directx

bevor es das gab, haben wir einfach den vertexbuffer x-mal groesser gemacht, in einen channel vom vertex (z.b. alpha vom vertex color) den index zur matrize hinterlegt und damit instanzing 'simuliert'

davor gab es dieses "matrix-palette-skinning" auch schon, aber eher ein rendering feature als ein performance feature (-> war langsammer als mehrere drawcalls).