Assembler

Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you may not be able to execute some actions.

Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).

Melde dich an, um einen Beitrag zu erstellen

Assembler

?

Assmebler und Interrupts
• Gast

3

0
Stimmen

3
Beiträge

465
Aufrufe

R

Als root kannst du vorher ioperm aufrufen. Dadurch werden die entsprechenden Ports freigeschaltet. Unter Windows geht das nicht.
S

Bitmap Routine
• sevobal

6

0
Stimmen

6
Beiträge

701
Aufrufe

N

Ich habe mich mal bemuessigt, einen kleinen .bmp-wiever fuer DOS zu schreiben. Sollte also mit relativ geringem Aufwand auf dein System portierbar sein. Ist einfach gehalten - keine besondere Optimierung, dafuer aber sehr klein. Aber wundere dich nur nicht ueber eventuelle Diashows. Hier downloaden
T

8 bits stellen eine Ziffer dar???
• Tauboga

8

0
Stimmen

8
Beiträge

777
Aufrufe

R

Hi, kennst du das Duale Zahlensystem??? Hier ein Beispiel: 00010100 Diese Binärzahl bedeutet in Dezimal 20. Sie wird von rechts nach links gelesen. Die Bits stellen folgende Werte dar: 128-64-32-16-8-4-2-1 Wenn also Bit 2 und 4 gesetzt sind: 2+16=20 Und genau so sieht es im Speicher aus. Alles klar? Gruß Red!
?

Integer oder float vom µC an PC schicken?
• Gast

3

0
Stimmen

3
Beiträge

472
Aufrufe

?

Ja schon klar........nur wie mach ich das im C-Builder das ich ........aja das wird dan wohl das falsche fourm ....naja danke
K

SSE abs()
• Kyon

4

0
Stimmen

4
Beiträge

1110
Aufrufe

C

wenn es (als integer problem) nicht schon in einen sse2 teil eingebettet ist, kommst du bei dieser bedingung möglicherweise besser, das problem ohne sse2 zu lösen. eine möglich keit wäre noch, die operanden vor der subtraktion mit min und max zu ordnen, so dass der vorzeichenwechsel entfällt; allerdings müsstes du zum testen der bedignung ja trotzdem die differenzen gegenüberstellen, insofern ist die parallelisierbarkeit stark eingeschränkt. bei gleitkommazahlen ist das vorzeichen immer ein separates bit und die mantisse selbst vorzeichenlos. was den wrapper betrfft, so ist zu beachten, dass das keine wirklich optimale lösung darstellt. wenn man wirklich ein ernsthaftes projekt damit starten wollte, käme man um einen klassenbasierten custom allocator nicht drumherum. die hier dargestellte methode ist extrem schlecht was performance und speicherverbrauch angeht - sie funktioniert lediglich.
S

Bildschirmasugabe in Vesa
• sevobal

6

0
Stimmen

6
Beiträge

933
Aufrufe

C

edit: das wolltest du gar nicht wissen.
O

segmente in NASM
• otze

4

0
Stimmen

4
Beiträge

624
Aufrufe

C

//edit ok, klar initialisiert und uninitialisiert...wofür braucht man letzteres? was nicht initialisiert ist, brauchst du auch in der .exe nicht mit dir rumschleppen, macht also das file kleiner. wieso nur bei 16bit exe? Ich dachte, jedes programm hätte ne stack sektion? weil beim programmstart sowieso schon alle segmente (cs...ss; fs und gs sind tabu - wenigstens in windows) initialisiert sind, einschliesslich des stacks (tatsächlich steht in ds..ss dasselbe drin, und in cs zwar ein anderer selektor, der aber auf denselben speicherbereich zeigt). ein 32bit (user-level)programm beendet sich einfach durch ein normales ret n. im 32bit flat model haben die sektionen bzw. segmente rein deklarativen charakter. es werden zwar alle deklarationen in den einzelnen segmenten zusammengefasst (wenn du also ständig zwischen .data und .text wechselst, ist das in der .exe nicht zu erkennen), du kannst aber prinzipiell über alle segmentregister auf alles zugreifen (nur eingeschränkt über cs, und schreibzugriffe auf codebreich bzw. jmps in datenbereiche können u.u. zu exceptions führen). jeder prozess hat ja wenigstens einen thread, und jeder thread bekommt vom system einen eigenen stack zugewiesen.
S

Frage zum Pe-Format
• Surkevin

2

0
Stimmen

2
Beiträge

547
Aufrufe

?

Du stellst dir dass ein bischen zu leicht vor. Du musst alle reallocierten Adressen auch mit kopieren, alle Import-Listen, die RVA Bereiche dürfen sich nicht überlappen. Nur die .text Bereiche und den Einsprungpunkt ändern reicht nicht.
C

kleiner C++ Wrapper für SSE
• camper

9

0
Stimmen

9
Beiträge

1847
Aufrufe

C

kleine änderung, jetzt funktioniert shuffle auch mit gcc. irgendwie funktioniert es dort nur, wenn ich auf v direkt zugreife, obwohl ja ein cast operator da ist; ich denke das ist ein compilerfehler, bei funktionen, die keine template funktionen sind, geht es ja schliesslich. leider krieg ich die syntax, um jede instanz des funktions-templates friend zu machen, nicht auf die reihe, also sind die daten jetzt public. hier mal eine einigermassen funktionsfähige 3dklasse #ifndef VECTOR3D_H_INCLUDED #define VECTOR3D_H_INCLUDED #include <cstdlib> #include <cassert> #include "SSEIntrin.h" class Vector3d { public: SSE::Xmm4f v; Vector3d() { } Vector3d(const SSE::Xmm4f& r): v( r ) { } Vector3d(float x, float y, float z): v( x, y, z, 1.0f ) { } float& operator[](std::size_t i) { assert( i < 3 ); return v[ i ]; } const float& operator[](std::size_t i)const { assert( i < 3 ); return v[ i ]; } Vector3d operator +()const { return v; } Vector3d operator -()const { return -v; } Vector3d& operator*=(float k) { v *= k; return *this; } Vector3d& operator/=(float k) { v /= k; return *this; } float length()const { SSE::Xmm4f tmp1( v * v ); SSE::Xmm4f tmp2; tmp2 = SSE::shuffle< 2, 3, 2, 3 >( tmp1, tmp2 ); // resolves to movehl // [2] and [3] of tmp2 are actually undefined, which is why the default constructor // doesnt initialize anything, since it couldnt be optimized away tmp2 = addss( tmp2, tmp1 ); // now holds v[0]+v[2] tmp1 = SSE::shuffle< 1, 0, 0, 0 >( tmp1 ); tmp2 = addss( tmp2, tmp1 ); tmp2 = sqrtss( tmp2 ); return tmp2; } float sqrLength()const { SSE::Xmm4f tmp1( v * v ); SSE::Xmm4f tmp2; tmp2 = SSE::shuffle< 2, 3, 2, 3 >( tmp1, tmp2 ); tmp2 = addss( tmp2, tmp1 ); tmp1 = SSE::shuffle< 1, 0, 0, 0 >( tmp1 ); tmp2 = addss( tmp2, tmp1 ); return tmp2; } Vector3d& normalize() { SSE::Xmm4f tmp1( v * v ); SSE::Xmm4f tmp2; tmp2 = SSE::shuffle< 2, 3, 2, 3>( tmp1, tmp2 ); tmp2 = addss( tmp2, tmp1 ); tmp1 = SSE::shuffle< 1, 0, 0, 0>( tmp1 ); tmp2 = addss( tmp2, tmp1 ); tmp2 = rsqrtss( tmp2 ); tmp2 = SSE::shuffle< 0, 0, 0, 1>( tmp2 ); v *= tmp2; return *this; } }; inline Vector3d operator+(const Vector3d& l, const Vector3d& r) { return l.v + r.v; } inline Vector3d operator-(const Vector3d& l, const Vector3d& r) { return l.v - r.v; } inline float operator*(const Vector3d& l, const Vector3d& r) { SSE::Xmm4f tmp1( l.v * r.v ); SSE::Xmm4f tmp2; tmp2 = SSE::shuffle< 2, 3, 2, 3 >( tmp1, tmp2 ); tmp2 = addss( tmp2, tmp1 ); tmp1 = SSE::shuffle< 1, 0, 0, 0 >( tmp1 ); tmp2 = addss( tmp2, tmp1 ); return tmp2; } inline Vector3d vectorp(const Vector3d& l, const Vector3d& r) { SSE::Xmm4f tmp1( SSE::shuffle< 2, 0, 1, 3 >( l.v ) ); SSE::Xmm4f tmp2( SSE::shuffle< 1, 2, 0, 3 >( r.v ) ); SSE::Xmm4f tmp3( tmp1 * tmp2 ); tmp1 = SSE::shuffle< 2, 0, 1, 3 >( tmp1 ); tmp2 = SSE::shuffle< 1, 2, 0, 1 >( tmp2 ); tmp1 *= tmp2; tmp1 -= tmp3; return tmp1; } inline bool operator==(const Vector3d& l, const Vector3d& r) { return !( ( l.v != r.v ) & 7 ); // mask unused vector element } inline bool operator!=(const Vector3d& l, const Vector3d& r) { return ( l.v != r.v ) & 7; } #endif // #ifndef VECTOR3D_H_INCLUDED auf die verwendung der 4. koordinate hab ich verzichtet, weil das zusätzlichen code erfordert. im zusammenhang mit matrixoperationen muss man dann davon ausgehen, dass diese koordinate 1 sein soll, unabhängig davon, was tatsächlich drin steht - das sollte auch dort code sparen. *= rsqrt(.. ist übrigens deutlich schneller als /= sqrt(.. da rsqrt genauso schnell wie eine divison ist, allerdings ist es auch deutlich ungenauer (allerdings genauer als der workaround in dem anderen thread), man vergleiche einfach mal vec.normalize() mit vec /= vec.length(). im übrigen würde mich interessieren, ob das alles hier bei jemandem einen messbaren vorteil bringt
R

int 16h macht Probleme
• Richter

5

0
Stimmen

5
Beiträge

566
Aufrufe

R

BIOS Interrupts funktionieren nur im Real-Mode (zB DOS). Linux, Windows (seit 95?) und alle (größeren) Betriebssysteme, die seit dem 80286/80386er für PCs rausgekommen sind, sind Protected-Mode Betriebssysteme.
H

Inline Assemlber - xor Version
• HaJo.

5

0
Stimmen

5
Beiträge

526
Aufrufe

C

das könnte z.b. so aussehen: inline void xor_bytes(unsigned char *pDest, unsigned char *pSrc, size_t len) { while( len && ( size_t( pDest ) & ( 4 * sizeof( unsigned int ) - 1 ) ) ) { *pDest++ ^= *pSrc++; ++len; } size_t len2 = len / ( 4 * sizeof( unsigned int ) ); while( len2-- ) { *((unsigned int*)pDest)++ ^= *((unsigned int*)pSrc)++; *((unsigned int*)pDest)++ ^= *((unsigned int*)pSrc)++; *((unsigned int*)pDest)++ ^= *((unsigned int*)pSrc)++; *((unsigned int*)pDest)++ ^= *((unsigned int*)pSrc)++; } len &= ( 4 * sizeof( unsigned int ) - 1 ); while( len-- ) *pDest++ ^= *pSrc++; } ob sich der aufwand überhaupt lohnt, hängt nat. auch von der typischen länge ab.
S

Meta-Daten auslesen
• sevobal

5

0
Stimmen

5
Beiträge

693
Aufrufe

S

Okay, das hört dsich doch schonmal gut an! Danke!
?

Guter Assembler
• Gast

8

0
Stimmen

8
Beiträge

733
Aufrufe

N

BTW: FAQ
H

ESP sichern?
• hackbert

7

0
Stimmen

7
Beiträge

588
Aufrufe

C

sicherlich ist das langamer als das ergebnis des compilers - ich nehme eher an, dass es mehr um den lehreffekt ging. sonst könnte man gleich eine komplettlösung hinknallen: __declspec( naked ) int __fastcall ackermannASM(unsigned x, unsigned y) { __asm { test ecx, ecx // x == 0 ? jz _x_is_zero test edx, edx // y == 0 ? __2: jz _y_is_zero __1: push ecx dec edx call __2 pop ecx mov edx, eax dec ecx jz _x_is_zero // tail recursion test edx, edx jnz __1 _y_is_zero: dec ecx mov edx, 1 jnz __1 // tail recursion _x_is_zero: lea eax, [ edx + 1 ] ret }; } lerneffekt = 0; man könnte es genausogut iterativ machen
?

Problem mit Inline Assembler + SSE
• Gast

13

0
Stimmen

13
Beiträge

1311
Aufrufe

C

die funktion geht davon aus, dass sich die x,y,z koordinaten jeweils in [0] [1] bzw [2] befinden, das ergebnis hat das selbe format, der 4te wert wird hier nicht benötigt - im ergebnis ist er immer 0 (wenn es nicht gerade zum überlauf kommt, bzw. er vorher schon NaN war).
T

befäle als hexsazahl?
• TaccoGo

11

0
Stimmen

11
Beiträge

1230
Aufrufe

M

legastheniker sind oft sehr intelligente menschen björn, der leichter legastheniker is
E

prefetch ab 3dnow!
• eviluser

5

0
Stimmen

5
Beiträge

573
Aufrufe

M

es heißt, dass in manchen situationen ein explizites prefetch die anwendung sogar langsamer machen könnte, weil der prozessor seine eigene optimierung verwirft. und heutige prozessoren optimieren schon. branch prediction is da das schlagwort. er überlegt sich, wo es im code weiter geht und läd dann die dafür nötigen daten schon vorher in den cache (nicht immer aber meistens). wenn man davon ausgeht, dass man ziemlich unvorhersagbar herumspringt, könnte prefetch sinn machen. björn
?

Optimierung noch weiter möglich ohne Genauigkeitsverlust?
• Gast

12

0
Stimmen

12
Beiträge

1049
Aufrufe

C

die behauptung, dass fdiv 20mal langsamer als mul ist ist absolut unhaltbar: hier mal die latenzzeiten wichtiger befehle für athlon 64 (athlon xp dürfte ähnlich sein): FADD 4 FDIV 16/20/22 - je nach genauigkeit - siehe _controlfp(... ) FMUL 4 FSQRT 35 FLD 2 +2 bei speicheroperanden und für P4 Northwood(Prescott): FADD 5(6) FDIV 23/38/43(30/40/44) FMUL 7(8) FSQRT 23/38/43(30/40/44) bei float-genauigkeit ist fdiv also höchstens viermal langsamer als fmul - das macht diese fdiv funktion völlig wertlos - durch den funktionsoverhead und die speicheroperanden ist es definitiv wesentlich langsamer als eine normale division mit geringer genauigkeit. entscheidend ist dabei nicht die größe der operanden, sondern die vorher eingestellte genauigkeit der fpu. für sqrt dürfte das ergebnis ähnlich aussehen. was sonstige optimierungen angeht - wie ich bereits anmerkte: wenn inline assembler, dann den gesamten ausdruck (bzw. die gesamte schleife), der nat. bereits vorher geeignet mathematisch aufbereitet werden sollte. andernfalls wird der entstehende overhead durch funktionscalls den zeitgewinn in aller regel übersteigen.
S

Wie scnell ist der Paralellport am PC?
• spacehelix

3

0
Stimmen

3
Beiträge

542
Aufrufe

D

ist aber nicht so ganz richtig. Der Centronics-Port (EPP) arbeitet mit 500 KBit/s bis 2MBit/s. Standardprotokolle werden nicht von zufälligen BUS-Geschwindigkeiten abhängig gemacht.. außerdem gab es schon vor dem ISA-Bus Computer, Drucker und ja, auch den Centronics-Port...
W

ASM-Anfänger hat Probleme mit MASM
• Wolle.

3

0
Stimmen

3
Beiträge

730
Aufrufe

W

Ahhh ok, vielen dank!!! Gruß Wolle.

97 / 154

Assmebler und Interrupts • Gast

Bitmap Routine • sevobal

8 bits stellen eine Ziffer dar??? • Tauboga

Integer oder float vom µC an PC schicken? • Gast

SSE abs() • Kyon

Bildschirmasugabe in Vesa • sevobal

segmente in NASM • otze

Frage zum Pe-Format • Surkevin

kleiner C++ Wrapper für SSE • camper

int 16h macht Probleme • Richter

Inline Assemlber - xor Version • HaJo.

Meta-Daten auslesen • sevobal

Guter Assembler • Gast

ESP sichern? • hackbert

Problem mit Inline Assembler + SSE • Gast

befäle als hexsazahl? • TaccoGo

prefetch ab 3dnow! • eviluser

Optimierung noch weiter möglich ohne Genauigkeitsverlust? • Gast

Wie scnell ist der Paralellport am PC? • spacehelix

ASM-Anfänger hat Probleme mit MASM • Wolle.

Assmebler und Interrupts
• Gast

Bitmap Routine
• sevobal

8 bits stellen eine Ziffer dar???
• Tauboga

Integer oder float vom µC an PC schicken?
• Gast

SSE abs()
• Kyon

Bildschirmasugabe in Vesa
• sevobal

segmente in NASM
• otze

Frage zum Pe-Format
• Surkevin

kleiner C++ Wrapper für SSE
• camper

int 16h macht Probleme
• Richter

Inline Assemlber - xor Version
• HaJo.

Meta-Daten auslesen
• sevobal

Guter Assembler
• Gast

ESP sichern?
• hackbert

Problem mit Inline Assembler + SSE
• Gast

befäle als hexsazahl?
• TaccoGo

prefetch ab 3dnow!
• eviluser

Optimierung noch weiter möglich ohne Genauigkeitsverlust?
• Gast

Wie scnell ist der Paralellport am PC?
• spacehelix

ASM-Anfänger hat Probleme mit MASM
• Wolle.