Genomanalyse HIV

ingobulla

Hallo,

ich bin 29 Jahre alt und arbeite als Postdoktorand in der Abteilung Bioinformatik der Uni Göttingen im Bereich Genomanalyse von HIV. Dummerweise ist es für uns relativ schwierig Nachwuchs mit Fähigkeiten im Bereich C++-Programmierung zu finden (wir haben ziemlich viele Bio-Studenten und eher wenig Informatiker/Mathematiker).

Da ich ein einigermaßen überschaubares Projekt hätte, habe ich mich gefragt, ob man hier im Forum jemand finden kann, der an sowas Interesse hat. Bevor ich das Projekt im Einzelnen schildere, hätte ich gerne erstmal Rückmeldung, ob das überhaupt für sinnvoll/aussichtsreich gehalten wird. Wesentliche fürs Projekt ist:
- es erfordert kaum biologisches Verständnis
- man sollte mit Stochastik nicht auf Kriegsfuss stehen (jemand, der z.B. Physik oder Informatik studiert und sich mit Mühe durch die Mathe-Vorlesungen gequält hat, wäre nicht der richtige)
- aus Effizienzgründen muss es in C++ geschrieben werden
- Bezahlung gibt es keine oder nur ziemlich geringe (könnte sein, dass ich dafür Hiwi-Gelder kriegen könnte)
- wenn das Ganze Erfolg hat (d.h. man kann die Ergebnisse veröffentlichen), kommen alle Projektbeteiligte als Autoren auf die Veröffentlichung

Gregor

ingobulla schrieb:

- man sollte mit Stochastik nicht auf Kriegsfuss stehen (jemand, der z.B. Physik oder Informatik studiert und sich mit Mühe durch die Mathe-Vorlesungen gequält hat, wäre nicht der richtige)

Ui, ganz schön hohe Anforderungen wenn Dir ein einfaches Bestehen der Stochastik-lastigen Veranstaltungen in diesen Studiengängen nicht reicht. An was für Leute hast Du denn so gedacht? Mathestudenten mit Schwerpunkt auf Stochastik?

Blue-Tiger

Also ich bin interessieren, kommt aber drauf an was denn genau zu machen ist & mit welchem Arbeits-/ Zeitaufwand zu rechnen ist. Mach selbst grad meinen MSc in Bioinformatik, was unserorts eher Mathe/Info-lastig (stark Machine-Learning orientiert) ist, von daher glaub ich, ich bring den noetigen (Statistik-) Background mit. Schreib doch mal ein bisschen mehr ( wenn du's nicht hier machen willst, dann entweder ICQ 93506457 oder mail an Blue Bindestrich Tiger Klammeraffe Gmx Punkt Net).

ingobulla

Also Mathestudent mit Schwerpunkt auf Stochastik wäre natürlich optimal, aber auch ziemlich unrealistisch hier zufällig zu finden. Es geht auch nicht darum, dass man schon ein erhebliches Vorwissen in Bereich Stochastik hat. Da ich aber mit probabilistischen Ansätzen arbeite, wäre es gut, wenn man über ein gewisses intuitives Grundverständnis von Wahrscheinlichkeiten verfügt (oder es entwickeln kann). Ich könnte mir vorstellen, dass da Mathe-LK schon reicht. Letztlich gehe ich aber davon aus, dass wenn man zu den Leuten gehört, die Mathe überhaupt nicht mögen und - z. B. im Studium - als notwendiges und ziemlich lästiges Übel ansehen, mit dem Projekt nicht glücklich wird.

ingobulla

zu Blue-Tiger:

Ich schreibe was zusammen und werde es dann wahrscheinlich auf eine Website packen (PDFs kann man hier wohl nicht einbinden).

rapso

ich denke dass einige hier, genau wie ich, erstmal genauer wissen wollen wuerden worum es geht, besonders was zu machen waere, aus der programmiersicht. aber auch was das ziel dieser genomanalyse ist bzw worin sie sich von den vermutlich anderen analysen unterscheidet denen man das HIV unterwarf (ich denke mal das haben schon viele gemacht?).

ingobulla

Hier nun endlich die Projektbeschreibung:

http://www.geocities.com/ingobulla/temporarypreviewfile.html?1218971789203

Ich hoffe, dass es einigermaßen verständlich ist und klar wird, was die wesentliche Idee ist.

rapso schrieb:

ich denke dass einige hier, genau wie ich, erstmal genauer wissen wollen wuerden worum es geht, besonders was zu machen waere, aus der programmiersicht.

Auf den programmiertechnischen Teil des Projekts bin ich noch nicht wirklich eingegangen (sind aber ja auch so schon mehr als 3 Seiten). Wenn jemand nach Lektüre obiger Projektbeschreibung noch Details zum Programmierteil des Projekts erhalten möchte, kann ich das gerne nachliefern.

rapso schrieb:

aber auch was das ziel dieser genomanalyse ist bzw worin sie sich von den vermutlich anderen analysen unterscheidet denen man das HIV unterwarf (ich denke mal das haben schon viele gemacht?).

Ich hoffe das Ziel des Projekts wird durch meine Beschreibung klar. Was den Unterschied zu bisherigen Ansätzen betrifft, sollte man wissen, dass zwar intensiv im Bereich HIV geforscht wird, es aber sehr wenige Gruppen gibt, die sowohl über Kompetenzen im Bereich der C++-Programmierung verfügen als auch in der Lage sind, mathematisch komplexere Lösungsansätze zu entwickeln (ich bin arbeite zwar in der Bioinformatik, habe aber bis ein Jahr nach meiner Promotion in einem theoretischeren Teil der Mathematik geforscht). Daher ist die Konkurrenz in diesem Bereich alles andere als zahlreich: Es gibt nur einen Konkurrenz-Algorithmus und der ist eher einfach gestrickt.

NetZwerg

Moin,
kann man die Umsetzung des bereits existierenden Algorithmus irgentwo einsehen, bzw. downloaden?

MFG

rapso

hab ich das richtig verstanden:
Ihr koennt also Segmente einteilen und zu Subtypen zuweisen (mit 50 bekannten Algorithmen) aber ihr koennt nicht bestimmen, ob die Teile ein unbekannter bzw bekannter Subtype sind und falls bekannt, von welchem Subtyp die sind?

was bringt diese ganze Klassifizierung am Ende eigentlich?

ingobulla

NetZwerg schrieb:

kann man die Umsetzung des bereits existierenden Algorithmus irgentwo einsehen, bzw. downloaden?

Ja, auf

http://www.hiv.lanl.gov/content/sequence/phyloplace/PhyloPlace.html

wird ein Web-Interface des existierenden Algorithmus zur Verfügung gestellt.

rapso schrieb:

hab ich das richtig verstanden:
Ihr koennt also Segmente einteilen und zu Subtypen zuweisen (mit 50 bekannten Algorithmen) aber ihr koennt nicht bestimmen, ob die Teile ein unbekannter bzw bekannter Subtype sind und falls bekannt, von welchem Subtyp die sind?

Ich vermute, hier ist dir ein Typo unterlaufen: Wenn es stattdessen

... und falls unbekannt, von welchem Subtyp die sind?

hieße, stimmt das genau so.

rapso schrieb:

was bringt diese ganze Klassifizierung am Ende eigentlich?

Dem Anwender hilft es, seine HIV-Sequenzen besser einordnen zu können. Man geht davon aus, dass die Zugehörigkeit zu einem Subtyp Einfluss auf
- Übertragbarkeit
- Virulenz
- Krankheitsverlauf
- Medikamentenresistenz
hat. Des Weiteren erlaubt die Klassifikation von HIV nach Subtypen, den geographischen Verlauf der Epidemie zu studieren.

rapso

ingobulla schrieb:

Ich vermute, hier ist dir ein Typo unterlaufen: Wenn es stattdessen

... und falls unbekannt, von welchem Subtyp die sind?

hieße, stimmt das genau so.

nein, das ist eher das was mich ein wenig verwirrt. im PDF bei der klassifizierung bei punkt 3.2. steht:
"das erste und dritte Segement zu Subtype A gehoert, das zweite und vierte zu G"

und 3. gehoert ja zu den punkten mit den 50bekannten algorithmen.

bei 4. steht aber wieder 'von einem Subtyp stammt, der bisher unbekannt ist'.

aber abgesehen davon, rein aus programmiersicht:
ihr habt eine datenbank mit vielen permutationen von sequenzen die klassifiziert sind und nun soll man fuer eine gegebene sequenz AACT... die am besten passende finden?
soll dabei auch ein offset in den sequenzen der DB angenommen werden oder sind die offsets schon fest vorgegeben durch den input? (also mit einem der 50vorherigen algorithmen fest bestimmt?)

wie gross ist der suchraum/datenbank? wie gross ist eine sequenz in etwa mit der man sucht?

[edit]
danke fuer die eklaerung, ich hab noch ein paar nette informationen dazu gefunden http://www.avert.org/hivtypes.htm (falls andere daran auch interesse haben)

ingobulla

rapso schrieb:

nein, das ist eher das was mich ein wenig verwirrt. im PDF bei der klassifizierung bei punkt 3.2. steht:
"das erste und dritte Segement zu Subtype A gehoert, das zweite und vierte zu G"

und 3. gehoert ja zu den punkten mit den 50 bekannten algorithmen.

bei 4. steht aber wieder 'von einem Subtyp stammt, der bisher unbekannt ist'.

Ich bin mir nicht sicher, ob ich das richtig verstanden habe: Mit

ob das Genom in Teilen oder in Gänze von einem Subtyp stammt, der bisher unbekannt ist (von dem also bisher keine Sequenzen sequenziert wurden)

ist gemeint, dass die Teile der HIV-Sequenz idenfifiziert werden sollen, die zu keinem bisher bekannten Subtyp passen und von daher als unbekannt zu klassifizieren wären.

rapso schrieb:

ihr habt eine datenbank mit vielen permutationen von sequenzen die klassifiziert sind und nun soll man fuer eine gegebene sequenz AACT... die am besten passende finden?

Nein, nicht ganz. Man könnte zwar die Eingabesequenz mit jeder einzelnen Sequenz aus der Datenbank vergleichen, das ist aber eine eher unpräzise Methode. Bei dem von unserer Abteilung entwickelten Algorithmus wird basierend auf den Datenbank-Sequenzen ein probabilistisches Modell für jeden Subtyp erstellt. Mittels dieser Modelle kann man dann überprüfen, wie plausibel es ist, dass ein bestimmtes Teilstück der Eingabesequenz zu einem bestimmten Subtyp gehört (allerdings ist dieses Problem ja schon durch die bestehenden Algorithmen gelöst).

rapso schrieb:

soll dabei auch ein offset in den sequenzen der DB angenommen werden oder sind die offsets schon fest vorgegeben durch den input? (also mit einem der 50vorherigen algorithmen fest bestimmt?)

Ich würde es für am vernünftigsten halten, die Offsets durch einen der bestehenden Algorithmen zu bestimmen.

rapso schrieb:

wie gross ist der suchraum/datenbank? wie gross ist eine sequenz in etwa mit der man sucht?

Die Datenbank besteht aus ca. 1500 Sequenzen voller Länge (d.h. des ganzen HIV-Genoms) und ca. 180000 Teilsequenzen. Die Eingabesequenz hat eine Länge von ca. 10000 Basepairs (wenn es sich um eine Sequenz voller Länge handelt) bzw. zwischen 100 und 10000 Basepairs (wenn man mit einer Teilsequenz sucht).

gentoo

an sich hört sich das interessant an. sucht ihr evtl. auch noch einen biologen mit recht umfassenden c++ kenntnissen? zum anforderungsprofil kann ich mich schlecht äußern, weil ich bisher eigentlich alle probleme lösen konnte die mir bisher begegnet sind, allerdings versteht sichs von selbst, dass ich als biologiestudent weniger mathematik habe als informatiker.

ingobulla

gentoo schrieb:

an sich hört sich das interessant an. sucht ihr evtl. auch noch einen biologen mit recht umfassenden c++ kenntnissen? zum anforderungsprofil kann ich mich schlecht äußern, weil ich bisher eigentlich alle probleme lösen konnte die mir bisher begegnet sind, allerdings versteht sichs von selbst, dass ich als biologiestudent weniger mathematik habe als informatiker.

Sorry, Blue-Tiger hat das Projekt gerade definitiv übernommen und mit mehr als einer Person daran zu arbeiten macht aufgrund der Projektgröße wenig Sinn.

Wir werden aber in Zukunft wahrscheinlich versuchen, noch weitere Projekte im selben Themengebiet zu realisieren. Falls du daran ggf. Interesse hast, wäre es wahrscheinlich sinnvoll, du schickst mir mal deine Email-Adresse. Meine ist

"ingo", gefolgt von "@", gefolgt von "gobics.de"