Bioinformatics1 (Subject) / 1.Vorlesung (Lesson)
There are 24 cards in this lesson
3.Semester
This lesson was created by Inimini.
This lesson is not released for learning.
- Entwicklung der Genbank eingespeißte Informationen wachsen stark an
- Welche Fortschritte der Genomanalyse waren bedeutend ? - Gel-basierende Systeme -> manuel stab gel kilobases pro Tag 10 -> automated stab gel 100 - Kapillar Sequenzing -> erste Generation mehr als 100 -> zweite Generation von Kappilarsequenzing 1000 - massiv paralleles Sequenzing -> mikrowell Pyrosequenzing 100000 -> kurze lese Sequenzen 10000000 -> möglicher Weise bald einzelne Moleküle ???
- Existierende Sequenzingtechnologien: Sanger (1977) -> PCR (Sequenzing durch Synthese) ; Leselänge: 1000 Basenpaare 454 (2004) -> Emulsion PCR (Pyrosequenzing) ; Gb pro Run: 0,7 ; Dauer: 1Tag; Leselänge: 1000Basenpaare; Kosten: 6000 $ Illumina (2006) -> Brückenverstärkung (Sequenzieren bei Synthese) ; Gb pro Run: 600 ; Dauer: 11 Tage ; Leselänge: 150 Basenpaare; Kosten: 23000$ SOLiD (2008) -> Emulsion PCR (Ligationsbasierend (Verknüpfung von mehreren Komponenten)) ; Gb pro Run: 240 ; Dauer: 10Tage; Leselänge: 50 Basenpaare; Kosten: 5000$ Ion Torrents (2010) -> Emulsion PCR ( Ionen Halbleiter); Gb pro Run: 32; Dauer: 2Stunden; Leselänge: 100Basenpaare; Kosten: 1000$ PacBio (2011) -> non (einzelne Moleküle sequenziert durch Synthese) ; Gb pro Run: 0,23 ; Dauer: 2 Stunden; Leselänge: 5000Basenpaare; Kosten: 400 $ -> Sequenzieren wird immer billiger und dauert immer kürzer
- Tendenz von bereits entschlüsselten Genomen viele Bakteriengenome entschlüsselt -> Plasmide sind sehr kurz nur wenige eukaryotische Genome, da sehr lang
- Mensch vs. Computer schlau <-> dumm langsam <-> schnell fehleranfähig <-> sehr akurat liebt keine wiederholenden Aufgaben <-> versteht keine menschliche Sprache und braucht Instruktionen auf eine spezielle Weise
- Computersprache: Algorithmen eine schrittweise funktionierende Problemlösungsprozedur mit einer etablierten Rechenprozedur zur Lösung eines Problems mit einer begrenzten Anzahl von Schritten Beispiel: Schuhe anziehen (Algorithmus) 1.zwei gleiche Schuhe finden 2.checken ob man einen linken und rechten hat 3. checken ob sie die gleiche Größe haben 4. checken ob es die richtige Größe hat 5. rechten Schuh anziehen 6. linken Schuh anziehen 7.Schuhe schnürren
- Bioinformatik als Interaktion zwischen folgenden Disziplinen: Molekularbiologie, Statistik, Molekulare Evolution, Informationstechnologie
- Bioinformatik Definition Suche, Entwicklung und Anwendung von Rechentools und Herangehensweisen für die Ausdehnung des Nutzen von biologischen Daten, dazu gehören jene zum erwerben, speichern, organisieren, archivieren, analysieren oder visulazieren von solchen Daten. Das Ziel ist es biologische Entdeckung zu ermöglichen basierend auf bereits existierenden Informationen oder in anderen Worten biologische Daten in Informationen und eventuell in Wissen zu transformieren.
- Biologische Datenbanken - organisieren Gruppen von großen von Daten; mormalerweise gekoppelt mit Sofware, die Datensuche, Informationsgewinnung und Datenupdate ermöglichen. - Datenbanken werden charakterisiert durch einfachen Datenzugriff und die Möglichkeit nur erwünschte Informationen zu extrahieren.
- Informationen in Datenbanken Informationen in Datenbanken und Quellen beinhalten viele verschiedene Arten von Informationen. Jeder Gegenstand eines Eintrags wird nur als Eintrag geführt. Unbekümmert vom Typ der Quelle enthält jeder Eintrag 2 Hauptteile, die jeweils nochmal in 2 Teile gegliedert sind:-Beschreibung der Information- Anmerkung ->Beschreibung ->Literaturhinweise -die unbearbeiteten Daten- Sequenzen und Beobachtungen ->die am meist nützlichen Information ist häufig eine Bemerkung unterstützt mit unbearbeiteten Daten, ein Grundgerüst zum organisieren dieser betreuten Informationen.
- historischer Blick auf Datenbanken -erste Systeme waren Ordner basierend: ein Eintrag-ein Ordner, Abfrage basieren auf den Funktionen des Computersystems wie Grep (Computerprogramm zum Suchen) -Nachteil des ordnerbasierenden System: Nebenläufigkeit (mehrere Prozesse sin nebeneinader möglich), keine möglichkeit Übereinstimmung zu überprüfen -> sind die Werte in den zweckmäßigen Bereichen?; Sind alle notwendigen Informationen aktualisiert?; nicht möglich die Anfragen zu limitieren zu bestimmten Bereichen; Anfragen und hauptsächlich Updates können langsam sein und spezielle Programmfähigkeiten erforderlich machen
- modernes Datenbankensystem RDBMS tabellarisches Datenbankenmanagmentsystem (RDBMS): eingeführt in den 1970er; commenziell, serienmäßig produzierte Software (Oracle, DB2,MySQL) ; hoch deklarierte Sprache; Nebenläufigkeit; Abschlusskontrolle (Computer kann z.B sehen, ob es sich bei einer Zahl um ein Datum handelt oder nicht) ; Einheitlichkeit
- tabellarische Datenbanken: ein Beispiel verschiedene "Tische" mit verschiedenen Daten, die miteinander verbunden sind.
- kritische Sachverhalte von biologischen Datenbanken -Erläuterungen ->Korektheit, Widerspruchsfreiheit, Qualität -archivierungs Qualität -> Backups von der Datenbank -Updates -> unbearbeitete Daten, Bemerkungen
- kritisches Sachverhalten der Korektheit von Bemerkungen in Datenbanken -Korektheit: bei vielen Genen ist zuerst notiert, dass sie auf Sequenzvergleichen basieren. Die Bemerkung werden kopiert von einer ähnlichen Sequenz zu einer neuen. Das kann Fehler bedeuten: -> Vergleich wurde möghlicherweise gemacht als die Daten unvollständig waren -> Falls Sequenzen inkorekt bezeichnet wurden, kann das Fehler in der Datenbank hervorrufen
- kritische Sachverhalte zur Qualität der Bemerkungen in der Datenbank: Wer macht die Bemerkungen? -> Experten und Laien in der Datenbank ->viele Datenbanken haben festgelegte Expertengruppen zum fördern erläuterter Gene und Genfamilien, aber es gibt keine Begutachtung von Informationen in Datenbanken Welcher Wortschatz wird verwendet?
-
- kritische Sachverhalte zur Archivqualität von Datenbanken Datenbanken sind zwiegespalten zwischen dem Versuch archivierend zu sein (einfach Informationen wie sie Experten publizieren zu berichten -> primäre Datenbank) oder betreut zu sein (Bereitstellung der besten redaktionell geprüften Daten zu einem Thema -> sekundäre Datenbank) Kann der gleiche Eintrag später wiedergefunden werden? ->Eintrittsnummer ist meistens sicherer als Einstellungname oder Ortsname -> viele Datenbanken notieren keine Veränderungen in den Daten! Was man heute findet, kann morgen anders sein.
- kritische Sachverhalte zu Updates von Daten in Datenbanken Wie oft werden Updates gemacht? große Datenbanken nehmen direkte Einreichungen Generell kann nur der orginale Einsteller einen Eintrag ändern, auch wenn man nachweisen kann, dass der Eintrag fehlerhaft ist. Das ist gebunden an die Frage, ob archivierende oder kuratierte Datenbanken besser sind. Wie werden Bemerkungen geupdated wenn neues Wissen verfügbar ist? Wer entscheidet das ?
- Informationen zu sekundären (spezialisierten) Datenbanken -viele neue biologische Datenbanken -jedes Jahr bestimmt die erste Ausgabe von Nucleic Acids Research die biologischen Datenbanken -> in diesem Jahr 1512 (150 mehr als letztes Jahr) -> 1993 waren es nur 24 Datenbanken
- evolutionäre Basis von Bioinformatik Beispiel: ein Gen wird durch Genduplikation verdoppelt. Nach einer Zeit bilden sich aus den verdoppelten Genen zwei neue Arten. Inerhalb dieser Arten kommt es wieder zur Duplikation. Beim zweiten Gen kommt es zur einer Duplikation des bereits duplizierten Gens. Diese Abstammungsgeschichte kann durch Genvergleiche nachvolzogen werden-> Bioinformatik hilft beim vergleichen (Datenbanken !!!) Ermittlung von homologen Strukturen möglich
- Homologie auf dem molekularen Level 2 Sequenzen, die eine gemeinsame Herkunft teilen. Signifikante Sequenzgemeinsamkeiten suggestieren normalerweise Homologie, manchmal können Sequenzgemeinsamkeiten sich durch Zufall ereignen und manche homologen Sequenzen können über die nachweisbare Ähnlichkeit hinaus auseinanderlaufen.
- ortholog Gene oder Sequenzen, die entstanden sind durch Artbildung mit anschließenden auseinanderdriften der Sequenzen. Solche Gene können möglicherweise nicht nebeneinander in einem Genom existieren. Der letzte gemeinsame Vorfahre von zwei orthologen Sequenzen existiert vor der Artbildung. Zwei Gene sind zueinander ortholog, wenn ihr gemeinsamer Urahn ein Artbildungsereignis durchlaufen hat.
- paralog Gene und Sequenzen, die durch Genduplikation mit anschließenden Sequenzdrift entstanden sind. Solche Gene können nebeneinander im selben Gen om voneinander abstammen und auseinanderklaffen. Wenn auf die Genduplikation eine Artbildung folgen, dann existieren möglicherweise zwei paraloge Gene in zwei verschiedenen Genomen. Der letzte gemeinsame Vorfahre von zwei paralogen Sequenzen existiert vor der Genduplikation. Zwei Gene sind zueinander paralog, wenn ihr gemeinsames Vorläufergen eine Genverdopplung durchlaufen hat.
- Vergleichbarkeit von Genomen J.Monod: What iys true for E.coli is also true for elephant. (1961) D.Botstein: What is true for yeast is also true for human (1988) ->diese Aussage ist falsch: Was für eine Maus gilt muss nicht für Menschen gelten. Bsp. Contaganskandall