Bioinformatik: Grundlagen, Algorithmen, Anwendungen

This document was uploaded by one of our users. The uploader already confirmed that they had the permission to publish it. If you are author/publisher or own the copyright of this documents, please report to us by using this DMCA report form.

Simply click on the Download Book button.

Yes, Book downloads on Ebookily are 100% Free.

Sometimes the book is free on Amazon As well, so go ahead and hit "Search on Amazon"

Author(s): Rainer Merkl
Edition: 3
Publisher: Wiley
Year: 2015

Language: German
Pages: 629

Cover
Titelseite
Impressum
Inhaltsverzeichnis
Vorwort
Teil I Grundlagen – Biologie und Datenbanken
1 Biologische Grundlagen
1.1 DNA
1.2 Genetischer Code und Genomkomposition
1.3 Transkription
1.4 RNA
1.5 Proteine
1.6 Peptidbindung
1.7 Konformation von Aminosäureseitenketten
1.8 Ramachandran-Plot
1.9 Hierarchische Beschreibung von Proteinstrukturen
1.10 Sekundärstrukturelemente
1.11 -Helix
1.12 -Faltblätter
1.13 Supersekundärstrukturelemente
1.14 Proteindomänen
1.15 Proteinfamilien
1.16 Enzyme
1.17 Proteinkomplexe
1.18 Fachbegriffe
Literatur
2 Sequenzen und ihre Funktion
2.1 Definitionen und Operatoren
2.2 DNA-Sequenzen
2.3 Protein-Sequenzen
2.4 Vergleich der Sequenzkomposition
2.5 Ontologien
2.6 Semantische Ähnlichkeit von GO-Termen
2.6.1 Bewertung mittels informationstheoretischer Ansätze
2.6.2 Vergleich mit einer graphentheoretischen Methode
Literatur
3 Datenbanken
3.1 Nukleotidsequenz-Datenbanken
3.2 RNA-Sequenz-Datenbanken
3.3 Proteinsequenz-Datenbanken
3.4 3D-Struktur-Datenbanken
3.5 SMART: Analyse der Domänenarchitektur
3.6 STRING: Proteine und ihre Interaktionen
3.7 SCOP: Strukturelle Klassifikation von Proteinen
3.8 Pfam: Kompilation von Proteinfamilien
3.9 COG und eggNOG: Gruppen orthologer Gene
3.10 Weitere Datenbanken
Literatur
Teil II Lernen, Optimieren und Entscheiden
4 Grundbegriffe der Stochastik
4.1 Grundbegriffe der beschreibenden Statistik
4.2 Zufallsvariable, Wahrscheinlichkeitsmaß
4.3 Urnenexperimente und diskrete Verteilungen
4.4 Die Kolmogoroffschen Axiome
4.5 Bedingte Wahrscheinlichkeit, Unabhängigkeit, Satz von Bayes
4.6 Markov-Ketten
4.7 Erwartungswert, Varianz
4.8 Wichtige Wahrscheinlichkeitsverteilungen
4.8.1 Diskrete Verteilungen
4.8.2 Totalstetige Verteilungen
4.9 Schätzer
4.10 Grundlagen statistischer Tests
4.11 Eine optimale Entscheidungstheorie: Die Neyman-Pearson-Methode
Literatur
5 Bayessche Entscheidungstheorie und Klassifikatoren
5.1 Bayessche Entscheidungstheorie
5.1.1 Ein Beispiel: Klassifikation der Proteinoberfläche
5.1.2 Übergang zu bedingten Wahrscheinlichkeiten
5.1.3 Erweitern auf m Eigenschaften
5.2 Marginalisieren
5.3 Boosting
5.4 ROC-Kurven
5.4.1 Bewerten von Fehlklassifikationen
5.4.2 Aufnehmen einer ROC-Kurve
5.5 Testmethoden für kleine Trainingsmengen
Literatur
6 Klassische Cluster- und Klassifikationsverfahren
6.1 Metriken und Clusteranalyse
6.2 Das mittlere Fehlerquadrat als Gütemaß
6.3 Ein einfaches iteratives Clusterverfahren
6.4 k-Means-Clusterverfahren
6.5 Hierarchische Clusterverfahren
6.6 Nächster-Nachbar-Klassifikation
6.7 k nächste Nachbarn
Literatur
7 Neuronale Netze
7.1 Architektur von neuronalen Netzen
7.2 Das Perzeptron
7.3 Modellieren Boolescher Funktionen
7.4 Lösbarkeit von Klassifikationsaufgaben
7.5 Universelle Approximation
7.6 Lernen in neuronalen Netzen
7.7 Der Backpropagation-Algorithmus
7.8 Codieren der Eingabe
7.9 Selbstorganisierende Karten
Literatur
8 Genetische Algorithmen
8.1 Objekte und Funktionen
8.2 Beschreibung des Verfahrens
8.3 Der Begriff des Schemas
8.4 Dynamik der Anzahl von Schemata
8.5 Codieren der Problemstellung
8.6 Genetisches Programmieren
Literatur
Teil III Algorithmen und Modelle der Bioinformatik
9 Paarweiser Sequenzvergleich
9.1 Dotplots
9.1.1 Definition
9.1.2 Beispiel
9.1.3 Implementierung
9.1.4 Abschätzen der Laufzeit
9.1.5 Anwendungen
9.1.6 Einschränkungen und Ausblick
9.2 Entwickeln eines optimalen Alignmentverfahrens
9.2.1 Paarweise und multiple Sequenzalignments
9.2.2 Dynamisches Programmieren
9.2.3 Distanzen und Metriken
9.2.4 Die Minkowski-Metrik
9.2.5 Die Hamming-Distanz
9.3 Levenshtein-Distanz
9.3.1 Berechnungsverfahren
9.3.2 Ableiten des Alignments
9.4 Bestimmen der Ähnlichkeit von Sequenzen
9.4.1 Globales Alignment
9.4.2 Lokales Sequenzalignment
9.5 Optimales Bewerten von Lücken
9.5.1 Eigenschaften affiner Kostenfunktionen
9.5.2 Integration in Algorithmen
9.6 Namensgebung
Literatur
10 Sequenzmotive
10.1 Signaturen
10.2 Die PROSITE-Datenbank
10.3 Die BLOCKS-Datenbank
10.4 Sequenzprofile
10.5 Scores für Promotorsequenzen
10.6 Möglichkeiten und Grenzen profilbasierter Klassifikation
10.7 Sequenz-Logos
10.8 Konsensus-Sequenzen
10.9 Sequenzen niedriger Komplexität
10.10 Der SEG-Algorithmus
Literatur
11 Scoring-Schemata
11.1 Theorie von Scoring-Matrizen
11.2 Algorithmenbedingte Anforderung
11.3 Identitätsmatrizen
11.4 PAM-Einheit
11.5 PAM-Matrizen
11.6 Ein moderner PAM-Ersatz: Die JTT-Matrix
11.7 BLOSUM-Matrizen
11.8 Matrix-Entropie
11.9 Scoring-Schemata und Anwendungen
11.10 Flexible Erweiterung: Scoring-Funktionen
Literatur
12 FASTA und die BLAST-Suite
12.1 FASTA
12.1.1 Programmablauf
12.1.2 Statistische Bewertung der Treffer
12.2 BLAST
12.2.1 Konzepte und Umsetzung
12.2.2 Statistik von Alignments
12.2.3 Ausgabe der Treffer
12.3 Vergleich der Empfindlichkeit von FASTA und BLAST
12.4 Ansätze zur Performanzsteigerung
12.5 Profilbasierter Sequenzvergleich
12.6 PSI-BLAST
12.7 Sensitivität verschiedener Sequenzvergleichsmethoden
12.8 Vergleich von Profilen und Konsensus-Sequenzen
12.9 DELTA-BLAST
Literatur
13 Multiple Sequenzalignments und Anwendungen
13.1 Berechnen von Scores für multiple Sequenzalignments
13.2 Iteratives Berechnen eines Alignments
13.3 ClustalW: Ein klassischer Algorithmus
13.3.1 Grundlegende Konzepte
13.3.2 Algorithmus
13.3.3 Ein Beispiel: MSA für Trypsin-Inhibitoren
13.4 T-Coffee
13.5 M-Coffee und 3D-Coffee
13.6 Alternative Ansätze
13.7 Alignieren großer Datensätze
13.8 Charakterisierung von Residuen mithilfe von Alignments
13.8.1 Entwickeln der Scoring-Funktion
13.8.2 FRpred: Vorhersage funktionell wichtiger Residuen
13.8.3 SDPpred: Vergleich homologer Proteine mit unterschiedlicher Spezifität
13.9 Alignment von DNA- und RNA-Sequenzen
Literatur
14 Grundlagen phylogenetischer Analysen
14.1 Einteilung phylogenetischer Ansätze
14.2 Distanzbasierte Verfahren
14.2.1 Ultrametrische Matrizen
14.2.2 Additive Matrizen
14.3 Linkage-Algorithmen
14.4 Der Neighbour-Joining-Algorithmus
14.5 Parsimony-Methoden
14.6 Maximum-Likelihood-Ansätze
14.6.1 Übergangswahrscheinlichkeiten für DNA-Sequenzen
14.6.2 Empirische Modelle der Protein-Evolution
14.6.3 Berechnen der Likelihood eines Baumes
14.6.4 Quartett-Puzzle: Heuristik zum Finden einer Topologie
14.7 Grundannahmen phylogenetischer Algorithmen
14.8 Statistische Bewertung phylogenetischer Bäume
14.8.1 Verwenden von Outgroups
14.8.2 Bootstrap-Verfahren und posterior Wahrscheinlichkeiten
14.9 Alternativen und Ergebnisse
Literatur
15 Markov-Ketten und Hidden-Markov-Modelle
15.1 Ein epigenetisches Signal: CpG-Inseln
15.2 Finite Markov-Ketten
15.3 Kombination zweier Ketten zu einem Klassifikator
15.4 Genvorhersage mithilfe inhomogener Ketten
15.5 Hidden-Markov-Modelle
15.6 Der Viterbi-Pfad
15.7 Ein HMM zur Erkennung von CpG-Inseln
15.8 Der Vorwärts- und der Rückwärts-Algorithmus
15.9 Schätzen von Parametern
15.10 Der Baum-Welch-Algorithmus
15.11 Entwurf von HMMs
15.12 Verwendung und Grenzen von HMMs
15.13 Wichtige Eigenschaften von Markov-Ketten
15.14 Markov-Ketten-Monte-Carlo-Verfahren
15.14.1 Monte-Carlo-Integration
15.14.2 Metropolis-Hastings-Algorithmus
15.14.3 Simulated Annealing
15.14.4 Gibbs-Sampler
15.15 Weitere Anwendungen von Markov-Ketten
Literatur
16 Profil-HMMs
16.1 HMM-Struktur zur Beschreibung von Proteinfamilien
16.2 Suche nach homologen Sequenzen
16.3 Modellbau mit Profil-HMMs
16.4 Approximieren von Wahrscheinlichkeitsdichten
16.5 HHsearch: Vergleich zweier Profil-HMMs
16.5.1 Grundlagen des Alignments von zwei Hidden-Markov-Ketten
16.5.2 Paarweises Alignment von HMMs
16.5.3 Performanz von HHsearch
16.5.4 Strukturvorhersage mit HHsearch
Literatur
17 Support-Vektor-Maschinen
17.1 Beschreibung des Klassifikationsproblems
17.2 Lineare Klassifikatoren
17.3 Klassifizieren mit großer Margin
17.4 Kernel-Funktionen und Merkmalsräume
17.5 Implizite Abbildung in den Merkmalsraum
17.6 Eigenschaften von Kernel-Funktionen
17.7 Häufig verwendete Kernel-Funktionen
17.8 Aus Merkmalen abgeleitete Kernel-Funktionen
17.9 Support-Vektor-Maschinen in der Anwendung
17.10 Multiklassen SVMs
17.11 Theoretischer Hintergrund
Literatur
18 Vorhersage der Sekundärstruktur
18.1 Vorhersage der Proteinsekundärstruktur
18.1.1 Ein früher Ansatz: Chou-Fasman-Verfahren
18.1.2 PHD: Profilbasierte Vorhersage
18.2 Vorhersage der RNA-Sekundärstruktur
18.2.1 RNA-Sequenzen und -Strukturen
18.2.2 Freie Energie und Strukturen
18.2.3 Sekundärstrukturvorhersage durch Energieminimierung
18.2.4 Strukturen mit Schleifen
18.2.5 STAR: Einbinden eines genetischen Algorithmus
18.2.6 MEA-Verfahren zur Vorhersage von Strukturen mit Pseudoknoten
18.2.7 Strukturvorhersage mithilfe von multiplen Sequenzalignments
Literatur
19 Vergleich von Protein-3D-Strukturen
19.1 Grundlagen des Strukturvergleichs
19.2 Superposition von Protein-3D-Strukturen
19.3 SAP: Vergleich von 3D-Strukturen mit Vektorbündeln
19.4 Simulated Annealing
19.5 Superposition mithilfe von DALI
19.5.1 Scores für Substrukturen
19.5.2 Alignieren von Substrukturen
19.6 TM-Align
19.7 DeepAlign
19.8 Multiple Superpositionen
Literatur
20 Vorhersage der Protein-3D-Struktur
20.1 Threading-Verfahren
20.2 3D-1D-Profile: Profilbasiertes Threading
20.2.1 Bestimmen der lokalen Umgebung
20.2.2 Erzeugen eines 3D-1D-Profils
20.3 Wissensbasierte Kraftfelder
20.3.1 Theoretische Grundlagen
20.3.2 Ableiten der Potenziale
20.4 Rotamerbibliotheken
20.5 MODELLER
20.6 ROSETTA/ROBETTA
20.6.1 Energieterme und ihre Verwendung
20.6.2 De-novo-Strukturvorhersage mit ROSETTA
20.6.3 Verfeinerung der Fragmentinsertion
20.6.4 Modellieren strukturell variabler Regionen
20.7 Alternative Modellieransätze
20.8 Verify-3D: Bewerten der Modellqualität
Literatur
21 Analyse integraler Membranproteine
21.1 Architektur integraler Membranproteine
21.2 Spezifische Probleme beim Sequenzvergleich
21.3 Vorhersage der Topologie von Helix-Bündeln
21.3.1 HMMTOP
21.3.2 MEMSAT-SVM
21.3.3 Ein Meta-Server: TOPCONS
21.4 Vorhersage der Struktur von -Fässern
21.4.1 TMBpro
21.4.2 BOCTOPUS
21.5 Alternative Ansätze und Homologiemodellierung
21.6 Gegenwärtiger Stand bioinformatischer Methoden
Literatur
22 Entschlüsselung von Genomen
22.1 Shotgun-Sequenzierung
22.2 Erwartete Anzahl von Contigs beim Shotgun-Ansatz
22.3 Basecalling und Sequenzqualität
22.4 Assemblieren von Teilsequenzen: Klassischer Ansatz
22.4.1 Phase eins: Bestimmen überlappender Präfix/Suffix-Regionen
22.4.2 Phase zwei: Erzeugen von Contigs
22.4.3 Phase drei: Generieren der Konsensus-Sequenz
22.5 Neue Herausforderung: Assemblieren kurzer Fragmente
22.6 Annotation kompletter Genome
22.7 Metagenomik
22.7.1 Spezielle Anforderungen an die Bioinformatik
22.7.2 Minimalanforderungen für die Metagenom-Annotation
Literatur
23 Auswertung von Genexpressionsdaten
23.1 DNA-Chip-Technologie
23.1.1 Datenbanken für Genexpressionsdaten
23.1.2 Grenzen der Technologie
23.2 Analyse von DNA-Chip-Signalen
23.2.1 Quantifizierung von Expressionswerten
23.2.2 Normalisieren und Datenreduktion
23.2.3 Normalisieren über Replikate
23.3 Identifizieren differenziell exprimierter Gene
23.4 Metriken zum Vergleich von Expressionsdaten
23.5 Analyse kompletter DNA-Chip-Datensätze
23.5.1 Anwendung von Clusterverfahren
23.5.2 Validierung und Alternativen
23.6 Hauptkomponentenanalyse
23.7 Biclusterverfahren
23.7.1 ISA: Ein performantes Biclusterverfahren
23.7.2 Der Signatur-Algorithmus
23.7.3 Iterative Optimierung
23.7.4 QUBIC: Ein graphenbasiertes Biclusterverfahren
23.8 Grenzen und Alternativen bei der Expressionsanalyse
23.9 Genexpressions-Profiling
23.10 Visualisieren mithilfe von Wärmekarten
23.10.1 Der klassische Ansatz
23.10.2 ClusCor: Kombination verschiedener Datenquellen
23.11 Datenaufbereitung für systembiologische Fragestellungen
23.11.1 Bündelung von Datenbankinformation
23.11.2 Statistische Analyse der Termverteilung
23.11.3 Verwendbarkeit der Verfahren
Literatur
24 Analyse von Protein-Protein-Interaktionen
24.1 Biologische Bedeutung des Interaktoms
24.2 Methoden zum Bestimmen des Interaktoms
24.3 Analyse des Genominhaltes
24.3.1 Genfusion
24.3.2 Phyletische Muster
24.3.3 Analyse von Genfolgen
24.3.4 Performanz sequenzbasierter Methoden
24.4 Bewerten von Codonhäufigkeiten
24.5 Suche nach korrelierten Mutationen
24.5.1 Erzeugen sortierter MSA-Paare
24.5.2 Identifizieren korrelierter Mutationen
24.6 Vergleich phylogenetischer Bäume
24.6.1 Die mirror-tree-Methode
24.6.2 Korrektur des Hintergrundsignals
24.7 Vorhersage des Interaktoms der Hefe
24.8 Protein-Protein-Interaktionsvorhersagen
24.8.1 Vorhersagen basierend auf Strukturinformation
24.8.2 PrePPI: Integration zusätzlicher Merkmale
Literatur
25 Big Data: Herausforderungen und neue Möglichkeiten
25.1 Klassifikation mit Random Forests
25.1.1 Entscheidungsbäume
25.1.2 Berechnen der Topologie
25.1.3 RF-Algorithmus
25.1.4 Theoretische Klassifikationsleistung eines RFs
25.1.5 Problemlösungen für konkrete Anwendungen
25.1.6 Auswahl informativer Eigenschaften
25.1.7 Bioinformatische Anwendungen
25.2 Sequenzbasierte Vorhersage der Protein-3D-Struktur
25.2.1 Experimentelle Proteinstrukturaufklärung
25.2.2 Berechnen von Kovariationssignalen
25.2.3 PSICOV: Vorhersage räumlich benachbarter Residuen-Paare
25.2.4 Vorhersage der 3D-Struktur mithilfe von Kontaktinformation
25.2.5 Alternative Nutzung von Kopplungssignalen
25.3 Berechnen einer Feinstruktur großer Proteinfamilien
25.3.1 MCL: Clustern mithilfe stochastischer Matrizen
25.3.2 Cytoscape: Visualisierung von Netzwerk-Clustern
25.4 Positionierung von Nukleosomen
25.4.1 Chromatin und Nukleosomen
25.4.2 NucleoFinder: Statistischer Ansatz zur Vorhersage von Nukleosomen-Positionen
25.5 Analyse des menschlichen Genoms mithilfe von ENCODE-Daten
25.5.1 Datentypen
25.5.2 Genom-Browser
Literatur
26 Zum Schluss
26.1 Informatik in schwierigem Umfeld
26.2 Ungelöste Probleme und Herausforderungen
Literatur
Index
EULA