Improving the classification of protein sequence functions by reducing the heterogeneity of datasets
- Die Vorhersage der Funktion von Proteinen anhand ihrer Sequenzen mit Hilfe eines computergestützten Ansatzes ist eine der anspruchsvollsten Aufgaben in der Bioinformatik. In dieser Dissertation wird versucht, die Leistung der Vorhersage zu verbessern, indem ein Vorhersagemodell erstellt wird, das auf der Verringerung der Heterogenität innerhalb des Proteindatensatzes mit Hilfe eines Clustering-Algorithmus beruht, und es mit einem Modell verglichen wird, das auf dem Datensatz ohne Vorverarbeitung der Daten trainiert wurde. Dabei wird jede Region separat als ein kleines Klassifizierungsproblem innerhalb eines großen komplexen Datensatzes behandelt. Um die besten Ergebnisse aus der Kombination von Clustering und Klassifizierung zu erzielen, werden drei Ansätze vorgeschlagen. Die Ergebnisse dieser Ansätze zeigen, dass es eine Heterogenität gibt, bei der die Verringerung dieser Heterogenität vor der Anwendung des Klassifizierungsmodells die Leistung der Vorhersage verbessert.
Author: | Haneen AltartouriGND |
---|---|
URN: | urn:nbn:de:hbz:294-83431 |
DOI: | https://doi.org/10.13154/294-8343 |
Referee: | Tobias GlasmachersORCiDGND, Laurenz WiskottORCiDGND |
Document Type: | Doctoral Thesis |
Language: | English |
Date of Publication (online): | 2021/09/23 |
Date of first Publication: | 2021/09/23 |
Publishing Institution: | Ruhr-Universität Bochum, Universitätsbibliothek |
Granting Institution: | Ruhr-Universität Bochum, Fakultät für Elektrotechnik und Informationstechnik |
Date of final exam: | 2021/07/13 |
Creating Corporation: | Fakultät für Elektrotechnik und Informationstechnik |
GND-Keyword: | Proteine; Clusteranalyse; Datensatz; Bioinformatik; Heterogenität |
Dewey Decimal Classification: | Allgemeines, Informatik, Informationswissenschaft / Informatik |
faculties: | Fakultät für Elektrotechnik und Informationstechnik |
Licence (German): | Keine Creative Commons Lizenz - es gelten der Veröffentlichungsvertrag und das deutsche Urheberrecht |