Evaluation of tools and pipelines available for Oxford Nanopore sequencing data to implement a workflow for metagenomic analyses

التفاصيل البيبلوغرافية
العنوان: Evaluation of tools and pipelines available for Oxford Nanopore sequencing data to implement a workflow for metagenomic analyses
المؤلفون: Waldherr, Monika
سنة النشر: 2022
مصطلحات موضوعية: metagenomics, sequence analysis, Metagenomanalyse, Bioinformatik, Umweltproben, bioinformatics, cultural heritage, Taxonomische Klassifizierung, Nanopore Sequenzierung, nanopore sequencing, taxonomic classification, environmental samples, Metagenom-Assemblierung, metagenome assembly, Sequenzanalysen, Kulturerbe
الوصف: Ein Großteil der uns umgebenden Mikroorganismen ist uns trotz großer Fortschritte in der Forschung bislang völlig unbekannt. Einerseits liegt das an der großen Diversität, die es unmöglich macht jeden Organismus mit seinen unterschiedlichsten Lebensbedingungen zu kultivieren, andererseits an dem Fehlen von geeigneten Methoden um sie unabhängig davon zu untersuchen. Mit der Entdeckung der DNA als Träger der Erbinformation und der darauffolgenden Entwicklung verschiedenster Sequenziermethoden, hat sich der Blick auf die Welt der Mikroorganismen grundlegend verändert. Nun können Klassifizierungen anhand der DNA Sequenz durchgeführt werden und ganzen Metagenomen taxonomische Identitäten zugewiesen werden. Die zurzeit am meisten verwendete Sequenziermethode in der Molekularbiologie, ist die Illumina Sequenzierung, eine sogenannte Short-Read-Methode. Bei dieser Methode werden Reads von etwa 150 bis 300 Basen erzeugt, welche eine sehr hohe Genauigkeit aufweisen. Allerdings führt die kurze Länge der erhaltenen Sequenzen zu Schwierigkeiten beim Zusammensetzen von Gensequenzen oder ganzen Genomen wenn diese längere Repeats beinhalten. Daher wurde in den letzten Jahren eine Long-Read-Methode, die von ONT entwickelte Nanopore-Sequenzierung, immer beliebter. Diese Methode soll die Nachteile der kurzen Reads überwinden und so das Sequenzieren ganzer Genome beträchtlich vereinfachen. Aber auch die Nanoporesequenzierung hat eine wesentliche Schwäche, ihre relativ hohe Errorrate. Diese Arbeit beschäftigt sich mit der Anwendung und Evaluierung verschiedener bioinformatischer Methoden zur Analyse von Nanopore Sequenzierdaten. Dafür wurde eine Pipeline zur taxonomischen Klassifizierung von Metagenomproben erstellt und diese mithilfe unterschiedlicher Anwendungsbeispiele getestet. Die verwendeten Daten ermöglichten den Vergleich von Metagenomen mit niedriger und hoher Diversität, als auch die Gegenüberstellung von Shotgun und 16S rRNA Gen Sequenzierung. Weiters wurde gezeigt welche Parameter in der Qualitätskontrolle wichtig sind, und welchen Unterschied die Read-basierte Klassifizierung im Vergleich zur Assembly-basierten macht. Zusammenfassend kann gesagt werden, dass für die Verwendung der Nanopore Sequenzierung mit Metagenomproben, die Auswahl und Vorbereitung der Proben von hoher Bedeutung ist. Wenig diverse Proben mit etwa bis zu 10 Spezies können durchaus mittels Shotgun Sequenzierung untersucht werden, wobei eine genaue Validierung der Ergebnisse im Einzelnen unbedingt erforderlich ist. Außerdem gibt es nur wenige verfügbare Tools, die überhaupt mit der Assemblierung und Qualitätskontrolle von Metagenomdaten zurecht kommen. Hoch diverse Umweltproben hingegen, sollten besser mittels gezielter Sequenzierung, etwa 16S rRNA Gen Sequenzierung, analysiert werden. Ist man an einer funktionellen Analyse interessiert, müssen eine sehr hohe Sequenziertiefe und möglichst lange Readlängen angestrebt werden. Despite great progress in research, a large part of the microorganisms that surround us are still completely unknown to us. On the one hand, this is due to the great diversity, which makes it impossible to cultivate every organism with its diverse living conditions, and on the other hand to the lack of suitable methods to study them independently. With the discovery of deoxyribonucleic acid (DNA) as a carrier of genetic information and the subsequent development of various sequencing methods, the view on the world of microorganisms has changed fundamentally. Now, classifications can be made based on the DNA sequence and taxonomic identities can be assigned to entire metagenomes. Currently, the most widely used sequencing method in molecular biology is Illumina sequencing, a so-called short-read method. This method generates reads of about 150 to 300 bases, which have a very high accuracy. However, the short length of the sequences obtained leads to difficulties in assembling gene sequences or whole genomes, if they contain longer repeats. Therefore, a long-read method, nanopore sequencing developed by Oxford Nanopore Technologies (ONT), has become increasingly popular in recent years. This method is said to overcome the disadvantages of short reads, making it much easier to sequence whole genomes. However, nanopore sequencing also has a major weakness, its relatively high error rate. This thesis deals with the application and evaluation of different bioinformatics methods for the analysis of nanopore sequencing data. For this purpose, a pipeline for the taxonomic classification of metagenome samples was created and tested using different application examples. The data used allowed the comparison of low and high diversity metagenomes as well as the comparison of shotgun and 16S ribosomal ribonucleic acid (rRNA) gene sequencing. Furthermore, it was shown which parameters are important in quality control and what difference read-based classification makes compared to assembly-based classification. In summary, for the use of nanopore sequencing with metagenome samples, sample selection and preparation is of high importance. Low-diversity samples with about up to 10 species can definitely be investigated by shotgun sequencing, although accurate validation of the results in detail is absolutely necessary. In addition, there are only few tools available that can handle the assembly and quality control of metagenomic data. Highly diverse environmental samples, on the other hand, would be better analyzed using targeted sequencing, such as 16S rRNA gene sequencing. If one is interested in a functional analysis, a very high sequencing depth and longest possible read lengths have to be aimed for. Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers Masterarbeit Wien, FH Campus Wien 2022
وصف الملف: 64 Seiten; text/html
اللغة: German
URL الوصول: https://explore.openaire.eu/search/publication?articleId=od_____10650::5b30f089f0093c4793d34278435ed0fa
حقوق: OPEN
رقم الأكسشن: edsair.od.....10650..5b30f089f0093c4793d34278435ed0fa
قاعدة البيانات: OpenAIRE