Challenges for the development of automated RNA-seq analyses pipelines

التفاصيل البيبلوغرافية
العنوان: Challenges for the development of automated RNA-seq analyses pipelines
المؤلفون: Beukers, M, Allmer, J
المصدر: GMS Medizinische Informatik, Biometrie und Epidemiologie; VOL: 19; DOC06 /20230704/
بيانات النشر: German Medical Science GMS Publishing House; Düsseldorf, 2023.
سنة النشر: 2023
مصطلحات موضوعية: Datenanalyse-Workflow, data analysis workflow, workflow management system, ddc: 610, RNA sequencing, RNA-seq, Workflow-Management-System, RNA-Sequenzierung
الوصف: Background: Transcriptional changes are hallmarks of development and disease. RNA sequencing (RNA-seq) allows qualitative and quantitative RNA expression analysis. Raw RNA-seq data passes through a multi-step computational pipeline to derive meaning from such measurements. Often ad hoc scripts are used for such analyses. However, the use of workflow management systems (WFMS) should be encouraged in order to enhance result reproducibility, to establish best data analysis practices, and to share such data analysis workflows. In this work, we created RNA-seq data analysis workflows in three WFMS, namely Galaxy (free, open-source), KNIME (free, commercial, and partially open source), and CLC (commercial, closed source). Methods: These tools were compared using a variety of criteria ranging from installation to workflow execution and sharing. Four different workflows (WFs) performing RNA-seq data analysis were successfully constructed in all three WFMS. In summary, Galaxy currently provides the most significant number of analysis tools for RNA-seq, while CLC offers the most intuitive visualization. KNIME lags behind in these two aspects but excels at other levels, such as machine learning. Results: Since we already decided on the three WMFS, many of the criteria we suggest for WFMS evaluation do not apply to our situation and we focus on the WF creation here. While it was possible to construct RNA-seq analysis WFs with all three WFMS tools, the constructed WFs are different. These differences entailed disparate results, which were further sensitive to processing settings leading to different biological interpretations in the worst case. We further performed an in-depth analysis of challenges using the three WFMS and provide decision support for which WFMS to use in RNA-seq analysis. In short, RNA-seq is currently best performed using Galaxy, followed by CLC, and KNIME. The level of expertise with these WFMS should be taken into account during the WFMS selection. Finally, we share the WFs in the hope of reducing the use of ad hoc scripts and that sharing them will lead to the development of best practices for RNA-seq data analysis. Hintergrund: Transkriptionelle Veränderungen sind Kennzeichen von Entwicklung und Krankheit. RNA-Sequenzierung (RNA-seq) ermöglicht die qualitative und quantitative Analyse der RNA-Expression. Rohdaten von RNA-seq durchlaufen typischerweise eine mehrstufige, computergestützte Pipeline, um aus solchen Messungen eine Bedeutung abzuleiten. Oft werden dafür Ad-hoc-Skripte verwendet. Allerdings sollte die Verwendung von Workflow-Management-Systemen (WFMS) gefördert werden, um die Reproduzierbarkeit von Ergebnissen zu verbessern, bewährte Datenanalyseverfahren zu etablieren und solche Workflows zur Datenanalyse zu teilen. In dieser Arbeit haben wir RNA-seq Datenanalyse-Workflows in drei WFMS erstellt, namentlich: Galaxy (kostenlos, Open Source), KNIME (kostenlos, kommerziell und teilweise Open Source) und CLC (kommerziell, Closed Source).Methoden: Diese Werkzeuge wurden anhand einer Vielzahl von Kriterien verglichen, von der Installation bis zur Ausführung und Freigabe von Workflows. Vier verschiedene Workflows zur RNA-seq Datenanalyse wurden in allen drei WFMS erfolgreich erstellt. Zusammenfassend bietet Galaxy derzeit die größte Anzahl an Analysetools für RNA-seq, während CLC die intuitivste Visualisierung bietet. KNIME hinkt in diesen beiden Aspekten hinterher, glänzt jedoch auf anderen Ebenen, wie z.B. dem maschinellen Lernen.Ergebnisse: Da wir uns bereits auf die drei WFMS festgelegt haben, sind viele der von uns vorgeschlagenen Kriterien für die Bewertung von WFMS in unserer Situation nicht relevant, und wir konzentrieren uns hier auf die Erstellung von Workflows. Obwohl es mit allen drei WFMS möglich war, RNA-seq Analyse-Workflows zu erstellen, sind die erstellten Workflows unterschiedlich. Diese Unterschiede führten zu unterschiedlichen Ergebnissen, die bei unterschiedlichen Verarbeitungseinstellungen in schlechtesten Fällen zu unterschiedlichen biologischen Interpretationen führten. Wir haben zudem eine eingehende Analyse der Herausforderungen mit den drei WFMS durchgeführt und Entscheidungsunterstützung für die Auswahl des richtigen WFMS für RNA-seq Analysen bereitgestellt. Kurz gesagt, wird RNA-seq derzeit am besten mit Galaxy durchgeführt, gefolgt von CLC und KNIME. Der Kenntnisstand mit diesen WFMS sollte bei der Auswahl berücksichtigt werden. Wir teilen die Workflows, die wir erstellt haben, in der Hoffnung, den Einsatz von Ad-hoc-Skripten zu reduzieren und die Entwicklung bewährter Verfahren für die RNA-seq Datenanalyse zu fördern.
اللغة: English
URL الوصول: https://explore.openaire.eu/search/publication?articleId=od______1175::346db18b13dbe9c3192f249078142c71
http://nbn-resolving.de/urn:nbn:de:0183-mibe0002457
حقوق: OPEN
رقم الأكسشن: edsair.od......1175..346db18b13dbe9c3192f249078142c71
قاعدة البيانات: OpenAIRE