Blog

Beiträge zu den Themen Biomedizin, Sozioökonomie und Finanzportfolios:

↓ zum ersten Eintrag

Mikrobiome - Visualisierung und Statistik

Datum: 04.02.2018

Vor-Filtern der Daten

Ein Grund für das Filtern ist es, Zeit für die Analyse von extrem seltenen Taxa einzusparen. “Selten” kann sich dabei sowohl auf die Abundanz (z.B. “Taxa macht 10% aller ”Reads" in einer Probe aus“) als auch auf die Prävalenz (z.B. ”Taxa kommt in 20% aller Proben vor“) beziehen. Für welche Analysen man wenig abundante bzw. prävalente Taxa herausfiltert, sollte man sich vorher gut überlegen. Zum Einen kann man Rauschen aus den Daten herausfiltern (z.B. Artefakte des bisherigen Untersuchungsprozesses). Auf der anderen Seite kann man die Diversität der Probe unterschätzen.

Der Zusammenhang zwischen Prävalenz und Abundanz für jede Amplikon Sequenzvariante (ASV) bietet häufig einen Anhaltspunkt, um Ausreißer zu finden oder bietet Informationen über die Bereiche dieser beiden Parameter, die für die sich anschließenden Analysen notwendig sind.

Abundanzen

Abundanzen können absolut und relativ betrachtet werden. Die absolute Abundanz bezieht sich auf die Anzahl der gemessenen Sequenzen einer ASV in einer Probe. Vergleicht man verschiedene Proben miteinander, so können diese allerdings stark variieren. Dies kommt daher, dass technisch bedingt die Gesamtzahl der gemessenen Sequenzen von Probe zu Probe unterschiedlich ist. Möchte man die Abundanzen zwischen zwei Proben vergleichen, muss man sich also auf relative Abundanzen beziehen. Diese ermittelt man, indem man die absolute Abundanz durch die Gesamtzahl der gemessenen Sequenzen in dieser Probe teilt. Die relativen Abundanzen einer Probe summieren sich dann auf den Wert Eins. Der Nachteil der relativen Abundanzen ist allerdings, dass man Information über die Sequenziertiefe, also die insgesamt gemessenen Sequenzen verliert. Auch hier muss man sich je nach Fragestellung und Analysemethode entscheiden, was man verwendet.

Stacked-barplots

Die Abundanz lässt sich mit verschiedenen Darstellungsformen visualisieren. Als erstes Beispiel habe ich hier das gestapelte Balkendiagramm (engl.: stacked-bars) gewählt. Die erste Version zeigt jede Probe der Studie einzeln. In der zweiten Abbildung wurden alle Proben eines Entnahmeortes gemittelt dargestellt. In den Abbildungen bedeuten Tongue = Zunge, Subg = subgingival (Beläge auf dem Zahn unterhalb des Zahnfleischrandes aus der Zahntasche) und Supra = supragingival (Beläge auf dem Zahn über dem Zahnfleischrand). Die einzelnen Elemente des Balkenstapels spiegeln die jeweiligen Abteilungen (Phylum) wieder. Man könnte hier natürlich auch eine andere taxonomische Stufe wählen oder sich z.B. auf die Gattungen einer Abteilung beschränken.

Heatmap

Als nächstes wurden die 40 ASVs mit der höchsten relativen Abundanz gefiltert und die Heatmap als Darstellungsform gewählt. Hier kann man Taxa ablesen, die kaum auf der Zunge wohl aber in den Zahnbelägen vertreten sind (dunkler Bereich rechts oben). Außerdem kann man Taxa erkennen, die kaum in den Zahnbelägen, wohl aber auf der Zunge zu finden sind (dunkler Bereich links in der Mitte).

Gruppenvergleiche

Die folgenden Grafiken bieten einen schnellen Überblick über die Unterschiede zwischen verschiedenen Gruppen. Man sieht für alle zugeordneten Gattungen die relativen Abundanzen vergleichend für Entnahmeorte (erste Grafik) bzw. den Gesundheitsstatus (gesund versus Parodontitis in der zweiten Grafik) auf der y-Achse. Die Anzahl der Punkte gibt außerdem die Unterschiede in der Prävalenz wieder.

Treeplot

Dargestellt ist der Abstammungsbaum der ASVs aus den Gattungen Haemophilus und Tannerella. An den Spitzen des Baumes (den Blättern) ist je Probe ein Punkt dargestellt, wobei die Größe des Punktes die Abundanz wiedergibt und die Farbe beschreibt aus welcher Entnahmestelle die Probe entstammte.

Diversität

alpha-Diversität

Die alpha-Diversität beschreibt die Anzahl bzw. Verteilung der Taxa innerhalb eines Lebensraumes. Bei der Mikrobiomanalyse bedeutet dies, wie viele verschiedene Taxa in einer Probe zu finden sind und wie deren Abundanzen verteilt sind. Ein Vergleich der alpha-Diversität verschiedener Proben ist nur statthaft, wenn alle Proben den gleichen Umfang haben.

Für die alpha-Diversität gibt es eine große Auswahl an Maßen. Allen gemein ist, dass man etwaige Unterschiede in der Anzahl an Reads zwischen den zu vergleichenden Proben ausgleichen muss. Eine Herangehensweise ist, dass man aus jeder Probe nur die Anzahl an Reads zieht, die in der Probe mit der geringsten Anzahl vorhanden sind. Dies wiederholt man einige Male und mittelt das Ergebnis.

Wichtig dabei ist es zu überprüfen, ob die verwendete Anzahl an Reads ausreicht, um sich dem tatsächlichen Wert für die alpha-Diversität anzunähern, oder ob man die Diversität unterschätzt, weil zu wenige Reads gemessen wurden. Dies kann man prüfen, indem man eine steigende Anzahl an Reads aus den Proben zieht und das jeweilige Diversitätsmaß bestimmt. Die Diversität sollte sich mit steigender Readzahl der tatsächlichen Diversität annähern. Steigt die Kurve bei der gemessenen Readzahl noch immer an, so unterschätzt man die Diversität, weil keine ausreichende Menge an Daten vorliegt.

beta-Diversität

Die beta-Diversität beschreibt die Diversität der Mikrobiota zwischen verschiedenen Lebensräumen. Bei der Mikrobiomanalyse bedeutet dies, zu untersuchen, ob und wie sich die mikrobiotische Zusammensetzung von einer zur anderen Probe unterscheidet.

Zur Untersuchung der beta-Diversität werden standardmäßig verschiedene Methoden der Dimensionsreduktion (Principal Coordination Analysis [PCoA], Nonmetric multidimensional scaling [NMDS], u.a.) kombiniert mit unterschiedlichen Abstands- bzw. Unähnlichkeitsmaßen, die sich aus der Mikrobiom-Zusammensetzung der jeweiligen Proben ergeben (Bray-Curtis, Jaccard, (un)gewichtete UniFrac). Drei Beispiele folgen hier.

Gemeinsames Auftreten von ASVs

Eine weitere Fragestellung ist die des gemeinsamen Auftretens bestimmter Taxa an einem Ort. Für diese Analyse bietet das R-Paket “cooccur” einige Ansätze, auf die hier allerdings nicht näher eingegangen werden soll. Als Visualisierung für das gemeinsame Auftreten bieten sich Netzwerke an.

Statistik

Mikrobiomdaten sind durch statistische Eigenschaften gekennzeichnet, die die Anwendung einiger Standardmethoden und -modelle ausschließt:

Gesamtzahl an Reads kann substantiell von Probe zu Probe schwanken
Homoskedastizität (Unabhängigkeit der Varianz von den Faktorwerten) ist nicht vorliegend, jedoch Voraussetzung für die Anwendung vieler parametrischer aber auch nicht-parametrischer Tests
keine Normalverteilung der Daten (Abundanzmatrix mit eher diskreten Werten und vielen Nullen)

Welche statistischen Verfahren Anwendung finden können, kann man zusammenfassend in “Odintsova V, Tyakht A, Alexeev D. Guidelines to Statistical Analysis of Microbial Composition Data Inferred from Metagenomic Sequencing. Current Issues in Molecular Biology. 2017; 17–36.” nachlesen. Hier nur ein paar wenige Stichworte: PERMANOVA, ANOSIM und generalisierte lineare Modelle.

Für die genaue Beschreibung der anwendbaren statistischen Methoden sei an dieser Stelle auch auf die unten genannten wissenschaftlichen Publikationen verwiesen.

Referenzen

Datenquellen

https://www.ncbi.nlm.nih.gov/bioproject/?term=PRJEB6047
Galimanas V, Hall MW, Singh N, Lynch MDJ, Goldberg M, Tenenbaum H, et al. Bacterial community composition of chronic periodontitis and novel oral sampling sites for detecting disease indicators. Microbiome. 2014;2: 32. doi:10.1186/2049-2618-2-32.

wissenschaftliche Publikationen

Buttigieg PL, Ramette A. A guide to statistical analysis in microbial ecology: a community-focused, living review of multivariate data analyses. FEMS Microbiol Ecol. 2014;90: 543–550. doi:10.1111/1574-6941.12437
FUKUYAMA J, MCMURDIE PJ, DETHLEFSEN L, RELMAN DA, HOLMES S. COMPARISONS OF DISTANCE METHODS FOR COMBINING COVARIATES AND ABUNDANCES IN MICROBIOME STUDIES. Pac Symp Biocomput. 2012; 213–224.
Griffith DM, Veech JA, Marsh CJ. cooccur: Probabilistic Species Co-Occurrence Analysis in R. Journal of Statistical Software. 2016;69. doi:10.18637/jss.v069.c02
Lozupone C, Knight R. UniFrac: a New Phylogenetic Method for Comparing Microbial Communities. Appl Environ Microbiol. 2005;71: 8228–8235. doi:10.1128/AEM.71.12.8228-8235.2005
Odintsova V, Tyakht A, Alexeev D. Guidelines to Statistical Analysis of Microbial Composition Data Inferred from Metagenomic Sequencing. Current Issues in Molecular Biology. 2017; 17–36. doi:10.21775/cimb.024.017
Paulson JN, Pop M, Bravo HC. metagenomeSeq: Statistical analysis for sparse high-throughput sequencing. Bioconductor package. 2013;1.
Xia Y, Sun J. Hypothesis testing and statistical analysis of microbiome. Genes & Diseases. 2017;4: 138–148. doi:10.1016/j.gendis.2017.06.001
Zhu X, Wang J, Reyes-Gibby C, Shete S. Processing and Analyzing Human Microbiome Data. In: Elston RC, editor. Statistical Human Genetics. New York, NY: Springer New York; 2017. pp. 649–677. doi:10.1007/978-1-4939-7274-6_31

Genutzte Werkzeuge

R Core Team (2017). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. version 3.4.3 https://www.R-project.org/.
Kate - Advanced Text Editor Version 17.12.0 (entwickelt von der KDE Community) http://kate-editor.org
phyloseq: An R package for reproducible interactive analysis and graphics of microbiome census data. Paul J. McMurdie and Susan Holmes (2013) PLoS ONE 8(4):e61217.
Leo Lahti et al. microbiome R package. URL: http://microbiome.github.io
Jari Oksanen, F. Guillaume Blanchet, Michael Friendly, Roeland Kindt, Pierre Legendre, Dan McGlinn, Peter R. Minchin, R. B. O’Hara, Gavin L. Simpson, Peter Solymos, M. Henry H. Stevens, Eduard Szoecs and Helene Wagner (2018). vegan: Community Ecology Package. R package version 2.4-6. https://CRAN.R-project.org/package=vegan
Hadley Wickham (2017). tidyverse: Easily Install and Load ‘Tidyverse’ Packages. R package version 1.2.1. https://CRAN.R-project.org/package=tidyverse
Hadley Wickham (2017). forcats: Tools for Working with Categorical Variables (Factors). R package version 0.2.0. https://CRAN.R-project.org/package=forcats
Erik Clarke and Scott Sherrill-Mix (2017). ggbeeswarm: Categorical Scatter (Violin Point) Plots. R package version 0.6.0. https://CRAN.R-project.org/package=ggbeeswarm
Claus O. Wilke (2017). cowplot: Streamlined Plot Theme and Plot Annotations for ‘ggplot2’. R package version 0.9.2. https://CRAN.R-project.org/package=cowplot
Jeffrey B. Arnold (2017). ggthemes: Extra Themes, Scales and Geoms for ‘ggplot2’. R package version 3.4.0. https://CRAN.R-project.org/package=ggthemes
Winston Chang, (2014). extrafont: Tools for using fonts. R package version 0.17. https://CRAN.R-project.org/package=extrafont
Simon Garnier (2017). viridis: Default Color Maps from ‘matplotlib’. R package version 0.4.0. https://CRAN.R-project.org/package=viridis
JJ Allaire, Joe Cheng, Yihui Xie, Jonathan McPherson, Winston Chang, Jeff Allen, Hadley Wickham, Aron Atkins and Rob Hyndman (2016). rmarkdown: Dynamic Documents for R. R package version 1.8 https://CRAN.R-project.org/package=rmarkdown

↑ nach oben

Mikrobiome - Von Reads zu Taxa

Datum: 04.02.2018

Mikrobiome

Was?

Das Mikrobiom bezeichnet alle auf oder in einem Organismus lebenden Mikroorganismen. Typischerweise untersucht man das Mikrobiom von bestimmten Körperbereichen (Magen-Darm-Trakt, Mundhöhle usw.), die man für seine wissenschaftliche Fragestellung als relevant betrachtet.

Wozu?

Warum ist es von Interesse sich die Zusammensetzung der auf uns lebenden Mikroorganismen anzuschauen? Wie wir heute wissen, spielt die Zusammensetzung der Mikroorganismen u.a. eine Rolle bei:

der Anfälligkeit für eine Vielzahl an Erkrankungen (Krebs, Herz-Kreislauf-Erkrankungen, Infektionen und vielen weiteren)
Ansprechen auf Behandlungen (Wie verstoffwechselt der Körper bestimmte Medikamente?)

Die genauen Zusammenhänge sind zum großen Teil noch unbekannt. Die Techniken zur Untersuchung des Mikrobioms entwickeln sich derzeit zwar rasant, dennoch kratzt man gerade mal an der Oberfläche und betreibt manchmal auch etwas Kaffeesatzleserei.

Wie?

Als erstes ist es notwendig das genetische Material der Mikroorganismen zu gewinnen. Soll beispielsweise das Mikrobiom des Darms untersucht werden, isoliert man das genetische Material aus einer Stuhlprobe. Es wird angenommen, dass diese dann auch das genetische Material aller vorkommenden Bakterien enthält. Zunächst werden definierte Bereiche der Mikroben-DNA vermehrt, die die genetische Information für bestimmte variable Abschnitte der 16S-rRNA der Bakterien enthält. Von diesen vervielfältigten DNA-Bereichen wird die Basenabfolge bestimmt. Am Ende erhält man eine große Sammlung (=Library) von einzelnen Basensequenzen der DNA (=Reads), aus der auf die vorhandenen Bakterienspezies geschlossen werden kann, indem diese mit den Sequenzen bekannter Bakteriengruppen (=Taxa) verglichen werden.

Die Schritte von den Reads zu den Taxa

De-Multiplexen

Wenn man sehr viele Proben untersuchen will, so kann man das genetische Material jeder Probe mit einer einzigartigen genetischen Markierung versehen (=Barcode). Danach sequenziert man das Gemisch aus vielen Proben in einem einzelnen Sequenzier-Durchlauf. Dies spart Zeit und Geld. Allerdings muss man jede erhaltene Sequenz wieder der jeweiligen Ursprungsprobe zuordnen. Dies bezeichnet man als De-Multiplexing.

Entfernen von Barcodes, Primersequenzen, Linkern usw.

Die Sequenzen können nun noch die Barcodes und weitere DNA-Sequenzen enthalten, die nicht auf die Bakterien zurückgehen, sondern notwendigerweise bei der Vervielfältigung des Ausgangsmaterials eingebaut werden. Diese Sequenzbereiche müssen vor der Analyse entfernt werden.

Daten einlesen

Die Ausgangsdaten sind dann je Probe zwei fastq-Dateien (Textdateien mit den Sequenzen). Es sind zwei Dateien, da man je Probe bei der PCR sowohl sogenannte forward- als auch reverse-Stränge erhält, da beide Stränge der DNA-Doppelhelix vervielfältigt werden. Beide werden sequenziert und im Laufe des Workflows auch wieder zusammengefügt.

Im Blog hier möchte ich einem bereits publizierten Ablauf folgen und diesen auf Sequenzdaten aus einer Publikation anwenden, in der die Autoren Proben aus der Mundhöhle von Patienten mit Parodontitis und gesunden Probanden untersucht haben. Am Ende möchte ich die bereits publizierten Ergebnisse mit meinen eigenen Ergebnissen vergleichen.

Trimmen und Filtern der Rohsequenzen

Aufgrund der Sequenziertechnik besitzen nicht alle Sequenzen bzw. alle Sequenzbereiche eine hohe Qualität. Daher müssen die Reads zunächst entsprechend eingekürzt werden. Außerdem müssen Sequenzen geringer Qualität entfernt werden. Dazu besitzen die fastq-Dateien, die die Rohdaten enthalten, Informationen zur Fehlerwahrscheinlichkeit bzw. Qualität für jede Basenposition jedes Reads.

Wie man in den beiden Abbildung oben sieht, fällt die Qualität der Reads ab einer bestimmten Position stark ab. Daher trimmen wir die forward Reads ab Position 140 und die reverse Reads ab Position 135. Wir trimmen auch die ersten 10 Nukleotide jedes Reads basierend auf der Beobachtung, dass viele Illumina Datensätze an diesen Positionen besonders häufig Fehler enthalten. Dies sehen wir auch hier. Außerdem werden Sequenzen mit mehr als zwei erwarteten Fehlern pro Read gefiltert (Edgar und Flyvbjerg 2015). Das Trimmen und Filtern wird auf die gepaarten Reads gemeinsam angewendet, d.h. beide Reads müssen den Filter passieren, damit das Sequenzpaar erhalten bleibt.

Nach dem Filtern und Trimmen folgt typischerweise das zuordnen der Reads zu sogenannten OTUs (operational taxonomic units). Dies sind Gruppen von Reads, die sich weniger als eine festgelegte Schwelle unterscheiden (zumeist 97%). Hier nutzen wir stattdessen die DADA2-Methode, um die Amplikon Sequenzvarianten (ASVs) exakt zu bestimmen. Dabei wird kein willkürlicher Schwellenwert festgelegt und selbst Varianten mit nur einem Nukleotid Unterschied erkannt (Callahan et al.).

Sequenzvarianten aus den vorverarbeiteten Rohsequenzen ableiten

Für die hier verwendete DADA2-Methode sind einige Vorteile im Vergleich zu anderen Herangehensweisen (Mother, QIME, u.a.) beschrieben:

Auflösung: DADA2 leitet aus den Reads genaue ASVs mit einer Auflösung von bis zu 1 oder 2 Nukleotiden ab.
Genauigkeit: DADA2 gibt weniger falsch-positive Sequenzvarianten zurück als andere Methoden falsch-positive OTUs. DADA2’s entscheidender Vorteil ist, dass mehr Informationen in den Daten genutzt werden als bei anderen Methoden. Das DADA2 Fehlermodell bezieht Qualitätsinformationen mit ein, die bei allen anderen Methoden nach dem Filtern ignoriert werden. Das DADA2 Fehlermodell betrachtet außerdem quantitative Abundanzen, wohingegen die meisten anderen Methoden höchsten Abundanzränge mit einbeziehen. Das DADA2 Fehlermodell identifiziert auch die Unterschiede zwischen den Sequenzen (z.B. A->C), während andere Methoden lediglich die Mismatches zählen. Außerdem kann DADA2 die Parameter für sein Fehlermodell aus den Daten selbst ableiten, anstatt von vorigen Datensätzen abhängig zu sein, die nicht notwendigerweise die PCR und Sequenzierprotokolle abbilden, die man selbst nutzt.
Vergleichbarkeit: Die ASVs von DADA2 können direkt zwischen verschiedenen Studien verglichen werden, ohne die Notwendigkeit die gepoolten Daten erneut zu analysieren, wie es bei der Nutzung von OTUs der Fall ist. Die nächste Abbildung zeigt das DADA2 Fehlermodell der hier verarbeiteten Daten.
Skalierbarkeit: Die Berechnungszeit von DADA2 skaliert linear mit der Probenanzahl und der Speicherbedarf ist vergleichsweise niedrig. DADA2’s Verbesserung in der Skalierbarkeit basiert darauf, dass ASVs und nicht OTUs konstruiert werden müssen, denn für die Berechnung der OTUs müssen alle Proben gepoolt werden. Die exakten Sequenzen sind dagegen zwischen Proben vergleichbar, da diese genauen “Labels” entsprechen. Daher kann DADA2 jede Probe unabhängig analysieren, was zu einer linearen Skalierbarkeit mit steigender Probenzahl und trivialer Parallelisierung führt.
Open Source: DADA2 ist unter der LGPL Version 3 lizensiert.

Sequenztabelle konstruieren

Jetzt werden die abgeleiteten forward- und reverse-Sequenzen zu jeweils einer Sequenz vereinigt. Dabei werden gepaarte Sequenzen, die nicht perfekt zusammenpassen, als letzte Kontrolle gegen verbleibende Fehler, entfernt. Als Ergebnis erhält man die entsprechenden ASVs und wie häufig sie jeweils vorkommen.

Chimäre Sequenzen entfernen

Aus der Sequenztabelle werden nun noch chimäre Sequenzen entfernt. Dies sind Sequenzen, die Teile aus verschiedenen Bakterienspezies enthalten. Diese können bei der PCR entstehen und sind technische Artefakte.

Analyseschritte prüfen

	Ausgangssequenzen	gefiltert	entrauscht	vereinigt	nicht-chimäre Sequenzen
ERR494349_1.fastq	53164	45679	45679	44904	43584
ERR494350_1.fastq	48285	41715	41715	40042	37012
ERR494351_1.fastq	47321	39625	39625	38759	37531
ERR494352_1.fastq	39409	33109	33109	32306	31814
ERR494353_1.fastq	54830	46673	46673	46594	46594
ERR494354_1.fastq	46802	40456	40456	39571	37363

Taxonomie hinzufügen

Bisher haben wir ja noch keine Bakteriengruppen, sondern nur die Sequenzen, die zu bestimmten Bakteriengruppen gehören. Welche Bakteriengruppen bzw. -spezies das sind erhält man durch den Abgleich mit bestehenden Datenbanken. Hier wurde z.B. die SILVA-Datenbank (Version 128) genutzt und der von Wang et al. publizierte Algorithmus verwendet.

Kingdom	Phylum	Class	Order	Family	Genus	Species
Bacteria	Firmicutes	Negativicutes	Selenomonadales	Veillonellaceae	Veillonella	dispar/parvula
Bacteria	Firmicutes	Bacilli	Lactobacillales	Streptococcaceae	Streptococcus	australis/cristatus/dentisani/infantis/mitis/oligofermentans/oralis/parasanguinis/peroris/phage/pneumoniae/pseudopneumoniae/rubneri/sanguinis/tigurinus
Bacteria	Actinobacteria	Actinobacteria	Micrococcales	Micrococcaceae	Rothia	aeria/dentocariosa
Bacteria	Firmicutes	Bacilli	Lactobacillales	Streptococcaceae	Streptococcus	gordonii/mitis/oligofermentans/sanguinis
Bacteria	Firmicutes	Bacilli	Lactobacillales	Carnobacteriaceae	Granulicatella	adiacens/para-adiacens
Bacteria	Firmicutes	Bacilli	Lactobacillales	Streptococcaceae	Streptococcus	oligofermentans/oralis/parasanguinis/sanguinis

Hier noch zur Kontrolle die Anzahl nicht klassifizierbarer ASVs in den jeweiligen Gruppen:

Kingdom	Phylum	Class	Order	Family	Genus	Species
0	1	24	33	44	172	1000

Einen phylogenetischen Baum konstruieren

Aus den Sequenzähnlichkeiten lässt sich dann auch noch ein phylogenetischer Baum ableiten, der für einige sich anschließende Analysen notwendig ist. Dazu wurde zunächst ein multiples Alignment mit dem DECIPHER-Paket durchgeführt und anschließend der Baum mit dem phangorn-Paket gebaut.

Alle Daten in ein phyloseq-Objekt kombinieren

Für die sich anschließenden Analysen arbeiten wir mit einem sogenannten “phyloseq”-Objekt. Dieses müssen wir nun nur noch aus den bisher berechneten Teilen zusammenfügen.

Dieses sieht hier wie folgt aus:

## phyloseq-class experiment-level object
## otu_table()   OTU Table:         [ 1293 taxa and 72 samples ]
## sample_data() Sample Data:       [ 72 samples by 7 sample variables ]
## tax_table()   Taxonomy Table:    [ 1293 taxa by 7 taxonomic ranks ]
## phy_tree()    Phylogenetic Tree: [ 1293 tips and 1291 internal nodes ]

Zusammenfassung

Welche Abteilungen wurden gefunden

Insgesamt konnten 17 Abteilungen gefunden werden, von denen 16 zugeordnet werden konnten.

Phylum	mittlere Anzahl pro Probe
Firmicutes	416
Bacteroidetes	366
Actinobacteria	160
Proteobacteria	146
Fusobacteria	75
Spirochaetae	74
Saccharibacteria	22
Synergistetes	11
Tenericutes	10
Gracilibacteria	4

Welche Gattungen wurden gefunden

Insgesamt konnten 116 Gattungen gefunden werden.

Genus	mittlere Anzahl pro Probe
Actinomyces	91
Treponema_2	74
Selenomonas_3	65
Prevotella	60
Capnocytophaga	51
Veillonella	51
Prevotella_7	48
Selenomonas	43
Leptotrichia	39

Welche Spezies wurden gefunden

Insgesamt konnten 212 Spezies gefunden werden.

Genus	Species	mittlere Anzahl pro Probe
Actinomyces	odontolyticus	6
Fusobacterium	nucleatum	6
Treponema_2	socranskii	6
Capnocytophaga	ochracea	5
Prevotella	intermedia	5
Selenomonas	sputigena	5
Actinomyces	naeslundii	4
Aggregatibacter	aphrophilus	4
Treponema_2	maltophilum	4
Actinomyces	oris/viscosus	3

Wie geht es weiter?

Bis hierher haben wir aus den Rohdaten alle Informationen gewonnen, um alle weiteren Analysen durchführen zu können und die Ergebnisse zu visualisieren. Dies soll Gegenstand eines folgenden Blogeintrages werden.

Außerdem möchte ich darauf hinweisen, dass es mindestens zwei recht einfache Wege gibt, das erzeugte phyloseq-Objekt zu analysieren:

Beides sind browserbasierte grafische Oberflächen, in denen man ein phyloseq-Objekt laden und analysieren kann. Mittels shiny-phyloseq konnte ich sehr schnell sehen, dass sich das Mikrobiom der Zunge von dem der beiden untersuchten Zahnoberflächen unterscheidet (Abbildung 2 aus Galimanas et al.)