Die EMBL-Reptiliendatenbank

von Peter Uetz & Thure Etzold

Um Daten zur Reptiliensystematik an zentraler Stelle zu sammeln, haben wir die weltweit erste öffentlich zugängliche Internet-Datenbank mit Informationen zur Systematik und Verbreitung der Reptilien eingerichtet (http://www.embl-heidelberg.de/~uetz/LivingReptiles.html). Diese nicht-kommerzielle Datenbank ist als Forum gedacht, in dem Herpetologen und Terrarianer Informationen sammeln und anderen zur Verfügung stellen können. Die Bedeutung und Zukunft taxonomischer Datenbanken wird anhand von ähnlichen Datenbanken in der Molekularbiologie demonstriert.

Einleitung

Mehrere Millionen Tierarten bevölkern die Erde (May 1992). Niemand weiß es jedoch genau. Darunter sind ca. 8000 Reptilienarten, aber auch hier gibt es keine genauen Zahlen. Laufend werden neue Arten entdeckt, bekannte umbenannt oder in ihrem Rang (Arten oder Unterarten) Arten neu bewertet. Dies führt nicht zuletzt zu terminologischen Problemen: nach Bauer (1994) sind z.B. für 173 Geckoarten über 800 Namen vergeben worden (inklusive Schreib- und Grammatikfehlern)! Bei anderen Wirbeltieren sieht es nicht viel besser aus: beispielsweise stellen nach einer Stichprobe aus über 1000 Arten 45% aller Säugernamen Synonyme dar (May & Nee 1995).

Um diesem Notstand abzuhelfen, schlagen wir die Einrichtung einer zentralen Reptilien-Datenbank vor, in der alle bekannten Arten mit bibliographischen Daten erfasst werden sollten. Im Gegensatz zu gedruckten Katalogen kann eine solche Datenbank fortlaufend ergänzt, aktualisiert oder korrigiert werden. Um eine stets weltweite Verfügbarkeit zu gewährleisten, sollte eine derartige Datenbank ausserdem ans Internet angeschlossen sein. Um die Machbarkeit und vor allem Brauchbarkeit einer solchen Datensammlung zu demonstrieren, haben wir eine Prototyp-Datenbank eingerichtet, die auf dem am EMBL entwickelten Sequence Retrieval System (SRS) beruht.

Vergleichbare Datenbanken entstehen in der systematischen Biologie nur zögerlich. Online-Datenbanken zur Wirbeltiersystematik gibt es unseres Wissens noch gar keine, wenn man von der Datenbank "Mammal Species of the World" einmal absieht, die jedoch nur (?) die elektronische Version des gleichnamigen Buches von Wilson & Reeder (1993) darstellt. Die bislang größte Datenbank zur Wirbeltiersystematik mit ca. 12500 Arten, "Fishbase", ist bisher nur auf CD-ROM erhältlich (Froese & Pauly, 1995).

Das Paradigma Molekularbiologischer Datenbanken

Die meisten Erfahrungen mit biologischen Datenbanken gibt es im Bereich der Molekularbiologie, seit Ende der Achtziger Jahre Methoden zur raschen Bestimmung von DNA-Sequenzen entwickelt wurden. Bereits 1982 wurden fast gleichzeitig Sequenzdatendatenbanken in Europa (am EMBL) und in den Vereinigten Staaten gegründet. Aufgrund der dramatisch gestiegenen Datenmengen wurde die EMBL-Datenbank 1995 in ein eigens dafür gegründetes Tochterinstitut in Cambridge (England) ausgelagert, das European Bioinformatics Institute.

Diese Datenbanken sind heute so bedeutend, daß praktisch alle neu entdeckten Gene oder Proteine darin aufgenommen werden. Die meisten neuen Gensequenzen werden heute nicht einmal mehr auf Papier gedruckt. Bei deren Vorstellung in den entsprechenden Fachzeitschriften wird nur noch eine Datenbanknummer genannt, unter der die Sequenz abrufbar ist. In der Tat verlangen bereits viele molekularbiologische Zeitschriften für die Veröffentlichung neuer Gene eine solche "accession number". Der Autor muß also die Sequenzdaten und möglichst eine Beschreibung des neuentdeckten Gens zu einer Datenbank schicken, bevor er solche Ergebnisse publiziert.

Entdeckt heute ein Molekularbiologe ein vermeintlich neues Gen (oder Protein), schaut er umgekehrt zuerst in einer der öffentlich zugänglichen Datenbanken nach, ob dieses Gen bereits bekannt ist. Zur Suche muß der Wissenschaftler nur ein kurzes Stück der DNA- bzw. Proteinsequenz oder andere relevante Informationen kennen und erfährt schon Sekunden oder Minuten nach deren Eingabe in den Computer, ob dieses oder ein verwandtes Gen bereits beschrieben wurde.

Herpetologische Literatur vs. Online-Information

Taxonomische Datenbanken stehen vor noch größeren Problemen als Sequenzdatenbanken, da sie Arten in ihrer ganzen Komplexität möglichst eindeutig beschreiben sollen. Trotzdem sind solche Datenbanken aus vielen Gründen dringend notwendig: die zoologische Literatur ist auf viel mehr Zeitschriften, Bücher und Schriftenreihen verteilt wie z.B. die molekularbiologische Literatur, zumal sie auch eine viel längere Tradition hat. Neubeschreibungen werden of in ausländischen Zeitschriften publiziert, die nur wenigen Spezialisten (oft nur nach wochenlangem Leihverkehr) zur Verfügung stehen. Überdies werden viele Beiträge von wissenschaftlichen Amateuren in kleinen nationalen Zeitschriften veröffentlicht, obwohl sie einen bedeutenden Teil zoologischer Erkenntnisse liefern. Um sich die geringe Verbreitung von Zeitschriftenpublikationen einmal zu vergegenwärtigen, schaue man sich nur einmal die DGHT-Mitglieder- und damit Salamandra-Abonnentenzahlen in den USA an [Nachtrag: es sind ca. 50 - die meisten privat, sodass deren Salamandra-Ausgaben nicht der Öffentlichkeit zur Verfügung stehen].

Demgegenüber gibt es mittlerweile weit mehr Internetcomputer als herpetologische Bibliotheken. Die Zeitschriftendatenbank des Deutschen Bibliotheksinstituts nennt Bibliotheken in nur 8 deutschen Städten, die beispielsweise das "Journal of Herpetology" abonniert haben. Dagegen bieten heute alle Universitätsbibliotheken Internetzugänge an. Während die DGHT zwar über 6000 Mitglieder und somit Salamandra-Abonnenten hat, sind mittlerweile schon mehr als eine Million Deutsche Abonnenten von T-Online/BTX und dadurch potentielle Nutzer von Online-Datenbanken. Mit anderen Worten - die Wahrscheinlichkeit einen Internetanschluss in Ihrer Nähe zu haben, ist um ein vielfaches größer als für eine bestimmtes herpetologisches Printmedium.

Während Zeitschriften stets aktuelle Informationen anbieten können, fallen Bücher schon schnell der "Ent-Aktualisierung" anheim. Gedruckte "Datenbanken" wie die Reihe "Das Tierreich" sind nach einigen taxonomischen Revisionen und damit meist nach einigen Jahren unvollständig oder gar veraltet.

Nicht zuletzt deshalb wurden durch diverse Organisationenen und Institute immer wieder große Datenbankprojekte zur Biodiversität angekündigt. Bis heute hat sich daraus jedoch noch keine konkrete Datensammlung ergeben, die auch öffentlich zugänglich ist (Macilwain 1994). Aus diesen Gründen haben wir begonnen, eine Datenbank zur Reptiliensystematik aufzubauen, die zunächst die Namen, Synonyme und Verbreitungsgebiete aller Reptilienarten erfassen und diese in beliebigen Kombinationen abfragbar machen soll. Es sei betont, daß diese Datenbank herkömmliche Publikationen weder ersetzen will noch kann. Sie könnte aber eine sinnvolle Ergänzung zur zentralen Sammlung taxonomischer Informationen sein, die das Fundament jeder biologischen Disziplin ausmachen.

Die Datenbank zur Reptiliensystematik am EMBL

Das EMBL unterhält zusammen mit dem European Bioinformatics Institute in Cambridge eine ganze Reihe von molekularbiologischen Datenbanken. Wir haben deshalb für unsere Datenbank einfach deren Grundstruktur übernommen und etwas an die herpetologischen Bedürfnisse angepasst. Dadurch werden zwar nicht alle Spezialbedürfnisse befriedigt, es ergibt sich aber der Vorteil, daß verschiedene Datenbanken miteinander verknüpft werden können. Zum Beispiel kann man sich zu allen Arten der Gattung Sceloporus neben den Verbreitungsgebieten auch DNA-Daten anzeigen lassen (von 23 Sceloporus-Arten sind schon DNA-Sequenzen bekannt!). In der Datenbank sind derzeit ca. 7500 Reptilienarten verzeichnet, wobei zu ca. 75% Verbreitungsangaben vorliegen (Abb. 1).

Abb. 1: Eingabemaske für Datenbankrecherchen. Ende Juni 1996 konnten die drei wichtigsten Datenfelder abgefragt werden (Name, Synonym, Verbreitung). In dem gezeigten Beispiel wird nach den amerikanischen Arten der Colubriden-Gattung Tantilla gesucht. Auf die anderen Funktionen wird hier nicht eingegangen, zumal sich diese auch ändern können.

Bei der in Abb. 1 gezeigten Suche nach amerikanischen Tantilla-Arten erhält man z.B. folgende Ausgabe:

Man kann sich diese Liste zusammen auch mit den jeweiligen Verbreitungsgebieten anzeigen lassen (was hier jedoch aus Platzgründen unterbleibt). Alternativ kann man auch einzelne Namen anklicken und erhält dann den entsprechenden Eintrag, z.B.


Species:

Tantilla coronata

Synonyms:

Distribution:

USA (SE-Louisiana, Mississippi, Alabama, Georgia, NW-Florida, South Carolina,

North Carolina, Tennessee, W-Kentucky, CS-Virginia)

Comment:

References:

Conant (1978)


Wie man sieht, sind hier noch keine Synonyme eingetragen [Nachtrag: vgl. Einträge heute, 2003; Synonymie-Daten sind für die meisten Arten verfügbar, Kommentare für einige Tausend!]. Die Verbreitungsinformationen wurden in diesem Fall einer Karte in Conant (1978) entnommen. Die genauen bibliographischen Angaben findet man in einer separaten Literaturliste [mittlerweile geändert: die Datenbankeinträge enthalten vollständige Literaturzitate].

Abb. 2: Benutzerstatistik der EMBL-Reptiliendatenbank im Zeitraum Januar bis Mai 1996. Die Datenbank wurde Anfang Januar erstmals in der newsgroup sci.bio.herp angekündigt. Gezählt wurden die Zugriffe auf die Hauptseite (LivingReptiles.html). "Ein Zugriff " entspricht gewöhnlich einer Sitzung am Computer.

Tab. 1: Benutzerprofil der Reptiliendatenbank im Zeitraum 21.2.1996 - 10.3.1996 (nach Herkunft). Gezählt wurden 1037 Zugriffe auf die Hauptseite (LivingReptiles.html). Aus historischen Gründen wird das Internet in den USA in organisatorische Bereiche eingeteilt, z.B. in Schulen und Universitäten (".edu") oder Regierungsbehörden (".gov"). Der kommerzielle Bereich (".com") ist allerdings nicht mehr auf die USA beschränkt; mittlerweile benutzen auch viele nichtamerikanische Firmen diesen Domain-Namen. Knapp ein Viertel der Zugriffe (##) konnte nicht genauer zugeordnet werden.

Herkunft

Zugriffe

com

Company

265

##

unbekannt

254

net

Network

147

edu

Educational

123

org

Organisation

11

gov

Governmental

6

mil

Military

3

ca

Kanada

32

es

Spanien

30

it

Italien

18

us

USA

18

ch

Schweiz

17

no

Norwegen

15

se

Schweden

15

uk

England

15

de

Deutschland

10

jp

Japan

10

nl

Holland

9

fi

Finnland

6

au

Australien

5

fr

Frankreich

5

weitere 17 Länder *

je 1-3

*Bulgarien, Belgien, Israel, Mexiko, Südafrika, Bahrein, Brasilien, Kroatien, Indonesien, Neuseeland, Portugal, Singapur, Slowenien, Tschechische Republik, Dänemark, Island, Malaysia

Obwohl die Datenbank vom reinen Datenvolumen her noch relativ klein ist, können doch schon einige Fragen damit beantwortet werden, z.B. nach dem Verbreitungsgebiet einer bestimmten Art oder nach den Arten eines bestimmten Landes. Daneben kann man rausfinden, zu welcher Familie eine bestimmte Art oder Gattung gehört.

Nachdem die der Datenban vorausgegangenen WWW-Seiten bereits im januar im Internet angekündigt wurden, haben sich die Benutzerzahlen stetig erhöht (Abb. 2). Die Mehrzahl der ca. 80 Anfragen pro Tag kommt jedoch aus dem nordamerikanischen Raum (Tab. 1).

Einladung zur Mitarbeit

Eine Datensammlung wie die hier anvisierte übersteigt natürlich die Kapazität einzelner Personen. Da unsere Datenbank vor allem von Amateurherpetologen benutzt wird, wie aus dem in Tab. 1 gezeigten Benutzerprofil hervorgeht (in den USA v.a. Firmenangehörige), möchten wir deshalb auch interessierte Laien dazu einladen, Daten zur Datenbank beizusteuern.

Der Beitrag von freiwilligen Nicht-Herpetologen ist auch deshalb wesentlich, weil vor allem bereits publizierte und damit weitgehend akzeptierte Daten erfasst werden sollen. Soweit das Urheberrecht respektiert wird, kann also der Laie selbst durch Abtippen von Verbreitungsangaben aus Reiseberichten oder dgl. einen wichtigen Beitrag zum Aufbau der Datenbank leisten. Aus Gründen des Urheberrechts sollen bis auf weiteres keine Volltexte mit detaillierten Beschreibungen erfasst werden.

Eingeladen sind besonders die Arbeitsgruppen innerhalb der DGHT, sich an der Sammlung und Aufbereitung der Daten zu beteiligen. Die AGs könnten auch als Datenkoordinatoren für bestimmte Taxa oder geographische Areale agieren.

Falls Sie etwas zur Datenbank beitragen wollen, teilen Sie uns bitte Ihr Interessengebiet mit (Familie oder Gattung(en), geographische Region, aber keine einzelne Arten) und evtl. welche Literatur Ihnen zur Verfügung steht. Wir senden Ihnen dann eine Liste mit Arten oder Regionen, über die wir nur wenige Informationen haben (sofern Sie das nicht selbst auf unserer WWW-Seite nachschauen können). Zusätzlich erhalten Sie ein Informationsblatt für Mitarbeiter. Die Daten sollten Sie dann ergänzen und mit den entsprechenden Literaturbelegen versehen an uns zurückschicken. Wir nehmen diese Daten dann in die Datenbank auf und senden Ihnen den kompletten Satz an Einträgen zur nochmaligen Durchsicht zu.

Aus praktischen Gründen können wir bei Erstanfragen keine größeren Auszüge aus der Datenbank ausdrucken und verschicken. Sie können diese aber direkt im Internet einsehen.

Gründung einer AG "Reptiliendatenbank" ?

Wir können angesichts der Größe der Aufgabe nur die Grundlagen legen und die technischen Mittel bereitstellen. Wie bei den molekularbiologischen Datenbanken hängt die Vollständigkeit und damit Brauchbarkeit einer systematischen Datenbank vor allem von den Beiträgen der Benutzer ab.

Bei genügendem Interesse wäre es sicher sinnvoll, langfristig eine AG Datenbank (oder Systematik) zu gründen, deren Vorsitzender ein professioneller Taxonom sein sollte. Eine solche AG könnte sich auf das organisierte Sammeln von Daten konzentrieren. Deren Aktivitäten müssten natürlich mit ähnlichen (internationalen) Projekten koordiniert und verknüpft werden. Da 99% aller herpetologisch Interessierten Hobby-Herpetologen sind, ist die Einbeziehung dieser Amateure durchaus erstrebenswert. Auch durch kleine Beiträge vieler kann ein großes Projekt verwirklicht werden. Wir möchten hiermit die Diskussion über eine solche AG anregen und potentielle Leiter auffordern, weitere Argumente für oder gegen eine solche Gruppe vorzutragen.

Diskussion und Ausblick

Entwicklung und Einsatz von Datenbanken in der systematischen Biologie stehen erst am Anfang. In 10 oder 20 Jahren wird jedoch kein Zoologe mehr ohne Online-Datenbanken arbeiten können. Neben Texten werden auch Bilder und Töne abrufbar sein, in vielen Fällen ganze Filme. Im Lauf der Zeit werden detaillierte Beschreibungen aller Arten mit aufgenommen, so daß man durch die Eingabe von einigen Schlüsselmerkmalen auch Tiere unbekannter Identität bestimmen kann. Theoretisch ist es sogar möglich, bei entsprechend aufbereiteten Artbeschreibungen automatisch Bestimmungschlüssel zu generieren, in die man wiederum auch neue Arten leicht einfügen kann. Heute sind viele Bestimmungsschlüssel nach Beschreibung neuer Arten oft nicht mehr brauchbar. Datenbanken würden letztendlich auch bei Neubeschreibungen zur konstistenteren Benutzung von Merkmalen und Begriffen zwingen. Mit der Integration von Bildern ließen sich nicht nur viele ähnliche Arten der Unterarten direkt miteinander vergleichen und bestimmen, sondern auch die Untersuchung der Verbreitungsgebiete vereinfachen, indem man z.B. die Verbreitungskarten am Computer überlagert und so unmittelbar vergleichen kann. Das Hauptproblem hierbei ist nicht technischer Art, sondern der Aufwand, solche Karten laufend zu aktualisieren.

Verschiedene Datenbanken werden in der Zukunft miteinander verknüpft werden, z.B. morphologische mit molekularbiologischen oder ethologische mit neurobiologischen. Vielleicht werden in einer fernen Zukunft sogar morphologische Beschreibungen überflüssig sein, wenn die DNA-Sequenzen vieler Arten bekannt sind und man das Aussehen dieser Spezies direkt aus der DNA-Sequenz ableiten kann. In der Tat gibt es ja schon heute den Trend, phylogenetische Beziehungen durch Sequenzanalysen aufzuklären.

Die Integration kann auch auf nichtbiologische Datenbanken ausgedehnt werden, so daß z.B. zu einem bestimmten Verbreitungsgebiet zusätzlich Klimadaten abgefragt werden können. Das alles ist jedoch (z.T.) noch Zukunftsmusik. Bevor alle diese Möglichkeiten ausgeschöpft werden können, sollten die bereits herkömmlich publizierten Informationen elektronisch verfügbar gemacht werden. Hierzu ist nicht nur die Mitarbeit vieler Freiwilliger notwendig, sondern auch der (politische) Wille, solche Projekte zu fördern. Es ist keine Frage, ob herpetologische Datenbanken in der Zukunft erstellt werden. Es ist eher die Frage, ob wir uns daran beteiligen und diese mitgestalten oder ob wir dies anderen (z.B. Amerikanern) überlassen, von denen wir dann diese Datenbanken evtl. für teures Geld kaufen müssen.

Literatur

Bauer,A.M. (1994) Gekkonidae (Reptilia, Sauria) Das Tierreich Bd. 109, Part I (Australia and Oceania), Walter de Gruyter, Berlin, 1-306

Etzold,T. and Argos,P. (1993) SRS - an indexing and retrieval tool for flat file data libraries. Comput. Appl. Biosci. 9:49-57,

Etzold,T. and Argos,P. (1993) Transforming a set of biological flat file libraries to a fast access network. Comput. Appl. Biosci. 9:59-64, 1993

Froese,R. & Pauly,D. (1995) Fishbase: A Biological Database on Fish (CD-ROM + Manual), International Center for Living Aquatic Resources Management, Manila (Weitere Informationen zur CD)

Macilwain,C. (1994) Global effort is launched to create taxonomic map of living organisms, Nature 368: 3

May, R.M. (1992) How any species inhabit the earth? Sc. Am. Oct. 1992: 18-24

May, R.M. & Nee,S. (1995) The species alias problem, Nature 378: 447-448

Patterson, B.D. (1996) The species alias problem, Nature 380: 589

Wilson, D. E., and D. M. Reeder (eds). 1993. Mammal Species of the World. Smithsonian Institution Press, 1206 pp.

Danksagung

Folgende Personen stellten ausführliche Informationen zur Verfügung: Hermann Seufer (Gekkonidae), Petr Necas (Chamaeleonidae), Klaus Adolphs (Cordylidae, Gerrhosauridae), Wolfgang Bischoff (Lacertidae), Wolfgang Wüster (Viperidae), Jean Just (Australische Reptilien).

Dieser Artikel kann unter http://www.embl-heidelberg.de/~uetz/articles/ ReptilienDB.html abgerufen werden. Bei genügend großem Interesse kann die Datenbank auch als Diskettenversion verfügbar gemacht werden. Mitarbeiter (s.u.) erhielten die Datenbank dann verbilligt oder kostenlos (abhängig vom Umfang ihrer Beiträge).

Autoren

Peter Uetz und Thure Etzold

Europäisches Labor für Molekularbiologie (EMBL)

Meyerhofstr. 1, 69117 Heidelberg

jetzt (ab April 2001): Forschungszentrum Karlsruhe:

e-mail: peter.uetz@itg.fzk.de