つくば生物ジャーナル Tsukuba Journal of Biology (2003) 2, 41     (C) 2003 筑波大学生物学類

国内所蔵生物標本を対象とした統合検索の可能性

栢野 貴之 (筑波大学 生物学類 4年)  指導教官:伊藤  希 (筑波大学 生物科学系)  責任教官: 齋藤 建彦 (筑波大学 生物科学系)


はじめに

コンピュータネットワークの普及にともない、生物学的データベースが広く利用される様になってきた。遺伝子配列データベースとそれに基づく系統樹の構築はその代表例であるが、一方、分類学的データや標本データなどについてはそのデータベース化が遅れている。この不均衡を解消するため、近年、分類学的情報の整備を行なおうとする機運が高まっている。その代表格である地球規模生物多様性情報機構(GBIF)では、必要に応じて新規データベースを構築する一方で、既存の分類学的データベースを横断的に検索するシステムを構築して、迅速に情報提供することを目指している。GBIF に参加する国及び団体は何等かの形で分類学情報データベースの公開を要求されており、わが国においても既存のデータベースについて充分な調査検討を行ない、これらを対象とした統合検索を提供する必要がある。その際、国内標本や和名等の情報はわが国からのみ提供し得るものである。そこで、本研究では全国科学博物館協議会の調査研究報告書を元に、全国の博物館が公開する生物標本情報のデータベース化の現状を明確にし、広範かつ体系的な利用のための統合検索の可能性について検討した。

方法

全国科学博物館協議会のWebサイト(http://jcsm.kahaku.go.jp/)から得られた加盟館園が公開している 260 件の Webサイト全てにアクセスし、データベースを公開している URL、データベーススキーマの公開の有無、検索可能なデータ項目、検索結果として得られるデータ項目を調査した。但し、構造化された検索が可能なものだけを対象とし、静的な HTML コンテンツの集合体ないしそれに対する全文検索によって実現されているものは対象から除外した。またGBIFの国内フォーカルポイントWebサイトにある「国内の生物系データベースの現状に関する調査報告書 (http://bio.tokyo.jst.go.jp/GBIF/gbif/japanese/gbif_tyousa.htm)」(科学技術振興事業団、2001)に挙げられているWebサイトのすべてについても同様の調査を行った。
こうして得られた結果について、複数の標本データベースのに対する統合検索スキーマである DarwinCore(http://tsadev.speciesanalyst.net/darwincore/darwin_core.asp) に定義されたデータ項目とのマッピングを行なった。

結果

全国科学博物館協議会加盟館園のWebサイト 260 件のうち標本データベースを公開しているWebサイトは8件あったが、データベーススキーマを公開しているところはなかった。また科学技術事業団の調査に協力したWebサイト132件のいずれも標本データベースを公開してはいなかった。公開されていたデータベース8件すべてで和名(資料名)による検索が可能であったほか、学名、採集地、採集年(月日)および分類群等の項目で検索可能なものがおよそ半数であった(表1)。検索結果としては、すべてのデータベースで和名(資料名)、学名、科名、採集地が得られ、ほとんどで採集年(月日)も得られたが、一方で属名、採集者名が検索結果項目に含まれているデータベースは半数以下であった(表2)。

表1 公開されている標本データベースの検索可能項目
博物館名和名
(資料名)
学名採集地採集年
(月日)
分類群保存状態登録番号その他
茨城自然博物館  
群馬県立
自然史博物館
   英名
入間市博物館       
国立科学博物館
(淡水魚)
  
岐阜県立博物館       
兵庫県立人と
自然の博物館
       
徳島県立博物館    
琉球大学資料館  方言名

表2 公開されている標本データベースにおいて検索結果として得られた項目
博物館名和名
(資料名)
学名採集地採集年
(月日)
採集者属名科名目名保存状態登録番号備考
茨城自然博物館  
群馬県立
自然史博物館
    検索結果は静的
HTMLファイル
入間市博物館     
国立科学博物館
(淡水魚)
    
岐阜県立博物館  
兵庫県立人と
自然の博物館
     
徳島県立博物館      
琉球大学資料館   
Darwin Core Scientific
Name(必須)
Country(必須)
StateProvince
Year(必須)
Month(必須)
Day(必須)
Collector
(必須)
GenusFamilyOrder Catalog
Number
(必須)
 

複数の標本データベースに対する統合検索を目的とした DarwinCoreは、必須項目としてScientificName、Kingdom、InstitutionCode、CollectionCode、CatalogNumber、Collector、Year、Month、Day、Countryを要求している。これら10項目の全てを満たすものは一つもなかった。このうち、Kingdom などの自明な項目を除外すれば 1 件、Collector も除外する様要求を緩和すれば 5 件のデータベースが条件を満たした。従って、公開されているデータベースの 6 割が DarwinCore の要求を概ね満たしており、これらがGBIFの目指す統合検索に迅速に対応し得ることになる。調査した 260 サイトのうち生物を対象としていたのは 80 サイトであったので、生物関連の Web リソースに対してこれらのデータベースが占める割合は 7% であった。研究者ないし博物館関係者への限定提供を念頭に、全国科学博物館協議会による標本資料データベースの標準化に関するアンケート調査で得られた未公開資料に基づき、一般公開されていない館内データベースについても同様の調査を行なった。この結果の公表については現在協議中である。

考察

GBIFに対して日本からの情報提供の核となるのナショナルノードを用意する最も速い方法は、既存の生物データベースに対する統合検索ポータルサイトを実装する事である。現時点でこの対象となり得るのは上記 5 箇所であり、GBIFの中間評価が行なわれる2005年末までに比較的容易に国内ポータルを実現できると思われる。DarwinCoreの必須項目を満たさなかった公開データベース、また一般公開されていないデータベースについても、協議の上可能であれば同様の実装を用意することが望ましい。
一方、データベースと称して情報公開はしているものの、実際には静的なHTMLコンテンツの集合体であって、データベースを利用したものではないというWebサイトが多く見られた。これらに対してDarwinCoreが想定している様な構造化された検索機能を提供するポータルの構築は、不可能ではないにしても困難と思われる。むしろ、Googleの画像検索に見られる様な二次的検索機能をナショナルノードで提供する方が現実的と思われる。