大学図書館が担う、分野を超えた知の可能性 女性研究者が探るデータの未来

プロフィール

池内 有為 筑波大学大学院図書館情報メディア研究科 博士後期課程
1972年、山梨県生まれ。慶應義塾大学大学院修了後、1997年から2005年までフェリス女学院大学附属図書館に勤務。主婦を経て、3人の子育てをしながら筑波大学大学院へ。研究データ共有と学術情報流通の変化を中心に、オープンサイエンス、データキュレーション、国内外の学術情報政策に関する研究を行っている。文部科学省科学技術・学術政策研究所客員研究官、千葉大学非常勤講師など。

「研究する」とは何か

日常的に研究活動をしていない人にとって、「勉強」と「研究」の違いはわかりにくいかもしれない。ある学問を「勉強する」とは、すでに多くの科学者達によって承認された科学的に間違いのない知識を学び、身につけることだ。一方で「研究する」とは、過去の知見に新たなものを加えること。つまり研究とは、人類の知識を広げていく活動と言えるだろう。では、研究活動とは具体的にどんなことが行われているのだろうか。

どの分野においても、新しい知を切り拓く(研究する)ために、まず手がかりとなるのは「先行研究」だ。自分の研究対象について、過去にどんな蓄積があったのかを知らなければならない。先人達の積み上げた叡智を紐解き、その上に今までにない切り口や発見を付け加えることは、しばしば「巨人の肩の上に立つ 」と表現される。こうして得られた知見は学術雑誌に「論文」の形で掲載される
論文は学術雑誌に掲載される際に「ピアレビュー(査読)」という評価を受ける。査読とは、同じ分野に精通した研究者同士で論文をチェックし、その研究の新規性・有効性・信頼性・妥当性などを判断することだ。さらに、論文の価値は他の研究者からの「引用」によって裏付けられる。研究とは新しい知を積み上げる事だ。したがって自分の研究内容が、その分野の中でどこに位置づけられるのかを明確にしなければならない。そのためには先行研究を引用し、それに対して自分はどのような点で新しいことを解明したのかを記す必要があるのだ。より多く引用された論文は影響度が高いと考えられており、掲載論文の被引用回数などから学術雑誌の影響度をはかる「インパクトファクター(IF)」や「Google Scholar Metrics(GSM)」といった指標が考案されている。所属している研究者の論文の引用頻度は、大学ランキングの指標として使われることもある。

slide_001

オープンアクセス、オープンデータの潮流

つぎに、昨今話題になっている「オープンアクセス」「オープンデータ」「オープンサイエンス」といった言葉について理解しておこう。

【オープンアクセス】
1665年にRoyal Societyによって学術雑誌Philosophical Transactionsが刊行されてから、最新の研究成果は論文の形で公表され、学術雑誌を通じて科学コミュニティで共有されてきた。学術雑誌は主に大学図書館や研究機関が所蔵していたが、2000年ごろから価格高騰を契機としたオープンアクセス運動が盛んになり、多くの論文がインターネット上に公開されるようになった。こうして、ネットワーク環境さえあれば誰もが「オープンアクセス」の論文を入手し、最新の研究成果にアクセスできるようになった。

【オープンデータ】
また、研究に用いたデータを論文とセットで公開することも増えている。データの形式は、画像、動画、シミュレーション、モデル、ソフトウェアなどさまざまで、ゲノムや天文学、地球科学、環境学、物理学、社会調査といった分野で盛んに行われている。公開されたデータを再利用することで効率的に新たな研究を進めることができる。また、結果の再現や追試が可能になるため、研究の透明性が向上する。

こうしたオープンアクセス、オープンデータの潮流の背景には、情報通信技術(ICT)の進歩に加え「税金で行われた研究成果を市民へ」という理念もある。

【オープンサイエンス】
科学者だけではなく、市民もインターネットで公開された論文やデータにアクセスできるようになった。そして市民が研究についての議論や再検証に参加したり、データの採取や分類を行ったり、データを再利用して新たな研究に取り組んだりすることが可能になった。

slide_002

世界におけるデータの現状

グリッドコンピューティングなどテクノロジーの進化に伴い、世界中の研究データ量は2020年には35ゼタバイト(38兆ギガバイト)まで膨らむと予想されている。想像もつかないほど膨大な量のデータだが、効率的に整理して公開しなければ、ダークデータとして埋もれたまま失われてしまう。

世界中で公開されたデータを発見し、アクセスし、相互運用し、再利用を可能にするためには、以下の要素が必要になる。

【メタデータ】
あるデータを管理、検索、活用するために、タイトル、作成者、分野などを統一フォーマットで記述した情報のこと。

【DOI(デジタルオブジェクト 識別子)】
インターネット上で論文やデータを識別するためのユニークな(固有の)IDで、登録先やURLが変わっても、恒久的にアクセスできる。
実験データ・画像データ・プログラムコードだけではなく、論文中の図表やページなど、任意のレベルで付与することが可能である。

これまで研究者の評価は、どれだけ「たくさん引用される論文」を発表したかが重視されてきた。一方、若手研究者は、実験やプログラムの設計段階で多大な貢献をしても論文の共著者として名前が載らず、評価対象とならないケースもあった。しかし、メタデータやDOIによって、公開されたデータを参照し、引用できる仕組みが整えられつつある。つまり、データも論文と同様に業績とみなしたり、引用したり、評価したりする趨勢が生まれている。このように、研究や研究者に対する評価方法も、データを中心として変わりつつある。

【リポジトリ】
論文やデータを保存し、公開するためのアーカイブシステム。
研究機関や大学などに設置されるものを「機関リポジトリ」、データに特化したリポジトリを「データリポジトリ」と呼ぶ。

日本の機関リポジトリの数は世界トップレベルであり、大学図書館が管理運営の役割を担うことが多い。

 

slide_003

大学図書館の役割

池内さんは、オープンデータの潮流やデータを中心とした学術情報流通の変化について国内でもいち早く研究を進め、大学図書館の動向も調査している。

池内  「海外の研究者がデータを公開しなければならなくなった一番強い要因は助成機関によるデータ公開の義務化です。助成機関は研究費の申請時に、データの公開に関する計画書(Data Management Plan)を提出するよう要請しています。2003年の、アメリカのNIH(米国国立衛生研究所)の取り組みを皮切りに、海外の助成機関は次々にデータ公開の義務化を始めました。」

2015年2月現在、日本の助成機関はまだ義務化していないが、遅かれ早かれ世界の流れに合わせる事になると予想される。

池内  「研究者は研究資金を獲得するために、データを公開する手段を講じなければなりません。ただ、それは今までの研究活動に含まれていることではありませんでした。研究に使用しているデータは自分のパソコンやDVDなどに保存するだけで、クローズドな状態だったんです。それらを他の人が見ても検証や再利用ができる形に整理して公開しなければなりません。そのためには時間やお金のコストもかかるし整理する知識・技術も必要です。永続的なリポジトリも必要になる。そこで助けに乗り出したのが大学図書館だったんです。」

また、海外の大学図書館は研究に対する専門性を持っていると池内さんは語る。

池内  「北米の研究図書館の図書館員は、(図書館情報学の)修士号や博士号を持っていて、さらに他の分野の修士号や博士号を持つ“サブジェクト・ライブラリアン”という、非常に専門的な職務が存在します。日本では図書館員が専門職として確立しておらず、大学図書館が研究支援に手が出せていない部分もあります。一方で、URA(University Research Administrator)といって、(研究に関わる管理業務を行う)リサーチアドミニストレータの取り組みが始まりました。研究の専門的な部分はURAにお任せして、リポジトリの運営やデータの公開に関する部分で大学図書館が関わっていく、という協力体制を築いていくのが日本は理想だと思います。」

データキュレーションの最先端、エジンバラ大学での体験

池内  「そもそも私は大学図書館での勤務経験がありまして、大学図書館が大好きなんです。ここ15年くらいで資料がどんどん電子化されて、特に研究の中心である学術雑誌が電子ジャーナルになっていきました。今まで図書館に来なければ手に入らなかった研究論文が、個人の研究室から直接電子ジャーナルにアクセスして入手できるようになりました。それはマイナス面として捉えれば、大学図書館の存在意義が低下してしまったということかもしれません。でも逆に言えば、いままで大学図書館員が物理的な資料の処理に追われていたことから解放され、もっと質の高いサービスにコストをかけることができるようになったということです。」

今後大学図書館はどうあるべきかについて考えていた頃に出会ったのが「データキュレーション」という取り組みだ。

池内  「研究者が作ったデータを預かり、整備・組織化してリポジトリで公開するという取り組みを知りました。これだ!!と思いました。」

データ公開やオープンサイエンスに取り組むことは、今までの大学図書館の強みを生かしつつ、研究支援にも貢献できると考えた池内さんは、筑波大学の研究交流制度を利用して、データキュレーションの先進的な取り組みをしているエジンバラ大学を訪れる。

池内  「文献で読んで、なるほどこれだ!と思ったものの、本当に図書館員に専門的なデータを取り扱うことが可能なのかが疑問でした。図書館員は出版物など、すでにある程度のフォーマットがまとまっているものを扱ってきました。フォーマットが決まっていれば、内容が理解できなくても整理することが可能なんです。(多種多様な)データが集まってきた時に、本当に図書館員が組織化できるのかを知りたくて、エジンバラ大学へインタビューにいきました。」

エジンバラ大学には「デジタルキュレーションセンター」という、世界全体の研究データ公開を支える機関がある。

池内  「ライブラリアンも専門性を高めて研究の最新事情に精通しなければならない、と言われてしまうのかなと思っていましたが、とても楽観的なコメントを頂きました。データリポジトリの中身を見せてもらったところ、私たちにもなじみのあるエクセルデータや画像データなどが多く、データ容量が大きいペタバイト単位のものなどは専門機関に任せているということでした。」

エジンバラ大学にはヒッグス粒子を提唱してノーベル物理学賞を受賞したヒッグス博士も所属している。ヒッグス粒子の検出に用いられるような莫大なデータの管理はCERNが担っている一方で、大学では研究者が分析を終えた最終版の縮小データやバックアップデータを管理しているそうだ。担当者は、多くの世界大学ランキングで20位前後に位置するエジンバラ大学の研究力はデータキュレーションが支えているという。

池内  「世界中の図書館員たちが集まって話し合いながら、実現可能な形でデータを保存する取り組みを進めている、ということが実感としてわかりました。名前はデータキュレーションと変わりましたが、図書館は太古の昔から、人類の知識を集めてわかりやすい形で公開し、長期保存するという営みを続けてきました。その対象が出版物からデジタルデータに変わっただけで本質的な役割は変わっていないんです。」

オープンサイエンスの未来

科学論文や研究データは、かつては研究者コミュニティの中でのみ共有されていたものだった。これら研究成果のデジタル化とオープン化は研究者にとっての効率化だけでなく、我々一般市民にも研究に参加する余地が生まれたという事でもある。

オープンサイエンスの事例として「Galaxy Zoo」がある。
天体望遠鏡が撮影した膨大な数の銀河や星の写真を世界中の人々が分類していくという取り組みだ。参加者は表示された銀河がどんな形に見えるか、写真にどんな特徴が発見できるかを回答していく。さらにオンライン上のフォーラムでは、解明されていない事象についての議論が活発に行われ、世界中の参加者による検証を経て新たな発見が論文にまとめられるという成果も生まれている。

自然科学の分野のみならず、データを公開する事で研究が強化された例は経済学などでも巻き起こっている。フランスの経済学者トマ・ピケティの著書『21世紀の資本』のインパクトは、その分析結果が衝撃的だっただけではない。ピケティが15年間にわたり調査した過去300年分もの世界の経済データを公開したことによって、誰でも検証や新たな分析をすることが可能になった。Financial Timesをはじめ多くの検証が行われた、非常に画期的な事例と言えるだろう。

池内  「オープンデータの話は始まったばかりです。実際にはまだみんなが使えるデータというのはごく一部です。今後データの公開が広がり、パソコンの処理能力が向上し、分析のためのソフトウェアの開発などが進んでいけば、誰もが科学の発展や加速に寄与できるようになると思います。」

すでに諸外国では学校教育の中で、オープンデータを使った学習が進められている。日本でもデータサイエンティストの育成は国を挙げて力を入れようとしている分野だ。

池内  「もう一つ、科学にとって重要になると思われるのは分野を越えたマッシュアップです。別々の分野の知見を合わせて、新しい知見が生まれるということが強く期待されています。今まで思いもよらなかったような発見が分野や国を越えて行われるようになると思います。」