学術コンテンツサービスの舞台裏　-基盤技術をめぐる国内外の取り組み-

（以下敬称略）

日時：2011年11月10日　15:30-17:00
場所：図書館総合展第2会場
主催：国立情報学研究所
講師：武田英明（学術コンテンツサービス研究開発センター長・教授）、相澤彰子（コンテンツ科学研究系教授）、蔵川圭（学術コンテンツサービス研究開発センター特任准教授）
　　　

記録

コネクトするNIIサービス（武田英明）

先ほどのセッションでは、CiNiiの話をしたが、このセッションではCiNii以外のサービスの話を中心にしていく
われわれは何を目指して日々研究開発を行っているか
一言で言うと、Open&Connected
その前はClosed、Isorate
- 閉じたサービス、バラバラなデータ

一昔前にも様々な学術情報サービスがあった
しかしここはバラバラで、垂直方向に展開していた
今はそれらのサービスが横に繋がっている
これがOpen&Connected
CiNii、JAIRO、KAKEN、Webcat
- それぞれのサービスに色々なリンクが増えている

研究は何といってもまず人
- そこに焦点をあてたのがここ数年のNIIのサービス
- NIIのサービスを人でつないでいく

Open&Connectedとは？
- API提供
- RDF提供
- データ提供
- 論文同定
- 研究者同定
- 研究者リゾルバー
- 名寄せ
- 内外を問わないシステム連携

１．研究者リゾルバーとJAIRO著者名検索　２．KAKENデータべすの機能拡張（蔵川圭）

研究者リゾルバーの目的

基本機能
- 日本の研究者を対象としたWeb上の識別子
- Web上の研究者リソースのリンキングハブ

取り扱う情報
- 研究者の基本情報と研究業績リストをベースとしたリンクマネージメント

研究者リゾルバー
- 研究者を表す13桁の番号で考えている
- この番号を研究者リゾルバーIDと呼ぶ

初期登録
- 呼び水として科研費データベースKAKENのデータを利用して研究者を登録
- 要素としては姓名、所属機関、部局、職名、研究業績など

研究者リソース

web上の研究者ID集合を持つデータベース
- 異なる研究者ID集合間のマッチング、同定
- 研究者リソースリンキング

クロールによるアプローチ

研究者ディレクトリをクロール
研究者ページのURLを特定
- それぞれのURLに対して研究者名を特定
- 漢字氏名・機関が一致し、期間内でユニーク名が居ない時同一人物と判定

本年度226大学の研究者ディレクトリに対してクロール
- 約2万件のリンクを達成
- 登録全体の12％

機関のデータアップロードによるアプローチ

データ
- 研究者の基本情報と研究業績リストを収集
- Researcher IDで利用されるXMLスキーマを日本語化して独自拡張

応用
- 研究者リゾルバーIDと外部サービス識別子とのマッピングテーブルを構築
- 外部の研究者リソースとの同定処理

機械によるアクセス
- 研究者情報をRDF形式で出力している

研究者IDマッピングテーブル関連ウェブサービス

JAIRO著者名検索への応用

研究者リゾルバーをJAIROの著者名典拠として位置付けることによって、JAIRO著者名検索を実現する

リポジトリ側で対応してほしいこと
- JAIROがハーベストするフォーマット（junii2）のcreatorフィールドにID（anyURI）属性をいれる
- 研究者リゾルバーのURIをIDとして付与する
- 独自のIDをもとにURI化し、IDとする

金沢大学、静岡大学、NIMSと実証実験中
- 研究者リゾルバーはJAIROの著者名典拠
- 参加者募集中

JAIROのIDで検索する事によって機関を超えた正確な検索結果を返す事が可能に

２．

科学研究費補助金システムKAKEN

研究課題や研究者で検索することによって研究成果が返るようにする

今度は研究機関も対象に検索できるようにする
- その為には研究機関の名寄せが必要

実際のデータ

研究課題実施機関
研究機関番号（文科省の定める五ケタの数字）
同じ機関で名称変更にも対応できる（例：東京教育大学→筑波大学）
- しかし、再利用されている大学もある
- たとえば図書館情報大学の番号は後に筑波技術大学のIDになった
- 表記ゆれもある（例としては慶應義塾と慶応義塾）

研究者の所属
- 機関番号なし
- 表記ゆれと誤読が大量に発生しやすい

機関名名寄せができると

正確な検索が可能になる
統計分析が可能になる
研究キーワードによる研究機関ネットワーク分析が可能になる

まとめ

研究者リゾルバーとjairo著者名検索

著者名名寄せ
参加者募集

科研費データベースKAKENの拡張

機関名名寄せ

名寄せ　学術コンテンツへの適用（相澤彰子）

はじめに

海外からの投稿か国内からの投稿か、というのは研究者がどの機関員所属しているかによる
- しかし実際のデータは表記ゆれや誤記が非常に多い

名寄せの歴史

1946年にはじめて論文で指摘された
- 「record linkage」
1959年に計算機による自動化についての論文も出ている

名寄せは計算機が誕生する前から存在する情報管理における課題である

NIIにおける名寄せの歴史

NACSIS時代
- 図書カタログ
- 雑誌名典拠

CiNiiの立ち上げ準備
- それまで独立に動いていた複数の書誌データベースを統合して一つの窓口で提供する

CiNii著者検索
- バラバラだった著者名を研究者ごとにグループ化して提示
- 著者名寄せ→科研、研究者リゾルバー

名寄せの考え方

似ている事と同じである事を区別すること
- 似て見えるから同じ物を指す
- 違って見えるから別のものを指す

判定処理と判定コスト
- レコードの数が一千万件だと組み合わせは数十兆
- 名寄せは全自動では出来ない
- しかし全てを人でで判定する事も出来ない

書誌情報の名寄せ

最初の名寄せはデータベースのクリーニングの為に行われた
書誌名寄せのニーズ
- 文献リストを受け取ってオーソライズされたIDをつけて返す処理

研究者の名寄せ

本日の主題
書誌情報の名寄せとは少し様子が違う

研究者名寄せをしようとした当時、研究者にIDがなかった
- 実体と1:1に対応がとれる識別子を付与するのは難しい
- Authorized ID

研究者の同定
- オーソライズされたIDをもつ研究者はごく一部
- 名寄せ結果が必ず正しいとは限らず、絶えず修正される可能性がある
- 故に研究者の名寄せは新しくIDを振るのではなく、IDとIDを紐づけするという考え方で進める
- 何と何が同じなのかというリンクを管理するという基本的な考え方

IDの書き換えは順位を上げる方向だけ

リンクをどのように管理するか
- ペアワイズ判定（著者Aと著者Bは同一人物か）
- グループ化（同じ研究者の論文を集める）

著者同定のコア部分
- 利用者からのフィードバック
- サンプルデータに対する判定結果
- ユニークIDをもつ外部リソース
- 計算機による自動判定

オープン環境を想定したかなりウェットな名寄せシステムを運営している
- 絶えずチューニングされている

Orcid入門（武田英明）

ここからはNIIの話ではなくて、世界の動向の話をする
Orcidの世界向けのプレゼンをローカライズしたもの

現状

世界中で約2700万人の研究者（scopus調べ）
- 企業研究者、政府・研究機関研究者含む
- 学生は含まない

研究者のユニーク同定は非常に困難

名寄せの必要性

武田英明という名前で情報研究者、酪農研究者、サッカー選手、作家の四人がweb上でヒットする

Hideaki Takedaという名前だと武田英明、武田秀明、武田英昭……

H.Takedaという名前だとさらに困難

Wei Wangという中国人だともっと大変

各データベースが個別のルールでIDを振るのはまずい
- ID同士が衝突してしまい同定出来なくなる
- 一つのコミュニティでは全ての著者を網羅するのは難しい

orcidの目的と意味

orcidは信頼できる著者とその業績に信頼できる属性を付与することで、永続的で明確で曖昧性のない学術コミュニケーションをつくる
全ての研究者に固有のIDをはこうすることで、研究者や研究所、学会、出版社の発見や評価を可能にする

研究者にとっての意義
- 過去五年に私が出版したものは
- 興味あるこの論文の著者の他の論文は
- 研究協力者をみつけるには

大学にとっての意義
- 我が組織の昨年の研究業績は
- うちからはどんなOA論文を出しているのか
- 我々の強い研究分野、弱い研究分野は何か

学会にとっての意義
- うちの会員の昨年の研究業績は
- うちの会員はどんなプロジェクトや研究助成、賞をとっているのだろう
- どのくらい会員同士の共同研究はあるのだろう

研究助成機関にとっての意義
- 助成応募者の著作論文は
- 助成の結果として出版された論文は
- 研究プロジェクトによってどんなデータセットが公開されたのか

出版社にとっての意義
- ジャーナル投稿システムで王立的に著者と査読者を補足したい
- 既出版論文を含めてもっと著者のことが知りたい
- この著者と共同研究しうる査読者は

このようにメリットがあることは明らか

orcidの概要と展望

orcidは2010年に非営利法人として発足

基本的には英米中心、欧州諸国も多い
- アジアからの参加はまだ少ない

多様なステークホルダーによる理事会
- 出版社、大学、研究所など

方針としては基本的にオープンであるという点が挙げられる
- プロファイルデータやソフトは全て公開される
- ただし、維持運営のため一定の費用負担は生じる
- 研究者本人に負担がかからない事を原則としている

orcidベータ版の概要
- 現在活動している研究者に限る
- データは個人と組織から
- 個人深刻と組織申告のIDを併せるハイブリッド型システム
- フェーズ1での名寄せは最低限
- 来年の初頭は最低限のデータで運営を開始する

どうやったらorcidは成功するのか

大学がorcid IDをメンバーに提供する事
出版社がorcid IDを論文投稿に利用する事

既存の研究者ID活動と連携
- 出版社、大学、独自プロジェクトによるIDとのリンク

名寄せ技術の開発・獲得
- OCLC VIAF
- ProQuest Author Resolver

まとめ

orcidは自己申告アイデンティティと外部申告アイデンティティを両方利用する
- 上手くいくか、というのは技術的に非常に難しい問題

orcidは更に外部のIDシステムとも連携する

メンバーとスポンサーを募集している
- 興味があればぜひHPを見て頂きたい

NIIとしては

orcidは研究者リゾルバーと同じような事をやっている
- 研究者リゾルバーの世界版と呼べるかもしれない
NIIもorcidに技術協力が出来るかもしれない

質疑

Q:研究者リゾルバーでのID付与というのとorcidのデータはリンクされるのが自然な気がするのだがそのあたりの計画はどうなっているのか
A:われわれとしてはやりたい。ただし、微妙なところで、データを外に出せるか否かという問題がある。研究者リゾルバーはある意味NIIが責任をもってやっている。我々の立場としては公開リソースを利用して、アシストするという姿勢。ただし、これを外部に提供するとなるとNIIの責任の範囲を超えるのではないかというのが気にしている所。コミュニティ全体の事を考えればリンクした方が利益になるのは間違いないとは思う。が、どうなるかは分からない。なんとかはしたい。

Q:orcidについて色々なグループが入っているようだが、どのデータに誰が責任を持つのかというような議論はあるのか
A:orcidは出版社発案で始まり、大学や機関を巻き込んだという経緯がある。どちらかというと民間主導に寄った活動。良いニュースとしてはNSFがかなり強い興味を示している。彼らが加わるとなるとかなり話が変わってきて、一気にナショナルIDになっていく可能性もある

Q:学術コミュニケーションを支援するという事だが、学術コミュニケーションと一口にいってもレンジが広いと思う。本来論文などからはかなり遠い部分の学術コミュニケーションについてはどのように考えているか。
A:研究者というのは自分の名前で仕事をしている。名前で仕事をしているというのはどういう職業が考えられるかというと、政治家や芸能人、芸術家。しかし研究者というのは組織に所属しているのに名前で仕事をしているというかなり特異な存在。orcidのIDが普及すると、研究世界のパスポートや名刺代わりのような、もっと将来的なことをいうと履歴書のような役割を果たしてくれないか、と期待している

Q:研究者の同定という事で、NIIの方から研究者の方に積極的に同定に参加して欲しいというような要請はしたのか
A:NIIの方でもかなり議論があった。所属機関の人なら簡単に出来る作業ではないかと考えたから。しかし結局言わずじまいになっている。それは是非積極的に色んな所でやってほしい。それはまさにデータのキュレーションと言える　

フォーラムを見た感想

研究者リゾルバーや研究者の名寄せについてなど、普段は意識しないサービスの裏側についての説明をとても興味深く聞きました。いずれも色々な問題があるようですが、データベースの中での研究者の同定が進み少しでも資料探索の際のエラーが少なくなる事を期待します。
　　　
　　　
（執筆：松野渉）