デジタルライブラリーCiteSeerXの進化は続く

インターネットを介して無料で利用できるデジタルライブラリーは、いまや研究者にとって欠かせないツールです。その内の一つであるコンピューターおよび情報科学分野の学術文献のデータベース兼検索エンジンである『CiteSeer』がCiteSeerX(β版)としてリニューアルされてから10年。今も進化を続ける同ツールの有用性をあらためて見てみましょう。
■ CiteSeerとは
そもそもCiteSeerは、1998年に公開された、コンピューターサイエンスと情報科学を中心とした科学文献のデジタルライブラリー兼検索エンジンです。CiteSeerはそれまでのオンライン検索の概念を覆す画期的なもので、世界で初めて自動で引用文献のメタデータ化とインデックス化を行い、論文同士の関連付けを行ったのです。これによりユーザーは、著者名、キーワード、ジャーナル名から条件に関連する検索ができるようになりました。検索結果には、論文の本文だけでなく、参考文献内の情報も含まれます。さらにCiteSeerはPDFやHTMLファイルもクローリングの対象としており、後続のGoogle Scholarなどの学術オンラインツールの礎となりました。
ただし、CiteSeerがクローリングの対象としている論文は、著者が直接CiteSeerにアップロードしたものか、著者のウェブサイトに掲載しているもののみでした。また1日に扱える検索数も限られていましたが、これが2008年にリリースされたCiteSeerXで、機能が拡張されます。1日の対応検索数は150万件、インデックス化できるドキュメント数は75万件に達しました。
■ CiteSeerXでパワーアップした機能
他にもCiteSeerXでは、いくつかの機能が強化されています。
・被引用数統計
検索結果には、該当する論文が他の著者に参考文献として引用された回数が表示されます。また、論文がどのように引用されたのかも詳細に確認することができます。要約やキーワード、全文のPDFを参照することもできますし、興味のある他の論文のリンクをダウンロードすることもできます。
・検索機能
フルネーム、名前の一部、イニシャルでも著者名を検索できます。出版の時期や出版社、著者の所属機関など条件を指定して、検索範囲を狭めることもできます。文中に記載された表やキャプションなどの検索も可能であり、かつ指定した単語が文中にどれだけ近接して出現するか、つまり言葉の位置関係を指定して検索できる近接検索(proximity search)や、複数のキーワードをAND,OR,NOTといった半角の記号を使って演算式で検索するブーリアン検索も可能です。
・パーソナルサービス
CiteSeerXは無料で利用できますが、アカウントを作成すれば、さらにパーソナルサービスを利用することもできます。具体的には以下のような機能です。
‐ 自分用に論文や引用を収集できる
‐ プロフィールに登録しておいた論文が新たに引用された場合や、過去の自身の研究やアクセスした記事に関連する論文が出された場合に自動で教えてくれる
‐ 検索条件を保存できる
‐ CiteSeerXのデジタルライブラリーに自分の論文をアップロードでき、自動でソーシャルメディアにシェアしてくれる
■ 登録論文数は700万件を突破
CiteSeerXは、2015年までにコンピューターサイエンスと情報科学の分野で500万件の論文をインデックス化しました。この仮想AIライブラリーに登録された膨大な文献は、日々多くのユーザーによって何百万件と検索されています。さらに、毎月20万件の新しい論文が追加され続けた結果、2017年の登録論文数は700万件を突破しました。いまだ検索クローリング対象が著者のウェブサイトに公開された論文などオープンデータソースに限定されていることは課題と言えますが、自動で引用文献を収集し、文献検索や評価に利用可能な引用インデックスを作成するACI (Autonomous Citation Indexing)という機能は高く評価され、CiteSeerXはデジタルライブラリーを代表する検索エンジンの1つとして認識され続けています。
検索コスト、有用性、包括性、効率性、所要時間を改善するCiteSeerXのインデックス化技術は学術界で重要な役割を果たしており、コンピューターサイエンスと情報科学だけでなく、経済学や物理学の分野にも範囲を広げ始めています。その存在感は今後、さらに増していくと考えられます。

返信を残す

あなたのメールアドレスは公開されません。