デジタルライブラリーCiteSeerXの進化は続く
インターネットを介して無料で利用できるデジタルライブラリーは、いまや研究者にとって欠かせないツールです。その内の一つであるコンピューターおよび情報科学分野の学術文献のデータベース兼検索エンジンである『CiteSeer』がCiteSeerX(β版)としてリニューアルされてから10年。今も進化を続ける同ツールの有用性をあらためて見てみましょう。 ■ CiteSeerとは そもそもCiteSeerは、1998年に公開された、コンピューターサイエンスと情報科学を中心とした科学文献のデジタルライブラリー兼検索エンジンです。CiteSeerはそれまでのオンライン検索の概念を覆す画期的なもので、世界で初めて自動で引用文献のメタデータ化とインデックス化を行い、論文同士の関連付けを行ったのです。これによりユーザーは、著者名、キーワード、ジャーナル名から条件に関連する検索ができるようになりました。検索結果には、論文の本文だけでなく、参考文献内の情報も含まれます。さらにCiteSeerはPDFやHTMLファイルもクローリングの対象としており、後続のGoogle Scholarなどの学術オンラインツールの礎となりました。 ただし、CiteSeerがクローリングの対象としている論文は、著者が直接CiteSeerにアップロードしたものか、著者のウェブサイトに掲載しているもののみでした。また1日に扱える検索数も限られていましたが、これが2008年にリリースされたCiteSeerXで、機能が拡張されます。1日の対応検索数は150万件、インデックス化できるドキュメント数は75万件に達しました。 ■ CiteSeerXでパワーアップした機能 他にもCiteSeerXでは、いくつかの機能が強化されています。 ・被引用数統計 検索結果には、該当する論文が他の著者に参考文献として引用された回数が表示されます。また、論文がどのように引用されたのかも詳細に確認することができます。要約やキーワード、全文のPDFを参照することもできますし、興味のある他の論文のリンクをダウンロードすることもできます。 ・検索機能 フルネーム、名前の一部、イニシャルでも著者名を検索できます。出版の時期や出版社、著者の所属機関など条件を指定して、検索範囲を狭めることもできます。文中に記載された表やキャプションなどの検索も可能であり、かつ指定した単語が文中にどれだけ近接して出現するか、つまり言葉の位置関係を指定して検索できる近接検索(proximity search)や、複数のキーワードをAND,OR,NOTといった半角の記号を使って演算式で検索するブーリアン検索も可能です。 ・パーソナルサービス CiteSeerXは無料で利用できますが、アカウントを作成すれば、さらにパーソナルサービスを利用することもできます。具体的には以下のような機能です。 ‐…