Journal サイトから論文を取得

PubMed Central(PMC)では論文がfreeで公開されていますが,Entrez Utilities 経由ではxml形式で論文が利用できない論文があります.(Webブラウザであれば,freeで論文を見る事はできます.)
このxml形式で利用できない論文数がかなりあるため,これらの論文をJournalサイトから取得するようにしました.この方法で取得できるファイルはhtml形式です.

論文の取得方法

これまでは,次の3ステップで論文のxmlファイルを取得していました.
  1. PubMedのIDから,PubMedxmlファイルを取得する.
  2.(公開されていれば)取得したxmlファイルから,PMCのIDを抽出する
  3. PMCのIDから,xmlファイルを取得する.
PubMedとPMCのファイル取得は,Entrez Utilities経由で行っています.これに次のステップ追加し,論文のhtmlファイルを取得します.
  4. PMCのxmlファイルに論文本文が載っていなければ,Journalサイトにアクセス,htmlファイルを保存する.


xml形式で利用できない論文の場合,2.で取得したPMCのxmlファイルに次の一文が記載されています.
"The publisher of this article does not allow downloading of the full text in XML form."
(参考:放牧27日目:this article does not allow downloading... - meguu08の日記になれない覚え書き
Entrez Utilities で取得したxmlファイルに上記の文が含まれていたら,4. Journalサイトにアクセスし,htmlファイルを保存します.
現時点で取得できる様にしたJournalは,次の二つです.
  ・ Proceedings of the National Academy of Sciences
  ・ Genome Research
この二つは,どちらもJournalサイトの論文のアドレスが
"Journal固定の文字列1"/volume/issue/fpage/"Journalの文字列2"
の形式になっており,volume,issue,fpage(論文が始まるページ)が分かればhtmlファイルを取得できます.この3つの情報は,2. で取得したxmlファイルから抽出できます.(PMCから取得したxmlファイルには,論文の本文はありませんが,掲載されている雑誌の情報は載っています.)
上記の方法で作成したアドレスにアクセスして,html形式でファイルを取得し,このhtmlファイルを解析しています.


この方法では,Journalサイトから取得できるのはhtml形式です.xml形式のファイルを解析したい場合には,今回の方法は適応できません.また,Jounalサイトに頻繁にアクセスしなければならないので,別の方法が思いついたら改善しようと思います.