PubMedのXMLからID抽出

PubMedIDから論文中に含まれている外部DBのID抽出の続き。

htmlファイルから抽出したIDの修正

前回http://www.illuminakk.co.jp/support/literature_GA1.shtmlから抽出したIDに取り漏らしがあったので修正しました。前回の

  • htmlファイル中の "http://www.ncbi.nlm.nih.gov/pubmed/"

以外に、

  • "http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=18436779"

と書かれているIDも抽出できるように変更しました。

ID抽出するプログラムの仕様変更

ファイルに書かれているIDを抽出できる用に変更しました。

  • オプション-fを付ければファイルから読み込み
  • それ以外の時にはPubMedID1個を抽出

文献中のIDと実験IDの対応確認

PubMedの文献中から抽出した実験IDと、実験IDから対応を取ったPubMedIDの対応を確認しました。現時点では、相互対応があまり取れていなさそうな感じがします。