牧場活動記録

論文中に含まれているIDの抽出をしました。

作業手順

(1)EFetch経由で、PubMedIDからxmlファイルの取得
(2)取得したxmlファイルからPubmed CentralのIDの抽出(前回までのタグに着目、XPathを使用)
(3)EFetch経由で、Pubmed CentralのIDから、論文全文が書かれたxmlファイルを取得(クエリを投げるときに、db=pmc&retmode=xml&id=(取得したID) にする)
(4)取得したxmlファイルからIDの抽出(それぞれのDBのID構造に着目、正規表現でPattern、Matcherを使用)


(1)から(3)は前回までに作成したプログラムをほぼそのまま使用し、実際に作成したのは(4)のみ。その後、(1)から(4)をまとめて実行するプログラムを作成しました。(PubMedIDを投げたら(4)まで一気に実行。)


作成したプログラムを使って、http://www.illuminakk.co.jp/support/literature_GA1.shtmlにある論文リストから、PubMedIDを抽出しました。
・htmlファイルを取得
・htmlファイル中の "http://www.ncbi.nlm.nih.gov/pubmed/" に着目。後ろの8文字を取得
それを上記のプログラムに投げるシェルを書いて自動化しました。


IDの抽出で使用したJavaのクラスPatternやMatcherは、正規表現を使用できるので文字列抽出の時には便利そうです。