牧場活動記録 - 放牧ライフ

論文中に含まれているIDの抽出をしました。

作業手順

(1)EFetch経由で、PubMedIDからxmlファイルの取得
(2)取得したxmlファイルからPubmed CentralのIDの抽出（前回までのタグに着目、XPathを使用）
(3)EFetch経由で、Pubmed CentralのIDから、論文全文が書かれたxmlファイルを取得（クエリを投げるときに、db=pmc&retmode=xml&id=(取得したID) にする）
(4)取得したxmlファイルからIDの抽出（それぞれのDBのID構造に着目、正規表現でPattern、Matcherを使用）

(1)から(3)は前回までに作成したプログラムをほぼそのまま使用し、実際に作成したのは(4)のみ。その後、(1)から(4)をまとめて実行するプログラムを作成しました。（PubMedIDを投げたら(4)まで一気に実行。）

作成したプログラムを使って、http://www.illuminakk.co.jp/support/literature_GA1.shtmlにある論文リストから、PubMedIDを抽出しました。
・htmlファイルを取得
・htmlファイル中の "http://www.ncbi.nlm.nih.gov/pubmed/" に着目。後ろの8文字を取得
それを上記のプログラムに投げるシェルを書いて自動化しました。

IDの抽出で使用したJavaのクラスPatternやMatcherは、正規表現を使用できるので文字列抽出の時には便利そうです。