PubMedから外部データベースのIDを抽出

今回の変更点

(1) PubMedXMLに書かれているPubMed Central (PMC)のIDには、今後追加される予定のIDも書かれています。これらを区別できるようにしました。
(2) 論文から抽出するIDを、外部データベースのID全てを抽出する様に変更しました。


(1) 今後PMCに追加されるものは、"/PubmedArticleSet/PubmedArticle/MedlineCitation/OtherID"のPMCのIDの後ろに[Available on (日付)]と書かれています(例:[Available on 09/16/10])。これに該当する箇所がxmlファイルにあれば、PMCのIDの出力箇所に"Available_on_(日付)"と出力します。

(2)外部データベースのIDは "/PubmedArticleSet/PubmedArticle/MedlineCitation/Article/DataBankList/DataBank" に書かれています。
・タグ "DataBankName":外部データベースの名前
・タグ "AccessionNumberList/AccessionNumber":外部データベースのID
PMCのxmlファイルでは外部データベースのIDがタグ付けされていないため、PubMedxmlファイルのみ解析しています。


結果の出力:PubMed_IDからxmlファイルを取得・解析し、
"PubMed_ID PMC_ID 外部データベース名 外部データベースのID"
を出力します。