PubMedから外部データベースのIDを抽出
今回の変更点
(1) PubMedのXMLに書かれているPubMed Central (PMC)のIDには、今後追加される予定のIDも書かれています。これらを区別できるようにしました。
(2) 論文から抽出するIDを、外部データベースのID全てを抽出する様に変更しました。
(1) 今後PMCに追加されるものは、"/PubmedArticleSet/PubmedArticle/MedlineCitation/OtherID"のPMCのIDの後ろに[Available on (日付)]と書かれています(例:[Available on 09/16/10])。これに該当する箇所がxmlファイルにあれば、PMCのIDの出力箇所に"Available_on_(日付)"と出力します。
(2)外部データベースのIDは "/PubmedArticleSet/PubmedArticle/MedlineCitation/Article/DataBankList/DataBank" に書かれています。
・タグ "DataBankName":外部データベースの名前
・タグ "AccessionNumberList/AccessionNumber":外部データベースのID
PMCのxmlファイルでは外部データベースのIDがタグ付けされていないため、PubMedのxmlファイルのみ解析しています。
結果の出力:PubMed_IDからxmlファイルを取得・解析し、
"PubMed_ID PMC_ID 外部データベース名 外部データベースのID"
を出力します。