PubMedのXMLから情報抽出

PubMedXMLファイルから、以下を抽出して出力するプログラムを作成しました。括弧の中は抽出に使用したタグです。

  • PubMedID ()
  • タイトル ()
  • 雑誌名の略称 (タグの)
  • 出版された日付 (タグの中の、)
  • 外部データベースへのリンク ()
  • PubMedCentralのID、PubMed Centralで全文持っている論文のみある ()

PubMedIDに関しては、でも抽出はできますが、タブにある(今回抽出したい物とは別のID)も抽出されてしまうため、を使用しました。
外部データベースへのリンクは複数あるときもあれば、一つもないときもあります。また、PubMedCentralのIDは無いときもあります(IDがある場合には1つ)。
今回は単純にファイルの文字列検索で作成しました。
JavaでXmlの木構造を使う方法がありそうなので、次回はこの辺りのお勉強する予定。うまくいけばPubMedID抽出もに着目してできるようになる…?