PubMedのXMLから情報抽出

PubMedのXMLファイルから、以下を抽出して出力するプログラムを作成しました。括弧の中は抽出に使用したタグです。

PubMedID ()
タイトル ()
雑誌名の略称 (タグの)
出版された日付 (タグの中の、、、)
外部データベースへのリンク ()
PubMedCentralのID、PubMed Centralで全文持っている論文のみある ()

PubMedIDに関しては、でも抽出はできますが、タブにある（今回抽出したい物とは別のID）も抽出されてしまうため、を使用しました。
外部データベースへのリンクは複数あるときもあれば、一つもないときもあります。また、PubMedCentralのIDは無いときもあります（IDがある場合には1つ）。
今回は単純にファイルの文字列検索で作成しました。
JavaでXmlの木構造を使う方法がありそうなので、次回はこの辺りのお勉強する予定。うまくいけばPubMedID抽出もに着目してできるようになる…？