PubMedのXMLから情報抽出
PubMedのXMLファイルから、以下を抽出して出力するプログラムを作成しました。括弧の中は抽出に使用したタグです。
- PubMedID (
) - タイトル (
) - 雑誌名の略称 (
タグの ) - 出版された日付 (
タグの中の、 、 、 ) - 外部データベースへのリンク (
) - PubMedCentralのID、PubMed Centralで全文持っている論文のみある (
)
PubMedIDに関しては、
外部データベースへのリンクは複数あるときもあれば、一つもないときもあります。また、PubMedCentralのIDは無いときもあります(IDがある場合には1つ)。
今回は単純にファイルの文字列検索で作成しました。
JavaでXmlの木構造を使う方法がありそうなので、次回はこの辺りのお勉強する予定。うまくいけばPubMedID抽出も