8月第1週の勤務

目標:PubMedの論文と,書かれている次世代シーケンサーの実験ID(SRA)の対応を取りたい.

今週やったこと

1. 論文が出た時にはSRAのデータベースがなく,GEOのIDが書かれているものがあるかも.論文から抽出したGEOのIDを,SRAに変換してみる.


2. 論文検索で投げるクエリを考えてみる.これまで抽出した結果から,次世代シーケンサーのIDが書かれているものに共通の特徴はないか?

結果

1. "illumina"でクエリを投げてID抽出した結果を使って変換してみる.GEOのIDか書かれていた論文("GSE"を含むIDが書かれているもの)で,GEO -> SRA変換できたものは139本中16本.ただし,1本の論文に複数のGEOのIDが書かれているものがほとんどで,GSE -> SRA変換した個数は143個.(139本の論文からは187個のGEOのIDを抽出.)
結果のファイルはillumina_gse_sra.tab,"GEOのID","PMCのID","PubMedのID","GSE->SRA変換したID"の順番.


2. PubMedには,meshという論文のキーワード的なものが付けられている.次世代シーケンサーのIDが書かれているものに多く出てくるmeshのワードを調べる.
今週作成したのは,1つの論文に付与されているmeshを出力するところまで.
入力:pubmedxmlファイル.結果:付与されているmesh.こんな感じ↓


$ java -cp ./bin GetMesh pubmed11244113.xml
Quantitative Trait, Heritable
Cereals
Physical Chromosome Mapping
Poaceae
DNA Fingerprinting
Genome, Plant

次回

  • 1.のGEO -> SRAの変換を手作業で行ったので,ID抽出の時に同時に行う様に変更.これまで解析してきた他のものも解析し直したい.
  • PubMedのIDを複数入力して,付与されているmeshの個数を出力するプログラムを書く.