これまでの活動のまとめ(9月第1週の勤務)

これまで行ってきた事が乱雑になっていたので,結果をまとめてみる.

目的

次世代シークエンサ(データベースSRA)の論文とそのSRAの実験IDを対応づける事.ただ,SRAが出来る以前は次世代シークエンサの実験結果がGEOに登録されていたので,SRAとGEOの両方を抽出する.

今回行った事

これまで解析をした結果の中で,以下の3つの結果をまとめる.
1. illuminaとRoche (454)のpublication listにある論文リストに対して解析した結果
2. PMCに登録されている論文に対して,クエリを投げて取得した論文を解析した結果
3. PubMedのMeSHに検索を掛けた結果

1. illuminaとRoche (454)のpublication listからPubMedの論文リストを作成したもの

ファイル名:illumina -> pmid2sra.illumina.100810.tab, Roche(454) -> pmid2sra.roche.100810.tab.
ファイルの中は全部で6列.
1列目:PubMedのID
2列目:PMCのID
3列目:4列目のIDのデータベース名
4列目:PubMedのタグを見て取得した外部データベースのID
5列目:PMCの本文から抽出したSRAかGEOのID
6列目:GEOのIDをSRAに変換したID
結果を全部は載せられないので,一部抜粋.- は該当するものが無い事を示している.


18388141 - - - - -
18392026 - GEO GSE10825 - SRA001000
18392026 - GEO GSE10829 - SRA001000
18403677 - GEO GSE11019 - SRA001013

2. PMCに登録されている論文に対して,クエリを投げて取得した論文を解析した結果

ファイル名:pmc2sra.term.xxxxx.tab (xxxxx -> 投げたクエリ)
ファイルの中は全部で5列.
1列目:PMCのID
2列目:PubMedのID
3列目:PMCの本文から抽出したSRAかGEOのID
4列目:5列目のIDのデータベース名
5列目:PubMedのタグを見て取得した外部データベースのID
結果を一部抜粋.


2866332 20479877 SRA001156 - -
2613891 19055742 - GENBANK EU190438
2613891 19055742 - GENBANK EU190439
2613891 19055742 - GENBANK EU190440
2613891 19055742 - GENBANK EU721743

3. PubMedのMeSH Termに検索を掛けた結果

ファイル名:pmid2sra.mesh.xxxxx.tab (xxxxx -> クエリとして投げたMeSH Term)
1列目:PubMedのID
2列目:PMCのID
3列目:4列目のIDのデータベース名
4列目:PubMedのタグを見て取得した外部データベースのID
5列目:PMCの本文から抽出したSRAかGEOのID
6列目:GEOのIDをSRAに変換したID
結果を一部抜粋.


20507608 2889950 - - - -
20507562 2887456 - - - -
20506209 - - - - -
20505728 - GEO GSE20585 - -
20505179 - - - - -
20504933 Available_on_2/01/11 - - - -


結果を見ると,MeSHよりもPMCに対して単語を投げた方がSRAのIDが多く取れそう.ただし,投げたMeSH Termが良くなかったとか,複数のMeSH Termを同時に投げてみるなどの工夫をすると違うのかも.

次回

今回まとめられなかった,以下の二つをまとめる.

  • ABI (SOLiD)のpublication list
  • GEOやSRAに実験が登録された時の論文リストの結果