これまでの活動のまとめ(9月第1週の勤務)
これまで行ってきた事が乱雑になっていたので,結果をまとめてみる.
目的
次世代シークエンサ(データベースSRA)の論文とそのSRAの実験IDを対応づける事.ただ,SRAが出来る以前は次世代シークエンサの実験結果がGEOに登録されていたので,SRAとGEOの両方を抽出する.
今回行った事
これまで解析をした結果の中で,以下の3つの結果をまとめる.
1. illuminaとRoche (454)のpublication listにある論文リストに対して解析した結果
2. PMCに登録されている論文に対して,クエリを投げて取得した論文を解析した結果
3. PubMedのMeSHに検索を掛けた結果
1. illuminaとRoche (454)のpublication listからPubMedの論文リストを作成したもの
ファイル名:illumina -> pmid2sra.illumina.100810.tab, Roche(454) -> pmid2sra.roche.100810.tab.
ファイルの中は全部で6列.
1列目:PubMedのID
2列目:PMCのID
3列目:4列目のIDのデータベース名
4列目:PubMedのタグを見て取得した外部データベースのID
5列目:PMCの本文から抽出したSRAかGEOのID
6列目:GEOのIDをSRAに変換したID
結果を全部は載せられないので,一部抜粋.- は該当するものが無い事を示している.
18388141 - - - - -
18392026 - GEO GSE10825 - SRA001000
18392026 - GEO GSE10829 - SRA001000
18403677 - GEO GSE11019 - SRA001013
2. PMCに登録されている論文に対して,クエリを投げて取得した論文を解析した結果
ファイル名:pmc2sra.term.xxxxx.tab (xxxxx -> 投げたクエリ)
ファイルの中は全部で5列.
1列目:PMCのID
2列目:PubMedのID
3列目:PMCの本文から抽出したSRAかGEOのID
4列目:5列目のIDのデータベース名
5列目:PubMedのタグを見て取得した外部データベースのID
結果を一部抜粋.
2866332 20479877 SRA001156 - -
2613891 19055742 - GENBANK EU190438
2613891 19055742 - GENBANK EU190439
2613891 19055742 - GENBANK EU190440
2613891 19055742 - GENBANK EU721743
3. PubMedのMeSH Termに検索を掛けた結果
ファイル名:pmid2sra.mesh.xxxxx.tab (xxxxx -> クエリとして投げたMeSH Term)
1列目:PubMedのID
2列目:PMCのID
3列目:4列目のIDのデータベース名
4列目:PubMedのタグを見て取得した外部データベースのID
5列目:PMCの本文から抽出したSRAかGEOのID
6列目:GEOのIDをSRAに変換したID
結果を一部抜粋.
20507608 2889950 - - - -
20507562 2887456 - - - -
20506209 - - - - -
20505728 - GEO GSE20585 - -
20505179 - - - - -
20504933 Available_on_2/01/11 - - - -
結果を見ると,MeSHよりもPMCに対して単語を投げた方がSRAのIDが多く取れそう.ただし,投げたMeSH Termが良くなかったとか,複数のMeSH Termを同時に投げてみるなどの工夫をすると違うのかも.
次回
今回まとめられなかった,以下の二つをまとめる.
- ABI (SOLiD)のpublication list
- GEOやSRAに実験が登録された時の論文リストの結果