8月第2週の勤務

今週行った事

1.illluminahttp://www.454.com/publications-and-resources/all-publications.aspの文献リストから実験IDを抽出し,GEOのIDをSRAのIDに変換.
2.SRAのIDを抽出できたPubMedの論文から,meshが現れる頻度を求める.


1. GEO -> SRAの変換
実験IDの抽出は以前行ったが,取り漏らしがありそうだったので再抽出する.
文献リストからPubMedIDを抜き取る.論文リストのhtmlファイルから,文字列'ncbi'がある行に並んでいる数字をファイルに出力する.


$ grep 'ncbi' (論文リストが載っているhtmlファイル) | grep -o -E '[0-9]+' | sort | uniq > (抽出したPubMedのIDを出力するファイル)
結果のファイルに明らかに異なる数字(日付など)があったので,これらは手作業で除く.
PubMedのIDから,論文中の実験IDとSRAへ変換したIDを出力するプログラムを作成する.
出力結果は,PubMedID・PMCID・PubMedから抽出したIDのDB名・PubMedから抽出したID・PMC本文から抽出したID・SRAに変換したID.

18326688 2493403 GEO GSE10115 - -
18329356 - - - - -
18329373 - GEO GSE10437 - SRA000234
19146710 2687794 - - GSE12640 SRA008248


2. PubMedからmeshの頻度を求める
目的は,SRAのIDがありそうな論文の傾向を調べる事.
PubMedxmlファイルからmeshを抽出するプログラムは先週作成したので,複数のPubMedIDからmeshの個数をカウントして出力するプログラムを作成.結果は,現れたmeshとその回数.


Transcription Initiation Site 3
Polymorphism, Single Nucleotide 9
Genes, Bacterial 1

次回

meshの頻度を降順で出力する.
頻度が高いmeshをクエリで投げて取得した論文から,実験IDを抽出する.