敵を知る(10月第1週の勤務)

論文に書かれている塩基配列を抽出し,論文をゲノム配列にマッピングする事で,ゲノム配列の特定箇所について書かれた論文リストを作成する事を行っています.
これには先行研究http://text2genome.smith.man.ac.uk/about.cgiがあります.今週はこのText2Genomeについて調べました.(先週の時点では,Text2Genomeのサイトを発見していませんでした.@yag_aysさん,ありがとうございます.)

Text2Genome

この研究では,以下の手順で論文をゲノム配列にマッピングしています.(この研究の論文が見つからなかったため,推測も含まれています.)
1. PubMed Central で利用できる論文から,塩基配列を抽出.(配列を抽出できた論文数:約35,000)
2. 論文から抽出した配列を,GenBankに登録されているゲノム配列にマッピング(Blastを使用?,マッピングできた論文数:約28,000)
3. GenBankマッピングできた配列の中でも,マッピングのクオリティが高いものに選定(選定結果の論文数:約10,000)
論文数は,http://text2genome.smith.man.ac.uk/download.cgiで公開されているデータをもとに推定しました.

今後の方向性

思っていたよりもText2Genomeで解析されている論文数が多かった,というのが正直な感想です.今後,改良できそうな事を以下に挙げます.


1. 高いクオリティでマップできた論文が減少
配列を取得できた論文数が約35,000に対して,ゲノム配列に高いクオリティでマップできた論文数が約10,000であり,マップしている論文が減少しています.
(1) 原因で考えられる事と解決策 その1
[原因] 配列情報のみを使ってゲノム配列にマッピング
[解決策] MeshTermの生物種などを用いて,Blastにかける時に配列情報以外も利用する

(2) 原因で考えられる事と解決策 その2
[原因] マッピングする対象がGenBankのみ
[解決策] マッピングする対象に,他のデータベースも加える.(PubMedの外部データベースリンクを利用できるかも.)


2. PubMed Centralにある論文のみ扱っている
PubMed Central 以外にも配列が抽出できそうな論文があれば,解析してリストに追加する.


上記の方法だと行き着くゴールがText2Genomeと全く同じ,という点が気になります.何かプラスアルファで追加できる事を考えながら進める必要がありそうです.