今後の目標

9月末頃から活動内容が変わっているので,今後行っていきたい事をまとめました.

目標

論文中に現れる核酸塩基配列(ATGCUなどの文字列)をゲノム配列にマッピングし,「ゲノム配列のこの部分配列に関する論文リスト」を作成する事を目標としています.最終的には,GBrowseなどでゲノム配列と論文リストのマッピングを可視化したいと考えています.

手順

現時点では,以下の2つの手順を考えています.
1. 論文から核酸塩基配列を抽出する.
2. GenBankなどのデータベースの情報と比較し,論文から抽出した配列をゲノム配列にマッピングする.

現状

「1. 論文から塩基配列を抽出する」で試行錯誤中です.これまでに見つけた論文中に現れる塩基配列の書き方は以下の二通りです.

  1. TTAGGCC
  2. TTA GGC C

1. は,核酸塩基を表す文字列とその略号(参考:核酸 - Wikipedia)が並んでいるもの,2. は3文字区切りでスペースが入っているものです.
現在は正規表現で該当する文字列を取得する方法で,論文から塩基配列だけを抽出できるのか調査中です.

おまけ:今週の活動

今週はPubMed Centralから取得した論文を使って,PubMed Centralの論文IDと抽出される配列のテストセットを作りました.
作成方法は,核酸塩基を表す文字列が3文字以上連続する箇所を論文から抽出し,目で確認.これの繰り返しです.
3文字だと配列ではない文字列(DNAやUSA,DISCUSSIONからSCUSSなど)を多く抽出してしまうので,「何文字以上の文字列」というような制約が必要かと思います.