Publications referring to NGS data に新データの追加

DBCLS

http://sra.dbcls.jp/cgi-bin/publication.cgiに新しくPubMedと次世代シークエンサ(NGS)のデータIDの対応を追加しました．今回追加新たに追加したものは，PubMedのMeSHで"High-Throughput Nucleotide Sequencing"が付いているものです．6月22日に25件ほど追…

2010-12-27

Journal サイトから論文を取得

DBCLS

PubMed Central(PMC)では論文がfreeで公開されていますが，Entrez Utilities 経由ではxml形式で論文が利用できない論文があります．（Webブラウザであれば，freeで論文を見る事はできます．）このxml形式で利用できない論文数がかなりあるため，これらの論…

2010-10-30

XMLで取得できない論文

DBCLS

現在，PubMed Central(PMC)から論文を取得して解析しています．PMCに登録されている論文は全文利用できるのですが，登録されている論文の中にはXML形式でファイルを取得できない論文があります．（参考：放牧27日目：this article does not allow downloadin…

2010-10-08

敵を知る(10月第1週の勤務)

DBCLS

論文に書かれている塩基配列を抽出し，論文をゲノム配列にマッピングする事で，ゲノム配列の特定箇所について書かれた論文リストを作成する事を行っています．これには先行研究http://text2genome.smith.man.ac.uk/about.cgiがあります．今週はこのText2Gen…

2010-10-03

今後の目標

DBCLS

9月末頃から活動内容が変わっているので，今後行っていきたい事をまとめました．目標論文中に現れる核酸塩基配列(ATGCUなどの文字列)をゲノム配列にマッピングし，「ゲノム配列のこの部分配列に関する論文リスト」を作成する事を目標としています．最終的…

2010-09-01

これまでの活動のまとめ(9月第1週の勤務)

DBCLS

これまで行ってきた事が乱雑になっていたので，結果をまとめてみる．目的次世代シークエンサ(データベースSRA)の論文とそのSRAの実験IDを対応づける事．ただ，SRAが出来る以前は次世代シークエンサの実験結果がGEOに登録されていたので，SRAとGEOの両方を…

2010-08-15

8月第2週の勤務

DBCLS

今週行った事 1.illlumina，http://www.454.com/publications-and-resources/all-publications.aspの文献リストから実験IDを抽出し，GEOのIDをSRAのIDに変換． 2.SRAのIDを抽出できたPubMedの論文から，meshが現れる頻度を求める． 1. GEO -> SRAの変換実験…

2010-08-08

8月第1週の勤務

DBCLS

目標：PubMedの論文と，書かれている次世代シーケンサーの実験ID(SRA)の対応を取りたい．今週やったこと 1. 論文が出た時にはSRAのデータベースがなく，GEOのIDが書かれているものがあるかも．論文から抽出したGEOのIDを，SRAに変換してみる． 2. 論文検索…

2010-06-11

GEOのデータからGEOのIDとPubMedのIDを抽出

DBCLS

今までの「PubMedの論文データ → 実験データID」の逆で、「実験データ(データベース：GEO) → PubMedの論文データID」を抽出しました。IDはメタデータの以下の文字列に着目しました。・GEOのID !Series_geo_accession = xxxx xxxxがGEOのID ・PubMedのID !Se…

2010-06-02

PubMedから外部データベースのIDを抽出

DBCLS

今回の変更点 (1) PubMedのXMLに書かれているPubMed Central (PMC)のIDには、今後追加される予定のIDも書かれています。これらを区別できるようにしました。 (2) 論文から抽出するIDを、外部データベースのID全てを抽出する様に変更しました。 (1) 今後PMCに…

2010-05-11

PubMedのXMLからID抽出

DBCLS

PubMedIDから論文中に含まれている外部DBのID抽出の続き。 htmlファイルから抽出したIDの修正前回http://www.illuminakk.co.jp/support/literature_GA1.shtmlから抽出したIDに取り漏らしがあったので修正しました。前回の htmlファイル中の "http://www.ncb…

2010-04-16

PubMedのXMLから情報抽出(2)

DBCLS

先週のPubMedのXMLから情報抽出を、JavaのXml構造を扱うDOM(Document Object Model)を使って書き直しました。 "/PubmedArticleSet/PubmedArticle/MedlineCitation/PMID/text()" という形式で直接指定できるXPathの存在に気づいたのが実装後だったため、NodeL…

2010-04-09

PubMedのXMLから情報抽出

DBCLS

PubMedのXMLファイルから、以下を抽出して出力するプログラムを作成しました。括弧の中は抽出に使用したタグです。 PubMedID () タイトル () 雑誌名の略称 (タグの) 出版された日付 (タグの中の、、、) 外部データベースへのリンク () PubMedCentralのID、Pu…

2010-03-29

PubMedのアブストラクトの取得

DBCLS

NCBIのeUtils経由で、PubMedにクエリを投げてxmlを取得しました。 eUtils PubMedやGenBankなどのデータベースから、検索結果が膨大になるxmlを取得する場合、NCBIに何度もアクセスすることになります。そのような場合に利用するサイトがeUtilsです。作業 Pu…

2010-03-14

MeCab単語の追加

DBCLS R MeCab

先日のRMeCabのインストールに引き続き、MeCabの辞書へ単語の追加をしました。http://mecab.sourceforge.net/dic.htmlを参考にしています。システム辞書とユーザ辞書、二つの追加方法がありますが、今回はユーザ辞書への追加をします。 disease.csvというフ…

2010-03-13

RMeCabのインストール

DBCLS R MeCab RMeCab

RMeCabのインストールをしました。そのログです。 Rのバージョンアップ Rのバージョンが古かったので、2.10.1にアップデートという名の再インストールです。古いバージョンのアンインストールはしなかったはず。 http://cran.md.tsukuba.ac.jp/からダウンロ…