Publications referring to NGS data に新データの追加

http://sra.dbcls.jp/cgi-bin/publication.cgiに新しくPubMedと次世代シークエンサ(NGS)のデータIDの対応を追加しました.今回追加新たに追加したものは,PubMedのMeSHで"High-Throughput Nucleotide Sequencing"が付いているものです.6月22日に25件ほど追…

Journal サイトから論文を取得

PubMed Central(PMC)では論文がfreeで公開されていますが,Entrez Utilities 経由ではxml形式で論文が利用できない論文があります.(Webブラウザであれば,freeで論文を見る事はできます.) このxml形式で利用できない論文数がかなりあるため,これらの論…

XMLで取得できない論文

現在,PubMed Central(PMC)から論文を取得して解析しています.PMCに登録されている論文は全文利用できるのですが,登録されている論文の中にはXML形式でファイルを取得できない論文があります.(参考:放牧27日目:this article does not allow downloadin…

敵を知る(10月第1週の勤務)

論文に書かれている塩基配列を抽出し,論文をゲノム配列にマッピングする事で,ゲノム配列の特定箇所について書かれた論文リストを作成する事を行っています. これには先行研究http://text2genome.smith.man.ac.uk/about.cgiがあります.今週はこのText2Gen…

今後の目標

9月末頃から活動内容が変わっているので,今後行っていきたい事をまとめました. 目標 論文中に現れる核酸塩基配列(ATGCUなどの文字列)をゲノム配列にマッピングし,「ゲノム配列のこの部分配列に関する論文リスト」を作成する事を目標としています.最終的…

Finkのインストール(MacOS 10.6)

Snow LeopardでFinkをインストールしました.詳しい手順はFink - Source Release Downloadを参照してください. 1. ダウンロード fink-0.29.10.tar.gzをダウンロード.保存場所は適当な場所でOKです. $ tar -xvzf fink-0.29.10.tar.gz $ cd fink-0.29.10 2.…

これまでの活動のまとめ(9月第1週の勤務)

これまで行ってきた事が乱雑になっていたので,結果をまとめてみる. 目的 次世代シークエンサ(データベースSRA)の論文とそのSRAの実験IDを対応づける事.ただ,SRAが出来る以前は次世代シークエンサの実験結果がGEOに登録されていたので,SRAとGEOの両方を…

8月第2週の勤務

今週行った事 1.illlumina,http://www.454.com/publications-and-resources/all-publications.aspの文献リストから実験IDを抽出し,GEOのIDをSRAのIDに変換. 2.SRAのIDを抽出できたPubMedの論文から,meshが現れる頻度を求める. 1. GEO -> SRAの変換 実験…

8月第1週の勤務

目標:PubMedの論文と,書かれている次世代シーケンサーの実験ID(SRA)の対応を取りたい. 今週やったこと 1. 論文が出た時にはSRAのデータベースがなく,GEOのIDが書かれているものがあるかも.論文から抽出したGEOのIDを,SRAに変換してみる. 2. 論文検索…

GEOのデータからGEOのIDとPubMedのIDを抽出

今までの「PubMedの論文データ → 実験データID」の逆で、「実験データ(データベース:GEO) → PubMedの論文データID」を抽出しました。IDはメタデータの以下の文字列に着目しました。 ・GEOのID !Series_geo_accession = xxxx xxxxがGEOのID ・PubMedのID !Se…

PubMedから外部データベースのIDを抽出

今回の変更点 (1) PubMedのXMLに書かれているPubMed Central (PMC)のIDには、今後追加される予定のIDも書かれています。これらを区別できるようにしました。 (2) 論文から抽出するIDを、外部データベースのID全てを抽出する様に変更しました。 (1) 今後PMCに…

PubMedのXMLからID抽出

PubMedIDから論文中に含まれている外部DBのID抽出の続き。 htmlファイルから抽出したIDの修正 前回http://www.illuminakk.co.jp/support/literature_GA1.shtmlから抽出したIDに取り漏らしがあったので修正しました。前回の htmlファイル中の "http://www.ncb…

牧場活動記録

論文中に含まれているIDの抽出をしました。 作業手順 (1)EFetch経由で、PubMedIDからxmlファイルの取得 (2)取得したxmlファイルからPubmed CentralのIDの抽出(前回までのタグに着目、XPathを使用) (3)EFetch経由で、Pubmed CentralのIDから、論文全文が書…

輪講:アルゴルズムデザイン(第3回)

月曜の輪講のメモです。前回まではこちら↓ 輪講:アルゴリズムデザイン(第2回) 輪講:アルゴリズムデザイン(第1回)今回は、前回の最小全域木の実装、クラスタリング、Huffman符号です。(〜4章) PrimとKruskanのアルゴリズムの実装(最小全域木問題) 頂…

PubMedのXMLから情報抽出(2)

先週のPubMedのXMLから情報抽出を、JavaのXml構造を扱うDOM(Document Object Model)を使って書き直しました。 "/PubmedArticleSet/PubmedArticle/MedlineCitation/PMID/text()" という形式で直接指定できるXPathの存在に気づいたのが実装後だったため、NodeL…

輪講:アルゴリズムデザイン(第2回)

月曜の輪講のメモです。第1回はこちら↓ 輪講:アルゴリズムデザイン(第1回)今回は、前回証明できなかったところの証明(アルゴリズム4.1、4.2、4.3)と、最小全域木の証明までです。(〜p136) アルゴリズム4.1 区間スケジューリング 問題 それぞれ開始時間s…

PubMedのXMLから情報抽出

PubMedのXMLファイルから、以下を抽出して出力するプログラムを作成しました。括弧の中は抽出に使用したタグです。 PubMedID () タイトル () 雑誌名の略称 (タグの) 出版された日付 (タグの中の、、、) 外部データベースへのリンク () PubMedCentralのID、Pu…

輪講:アルゴリズムデザイン(第1回)

研究室の輪講で、「アルゴリズムデザイン」を読みます。アルゴリズムデザイン作者: Jon Kleinberg,Eva Tardos,浅野孝夫,浅野泰仁,小野孝男,平田富夫出版社/メーカー: 共立出版発売日: 2008/07/10メディア: 単行本購入: 10人 クリック: 421回この商品を含むブ…

読んでおきたい論文

今まで勉強したことをまとめるにあたって、読み直したい論文、新たに読んでみたい論文が出てきたので、まとめました。全てグラフを解析している論文です。読んだ後に気が向いたら、内容をまとめてアップするかもしれません。 モジュラリティの最大化 GN法 Fi…

PubMedのアブストラクトの取得

NCBIのeUtils経由で、PubMedにクエリを投げてxmlを取得しました。 eUtils PubMedやGenBankなどのデータベースから、検索結果が膨大になるxmlを取得する場合、NCBIに何度もアクセスすることになります。そのような場合に利用するサイトがeUtilsです。 作業 Pu…

MeCab単語の追加

先日のRMeCabのインストールに引き続き、MeCabの辞書へ単語の追加をしました。http://mecab.sourceforge.net/dic.htmlを参考にしています。 システム辞書とユーザ辞書、二つの追加方法がありますが、今回はユーザ辞書への追加をします。 disease.csvというフ…

RMeCabのインストール

RMeCabのインストールをしました。そのログです。 Rのバージョンアップ Rのバージョンが古かったので、2.10.1にアップデートという名の再インストールです。古いバージョンのアンインストールはしなかったはず。 http://cran.md.tsukuba.ac.jp/からダウンロ…