XMLで取得できない論文

現在,PubMed Central(PMC)から論文を取得して解析しています.PMCに登録されている論文は全文利用できるのですが,登録されている論文の中にはXML形式でファイルを取得できない論文があります.(参考:放牧27日目:this article does not allow downloading... - meguu08の日記になれない覚え書き
これまで,XMLファイルを取得して解析してきましたが,上記の事が原因で,実は解析できていなかった論文がある事が判明しました.

今回の目的

PMCに登録されている論文で,XMLで取得できない論文がどの程度あるのか調べました.今回は,http://www.illuminakk.co.jp/support/literature_GA1.shtml にある論文でPMCに登録されているものについて調査しています.

結果

次に示している数字は,おおまかな論文数です.
・illuminaの論文リストでPMCに登録されているもの:130
  ・XMLで取得できる論文:50/130
  ・XMLで取得できない論文:80/130
今回調べた論文に関しては,PMCに登録されている論文の半分以上(80/130)がXMLで取得できませんでした.今回は130の論文しか調べていませんが,XMLで解析できない論文がかなり多そうなので,今後はXML形式のファイル解析以外の方法が必要になると思います.(これらの論文をどうやったら解析できるのかは,今現在id:meguu08が奮闘しています.)