Perl勉強中～Bioinformatics（続）～

PerlでのdbSNPのXMLファイルの取り扱いについて昨日の続き・・・

2006年ごろ（dbSNP Build127当時）に正規表現で抽出するPerlスクリプトは作っていましたが、今回の最新版（Build130）では書式が若干変更されて、そのスクリプトは動作しませんでした。

NCBIのデータは比較的頻繁に書式の変更があったりするので、また正規表現で作成すると今後の手間になるので、汎用性のあるスクリプトにしておきたいところです。

前回、XML::DOMモデルでのアクセスは破綻してしまったので、読み込みながら処理をし適時処理後のデータはメモリ上から破棄してくれるXML::SAXを利用しようとおもいます。

扱い方法を調べてみると、DOMとは違い少々面倒・・・。
バイオ分野のPerlモジュールをパッケージ化したBioPerlに関連モジュールがないか探してみたところ、案の定Bio::ClusterIO::dbsnpというのが見つかりました。

使用例もあるので、大変助かります。

BioPerlには、バイオ関連の各種モジュールが揃っているので、配列だけではなく各種バイオ情報の取り扱いは非常に助かります。以前よく利用させていただいたのが、ゲノムMapを描画するモジュール群です。

最近、BioPerlはメジャーバージョンが上がり1.6.xとなりましたので、配列やSNPの情報など（特にBio::PopGen）を積極的に扱えるよう、Hackしていきたいとおもいます。