VCFファイルにKyoto Cabinetを使ってみたが

割と大きな(数ギガ)のテキストデータを検索する必要があり、Kyoto Cabinetを使ってみた。
ネットにあるのはオンメモリの例がほとんどで、ファイルベースで使ったところ30分ぐらい動かし方が分からなかった。はまったところはファイル名。拡張子で判断していて、".kch"を拡張子としないとオープンできずエラーになってしまう。
あとは、openの引数に"w"とか使えないのがちょっと不便。C(UNIX?)っぼい"OWRITER|OCREATE"と指定する必要がある。

まずは、データベースを作るための作業をしたが、全く終わる気配なし。 数ギガのファイルを読んでまた書き込むんだからしょうがない。
結局、検索したい領域のリストを先に作っておいて、GATKのVariantFiltrationを使うのが早いことが分かった。何のことはない、 上記のテキストデータ(VCFファイル)のインデックスファイルが既に用意されていて、GATKのツールはそれを参照するので早いわけ。要はデータベース化はGATKのチームがやっていてくれたということ。
自分で一からやらずに、その業界のツールを使った方がいいというありふれた結論。
ただし、複数のインデックスの手法(GATKとsamtools)があり、まだ混沌としている感じ。