skip-bigramを入れた akaza 0.5.0 が出た

https://github.com/akaza-im/akaza/releases/tag/v0.5.0

k-bestを先日対応したのだが、k-bestで出した結果をちょっと味付けするフィーチャーを入れて、リランキングすることにした。 length-weight というパラメータを入れたのだが、これが効いた様子。

そしてついに、念願の skip-bigram を入れた。これは、「夏/は/暑い」と「板/は/厚い」のように、隣接しないで1個飛ばした単語の出現頻度を使うことで、かな漢字変換の精度を上げる試み。本来ならtrigramを使ってもいいのだが、trigramを使うと重くなるのとスパースになりすぎるので、skip-bigramにしてみた。今までだとトレーニングコーパス用意してチューニングするのは無理なケースがあったけど、これで大体のケースはトレーニングコーパスでチューニング出来るようになった。

あとは、やるとしたら故事成語とか諺を単語としてぶち込むぐらいしか、現実的な精度を上げる施策は思いついていない。

ちなみに、skip-bigram を入れたらめっちゃモデルの作成に時間がかかるようになって、1時間半ぐらいだったのが3時間半くらいになった。とはいえ、やってることを考えればそんなもんか。

Published: 2026-02-12(Thu) 21:16