« ドラゴンスピーチの認識率の上げ方~辞書について~その1 | トップページ | ドラゴンスピーチの認識率の上げ方(修正編) »

ドラゴンスピーチの認識率の上げ方~辞書について~その2

前回、通常は「アクティブボキャブラリ」の9万語を使って変換されていることを書きました。

この「アクティブボキャブラリ」には使用頻度の高い語句が登録されているのですが、始めて使うユーザーの場合、ドラゴンスピーチは、まだその人の使う語句の「使用頻度」はわかりません(当然ですね)。

そこでドラゴンスピーチは、一般的に使用頻度の高い語句を9万語選んで(選んだのはアプリを作成したメンバーでしょう)「アクティブボキャブラリ」として登録してあるのです。
もし、その選ばれた「アクティブボキャブラリ」に登録された言葉のみを使ったとすれば(もちろん以前書いたように、きちんとトレーニングが行われ、声の特徴が登録されていることを前提として)、その認識率はとても高いはずです。

でも、実際にはその人によって、入力する文章のジャンルも違いますし、言葉遣いも違うはずです。「アクティブボキャブラリ」に登録されていない語句の場合、登録されている語句の中で、発音や使い方の近い語句に置き換えられてしまいますから、認識率は下がってしまうわけです。

そこで、実際に使用頻度の高い語句を「バックアップ辞書」から「アクティブボキャブラリ」に移せば認識率は向上します。

それにはドラゴンバーから「ツール」→「認識率向上センター」→「言語モデルの最適化」を使用します。
これは、Outlook や Outlook Express のメール文書と、パソコンのマイドキュメントフォルダにある Word、テキスト、リッチテキスト形式のファイルから、その人の語句の使用頻度や、語句の使い方を分析し、「アクティブボキャブラリ」に登録します。
つまり日の目を見なかった(?)41万語の中から、実際にその人の使用する語句が表舞台に出てくるわけです。

「アクティブボキャブラリ」は常に9万語と決まっているので(これも仕様です)、登録と同時に比較的使用頻度の低い語句が、「バックアップ辞書」に移り、変換候補から外れます。これにより、間違えて変換してしまうことが少なくなります。
つまり、ダブル効果(?)で認識率が向上するわけです。

このようにして使用する人に、より近い音声認識が可能になってきます。
ですから、他人の文章を読み込ませてはだめですよ。あくまで自分の文章のスタイルを分析させ記憶させることが、認識率向上につながるわけです。

ただし、「文書サイズが512バイト以上で、作成されて90日以内の文書」が分析の対象(これも仕様)ですので、古い文章や、短いメールは分析されません。

古い文章を分析させる方法は、次の通りです。
ドラゴンバーから「ツール」→「認識率向上センター」→「文書からの単語の追加」で、ここに文章を指定すれば、90日以前の文章でも分析させられます。

これを実行すれば、明らかに認識率はアップするはずです。
私は、仕事柄、少し特殊な言葉を多用するのですが、この方法で、認識率は格段に向上しました(^。^)

ぜひお試しください。

|

« ドラゴンスピーチの認識率の上げ方~辞書について~その1 | トップページ | ドラゴンスピーチの認識率の上げ方(修正編) »

コメント

hiro@音声認識さん
コメントありがとうございます。
大御所からコメントをいただけるなんて、とてもうれしいです。
御指摘の通り、自分の文書でなくても、先々を考えて登録というのは、確かに有意義だと思います。
ありがとうございます。
それから、「同じ物でもいいので何度か学習させる」…これは目から鱗でした。さすがです。
ソフト側からは、同じ文書も違う文書も区別はつきませんから、「使用頻度がとても高い」と分析・判断してくれますもんね。
これからも、御指摘、よろしくお願いいたします。

投稿: ひろりん | 2005年11月 8日 (火) 09時34分

こんばんわ。すばらしい記事ですね。
個人的には自分が作った文章でなくても、自分の使うジャンルの文章を学習させるのは良い効果があるように思います。
自分の文章ではまだ使ったことはないけども、そのうち使うかもしれない単語、用語、連接を、あらかじめアクティブにできるからです。
ただ、問題として、送りがなや漢字にするか仮名にするかとか、自分の好みとは違う学習状態になりますが、その場合、自分の文章を同じ物でもいいので何度か学習させると、多少よくなる気がします。

投稿: hiro@音声認識 | 2005年11月 8日 (火) 00時05分

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/148756/6939449

この記事へのトラックバック一覧です: ドラゴンスピーチの認識率の上げ方~辞書について~その2:

« ドラゴンスピーチの認識率の上げ方~辞書について~その1 | トップページ | ドラゴンスピーチの認識率の上げ方(修正編) »