Android や iOS といったモバイル端末では今や当たり前となっている音声入力ですが、 Windows では Windows 音声認識という名前でかなり昔から取り組まれていました。
しかしながらこの機能、長い歴史にも関わらず機能的に長い間更新がなされずに来ており、 マイクロソフトは音声認識が弱いと思われるところまで来ていたのではないでしょうか。
こんな感じに文字を読んで認識率を上げているのですが、最近こういったことを強制してくるスマホはないのかと思います。
そのような状況の中、 Microsfot 365 Apps の Word の機能として、突如ディクテーション(音声書き出し機能)が発表されてきました。
実際に利用するには Microsoft 365 の契約が必要となりますが、 Word Online と Microsoft 365 Apps Word の最新版( Dev Channel )で利用可能となっています。
早速 Online 版を利用してみました。この Online 版は英語だとトランスクリプトという、音声ファイルを読み込んで変換してくれるというありがたい機能がついているようです。残念ながらまだ日本語環境では使えませんでしたので、まずは通常のマイク入力を行ってみます。
事前のセットアップもなく利用することができました。
適当に「とら」と喋ったところ、ちゃんと認識されました!
このあとも適当にしゃべってみたのですが、ある程度の声量でしゃべっているとどんどん拾ってくれて面白い感じでした。この手の動作では当たり前なのかもしれませんが、連文節で言葉を認識してくれており、文の流れで前にしゃべった部分の文字が変わっていくのがすごいですね。
機能的には Azure Cognitive Service を活用しているのかと思いますが、やはり数をこなすと強くなる AI の分野に適した機能なのかもしれませんね。音声認識は。
ちなみに日本語以外にも複数の言語に対応しています。残念ながら選択式になっており、複数言語の聞き分けまではいけていないようですね。
Microsoft 365 Apps 側でも同様に動かしてみました。
こちらにはトランスクリプトはなく、今のところはマイクのみのサポートとなっているようです。
音声に入力には、コマンドもあるようで句読点の入れ方などが以下のサイトに記載されています。
@は日本ではアットマークといわれていますが、言語を英語にすると at sign となっており、言語を見て適切に対処されるようです。
ちなみにこの機能をアプリから利用するためには Microsfot 365 Apps の Dev Channel を利用する必要があります。 Microsfot 365 Apps のチャンネル変更はグループポリシーを利用すると簡単です。詳しくは以下の docs を参照しましょう。
https://docs.microsoft.com/en-us/deployoffice/change-update-channels?WT.mc_id=M365-MVP-5002496
この機能、単品ではまだまだ未知数な感がありますが、継続して品質を高めていける AI の機能があるため、今後に期待が持てます。また、マイクロソフトが注力している翻訳にも効果があるはずなので、そういった派生形の観点も見ていきたいところです。どんどん利用して、精度向上をサポートしていきたいですね。
音楽:天下攻防