#756 音声入力に自分自身が合わせていく

音声入力について気づいたことを書いていく。私は普段、音声入力を結構使っている。それは、スマートフォンからの入力がめんどくさい時もそうだし、パソコンからの入力という時も、割と使える時は使うのがよさそうな時というのは、かなり使っている。

もうキーボードを使うスピードより、やはり早いので。
もちろん音声では入力が難しいものというのはある。だからといって「キーボードをなくしてなんとかなるか」というと、全然なんとかならないのだけれども、そうではない部分――これは音声入力ができてしまうなという部分――というのは、その方が早いと思っている。

だからまず前提として、メタな判断として「音声入力を使うのか、もしくはキーボード入力を使うのか」ということの判断が手前に来るということになる。
もちろん音声入力をしてみたら全然変換がうまくいかないという時もあって、手で全部変換を直していったら結果的に面倒くさくて嫌な気持ちになるという時はある。まあその辺は慣れだということになるだろう。

音声入力がこのぐらい使えるものになったというのは、ひとえにやはり今でいう大きく言えばAIの力によるものだ。
あまり音声入力の最新のアップデートを追えていないけれども、オープンAIのWhisperが出た時点でかなりの技術的ブレイクスルーがあり、その性能には驚かされたように思う。
その時点でかなり良いものだったので、その後それがどのくらい進歩しているのか、もしくはそんなに進歩していなくて今でもだいたいWhisperぐらいのものを使っているのか、あるいはWhisperがデファクトスタンダードになっているのかどうかということは、今ちょっと調べないとわからない。

しかし感覚的には、あの時の機能性というかその変換精度――音声を文字に起こす、つまりスピーチ・トゥ・テキスト――の精度というものから、大きく改善している感じはしない。まあ十分という感じはする。

しかし問題は、おそらくこれは英語などでは起きないのだろうと思う。表音文字しかない言語だと起きないのだと思う。
……と言いながら、これは自分が英語に詳しくないのにも関わらずそのように言ってしまうと、「そうではない」というお叱りを受ける可能性があるような気がしている。
英語がどうなのかということはちょっとわからないが、とにかく日本語――自分がネイティブである日本語――については確実に言えることがある。

それは、「同じ音声だけれども漢字が違う」という時が日本語には当然それなりにあるので、それがかなり厄介であるということだ。
逆に言うと、人間はそれをうまく会話の中で、音声からどの漢字が当てはまるのか、どの漢字変換をするのかということを暗黙のうちに判断している。
なかなかすごいなあ、人間というのはすごいものだなと思っていて、そういう意味で言うと人間というのはまだまだ勝っている部分があるというか、これはもしかしたら日本語に特化したような学習をさせたりすると違うのかもしれない。
もしくは後処理の推論の部分でどうにかなるのかもしれないけれども、今のAIの議事録ソフトで単なる文字起こしではなく、その後の取りまとめ――つまり推論の部分――でも、まだ人間同様の精度には至っていない。そこにはまだ技術的な課題があるということだろう。

まあ、そのような少しネガティブなことをいろいろ書いたけれども、実際には完璧なものではないにせよ、じゃあ全く使う余地がないのか、全然使えないものなのかというと、そんなことはない。
だからこそ冒頭に述べたように、ある程度のシーンではかなり利用できる。
それは全く使えないというものではないし、全く使わない方がいいというものでもない。むしろうまく使うことで効率が上がる便利なものであるということになるだろう。

そして、話したかったこと――書きたかったこと――の本題に全く入らずにすごく長くなってしまったわけだけれども、何をしたかったのかと言うと、何を書きたかったのかと言うと、
そのような音声入力の利用であるとか、AIの議事録であるとか、そういったものの利用というものが人間側にもたらす変化、それを意識するかしないかはさておき、人間側にもたらす変化はどんなものだろうということだ。

それはまあ、あまり射程が長い話ではないけれども、まず身近な話、射程が短い話からすると――実際自分で思うけれども――少なくとも音声入力をする時は意識して滑舌をよく話すようになっている。
やっぱりだらだらと話すと音声入力の精度は低くなるし、そうするとやり直しであるとか手作業で直したりということが発生するので、まあまあめんどくさい。
だったら初めから滑舌をよく話していけば良いのであるということになるのだ。

そしてこれを繰り返していくうちに、無意識のうちに滑舌を意識しなくても自然と少しは滑舌をよく話すようになるような気がしているし、そうであるといいなと思っている。

次に、これは単なる音声入力にとどまらない話で、AI議事録のような推論が挟まる話なのだけれども、どれだけ滑舌よく話してきちんとテキストになったとしても、例えば日本語で話す時というのは主語が抜けがちであるということがよく言われている。
それは日本語の構造がそうなっているからで、我々が普段話すときは主語が省略されていることが多い。

しかしこれをAIの議事録に処理させようとした時に、それがうまくいかないこともやはりある。
そうであれば、それも意識して気をつけているうちに自然とそうなると良いと思っている。
例えば、主語と目的語ということを明確にして話すことを気をつけるようになるかもしれない。

そしてそれらの「滑舌をよく話す」ということであるとか、「主語や目的語といった普段省略しがちなものを明確にして話す」ということが、もし癖として身についたとすれば――
あるいは意識的であっても――とにかくそういうことを行うということは、対人間に話す時であっても理解しやすいものであるから、決してネガティブなものではなく、完全にポジティブなものであると思う。

だから、そういう習慣がつくということは良いことなのではないか。
AIに対して人間が合わせてあげるということが必ずしも良いことかどうかはわからないけれども、その道具を使いこなすために自分の行為を変えていく、自分がそこに合わせていくという柔軟性を人間はまだ持っている。
そしてそれが結果的に、他の人間に対しても良い効果をもたらすということはあるのではないだろうか。

2025-10-08

#756 音声入力に自分自身が合わせていく

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル