#651 音声入力の方法をアップデートしたい

そろそろ音声入力の方法をアップデートしたい.今これはVoiceInという Chrome エクステンションを使っているんだけれども句読点を入れるのがすごく難しい.そもそも句読点を入れる時にわざわざそのように発言しなくてはいけない発音しなくてはいけないというのがなかなかリズムを崩される.
面白いのがApple のOS のネイティブの音声入力はこちらは変換のクオリティはそれほど高くないんだけれどもと言っても全然悪くはないんだが最近の他のものに比べるとそれほど良くはないという程度なんだけれども句読点をちゃんと入れてくれる.
ちゃんと入れてくれるとは言ってもまあ正直言って推測して入れてくれるのでもしくは少し間が空いたりとかそういったところに入れてくれるので逆に言うと結構いらないところに入れられる時も結構あって.
わざわざ修正していることが多いからそういう意味ではその部分の精度は高くない.そうは言ってもおそらく全体の分を見てそれでここに丸が入ってるのはおかしいよねみたいな判断はおそらくねできるはずだから.ざっくりやって整えてもらうということはできるだろう.
Whisperなどを使ったものはアプリとしても存在するし アプリっていうのはまあ アプリケーションだね アプリケーションじゃないというか PC とかデスクトップのアプリケーションだね.デスクトップのアプリケーションにも存在するしそういうものを入れてもいいんだけれども以前入れていたけどその時はあまり使い勝手が良くなくて消してしまった.
そもそも音声入力の精度についてはもう概ね新報がないというか話題にもなっていない.進歩がないというのは全然悪いことではないというか現状が悪いっていうことでそれほどなくてある程度行き切ってしまったんだろう.
あとはやはり難しいのは音が同じで変換が違うもの.まあこれは変換という行為がある言語だけだけれども.例えば同じ発音で別の単語というもの別の綴りの別の単語というものはもしあればそれはなかなか難しい問題だ.文脈で判断するしかない.
例えば英語とかで発音が同じ綴りが違う単語とかあるんだろうか.似ているものはたくさんあるだろうが完全に同じっていうのはあるんだろうか.調べてみよう.
全然話は変わるんだけれども仕事上のあらゆるシーンでもはやAI をたくさん活用している.しもちろんいろんな AI ツールがあるしいろんなモデルがある.自分の場合は大規模言語モデルを使ったツールが一番やはり多い.
人によってはもちろん画像を使う人がいたりとか動画生成を使う人がいたりとか様々な用途があると思うけれども今のところ自分はやはり言語モデルを使ってることが多いなと思っている.
どのツールでも別にいいんだけれどもとにかく今それを前提としたスピード感の仕事になってしまっている.今更元には戻れない.それは仕事である以上誰かがお金を払ってくれるわけでそういう仕事のせいかとかスピード感という意味でもそうだし.
そうでないもの例えばまあ仕事ではないものだとしてもやはり自分の人生の時間というものは有限だからそれに対して例えばだがお金を払えば短縮できるスピードを早くできるそして例えば作りたいものがあってでも本当は100個あるけど自分1人だったら1個しか作れないけれどもまあ何かこう活用したら10個作れるというのはまあ良いことだ.
ただこの時考えるのは結局お金を払えばできるのであればそれは人間に依頼しても同じだ.違うのはその価格だ.単純に自分は大富豪ではないのでいくらでもお金があっていくらでも人に依頼ができるわけではない.
だから AI に依頼して AI を活用しているわけだけれどももし自分がすごくお金があればそんな必要ないのかもしれない.
そうするとこれは結局資本のゲームなどだなということがわかる.まあそもそもAI 以前に資本のゲームなんだけれども.ただその資本のゲームであるということを踏まえたとしてもそのようにいくらでも人間に依頼できるという資産を持っていない人間資本を持っていない人間が多少なりとも何かおマシにできる方法ではある.
かじゃあその差が埋まっているのかというと正直そんなことはないんだけれどもむしろ開いているんだけれども.まあ手持ちのカードでできるだけ戦っていくしかないよね.と思いながらしかし今やってるゲームが何なのかということを一歩引いてみるのが必要な瞬間もあるなあと思ったりする.
コメントを残す