#684 音声認識にがあまりうまくいかなかった

最近、試しに使ってみている音声入力のアプリがあるのだが、それは自分が任意の操作をするまでカーソル位置に反映されない。ともすれば長い文章を入力してしまって、それが何かの問題が起きてしまった場合に、長い文章を認識して目の前に文章はあるにも関わらず、それがどこかに消えて行ってしまう、反映されないということが起きうる。これはまあ、なかなか辛いものだ。せっかく、例えば5分間入力した文章みたいなものが入力されなくなってしまうわけだから、そしてどこかに消えてしまうわけだから、まあまあ辛い。
しかも、それは履歴機能とかがあれば正直言ってなんとかするんだけれども、そのようなものはないという状態だと、本当にどこかに消えて行ってしまう。
見つけたり句読点を入れたり、個人を見つけて修正してくれたり、誤字脱字を見つけて修正してくれたりするというのは、今はだいぶAIでできる。もちろん100%完全ではないし、間違った修正をされることもあるけれども、何割かはできることは間違いがないわけだから、何割かできるということは間違いがないわけだから、そうするとスクリーニングというか、最初の段階でそれをやって、その後やるというのはまあいいだろう。つまり、AIができない部分だけ人間がやる。これをやる場合に、このことに特にデメリットやリスクはないだろう。このように、AIを使いやすい、明らかに使っても何の問題もないものと、まず最初の段階でAIを入れるというだけでも、問題が発生してしまうということは、問題が2種類、課題が2つはある。まあ2つだけではないかもしれないけど、どちらもあると思っていて。
例えば、何かを始めてしまう。つまり最初の段階で何かデータが来て、それを普段は100%、全部のデータを100、例えば100個、人間がチェックしなきゃいけなかったけれども、それをAIがチェックすることによって、最初の段階で弾くことができて、人間はそれをチェックしなくていい。半分はチェックしなくてよくなる、どうしよう。しかし、それをやろうとしても、もしその弾かれた方に問題が実は残っていた、つまりAIの判定が誤った判定だった。別にディープラーニングでもいいし、まあ最近の大規模言語モデルでもいいし、もっと古典的なものでもいいし。
結局これは、結構面白いよ。今、自分で思ったんだけれども、結構面白い話だなと自分で思ったんだけれども、記述的な言葉というものの普及について、技術的な言葉の普及というものについて。例えば、ある文脈においてはAI、AIと言っているけれども、それは大規模言語モデルであるとか、もしくは画像生成のためのディフュージョンモデルだとか、そういうもので動いていることを、まあある文脈においてはAIと言っていて、古典的な…
コメントを残す