ぼくの考えた最強の音声入力機能

　私は音声入力が大好きです。

　単純に「今すでに便利だから」というのもあるのですが、それ以上に将来性を買っている面が強く、そのため早くから慣れておこうと、生活の中に少々強引に音声入力をねじ込んでいたりします。

　いつの日か、世の中のほとんどの人が文章を書くときに音声入力を使うことになるだろう、というのが私の現実的な予測です。

　とはいえ、現在の音声入力機能は、好意的に言っても発展途上。

　すでにかなりの認識精度を誇っており、コツを掴めばとても便利に使うことができるのですが、まだまだ完成度が足りません。

　ここで言う「コツを掴む」というのは、現状の音声入力機能の未完成な部分をユーザーが補完するという意味なわけですが、本当はそんなことをしなくても望むままのパフォーマンスを得られるべきですよね？

　というわけで、音声入力大好きな私としては、常に夢見ているというか、妄想をしているわけです――最強の音声入力機能とはどんなものなのかを。

　今日はその妄想について、少し書いてみたいと思います。

　もちろん（？）この記事自体も、音声入力で書きました。あくまでも下書きであって、清書は手書きで行いましたけどね（この辺が発展途上たる所以）。

最強の音声入力機能の条件
今の音声入力機能に足りないもの
現状のベストな使い分け
どれが最初にすべてを備えるのか？
まとめ

最強の音声入力機能の条件

　最強の音声入力機能とはどのようなものでしょうか？

　一言でいってしまえば「使っていて何も不自由がなく、しかも望んだ通りの100%の文章をアウトプットできる機能」となりますが、これだと抽象的で、うまく掘り下げることができません。

　そこで、ここでは「最強の機能ならば必ず持っているだろう要素」について、5つほどピックアップしてみました。

　それらを一つ一つ見ていきましょう。

抜群の変換精度

　まずこれは絶対に必要な要素でしょう。

　誰もが思いつくものであり、最強の音声入力機能ならば絶対に備えていなければならない性能です。

　現時点でもすでに、初心者ならばびっくりするほどの変換精度を備えている音声入力界隈ですが、じっくり使い込んでみると、まだまだ頼りない部分が多く見られます。

　そういったことを一切感じないような、無敵の変換精度を持った機能音声入力機能が登場することを、ユーザーはずっと夢見ているわけです。

　幸いなことに、変換精度については、時間が経つに連れて高まっていくことがほぼ約束されています。

　ビッグデータのさらなる充実や、AIその他諸々の発達により、恐らく数年以内には凄まじい変換精度の音声入力機能が登場することでしょう――というか、今ある音声入力機能がそのレベルにまで成長することでしょう。

変換候補表示機能

　この見出しを見ただけでは、いまいちピンと来ない人もいるかと思いますので、詳しく説明します。

　変換候補表示機能とは、文章の中の「漢字変換された部分」について、他に変換候補がある場合に、何らかのマークをつけてくれる機能のことです。

　スマホならば、それをタップすることで他の変換候補を表示することができ、現在の変換が意図したものでない場合には、正しいものを自分で選択することができるわけです。

　変換精度が完璧なレベルになれば、この機能は必要なくなるわけですが、その域に達するまではこの機能があると非常に助かります。

　最強の音声入力機能ならば、その「完全なる変換機能が登場するまでの期間」に、きちんとしたサポート機能を備えているはずでしょう。

　ユーザーの利便性を確実に上げるとわかっているわけですから、これが備わっていないものを最強と呼ぶことはできません。

時間無制限

　現在の音声入力機能の多くは、入力中の時間に何らかの制約がついています。

　例えば、ある程度沈黙の時間が続くと機能がオフになってしまうとか、数十秒しか変換する時間を持つことができないとか、そういったことです。

　しかし、そのような制限が付いていると、音声入力をするときに焦ってしまうんですよね。

　さっさと次の言葉を紡ぎ出さないと時間切れになってしまう――これは悪い意味でゲーム的であり、このせいでまともに文章を練ることができなかったり、言い間違いをしてしまったりすることが多々あります。

　それに対して、時間が無制限であるならば、途中でちょっと詰まってしまってもじっくりと考えることができますし、自分のスピードですべてを進めることができる快適さを得られますので、入力していて気持ちいいはずです。

　最強の音声入力機能には、時間制限の類が付いていてはいけないと私は考えます。

単語登録機能

　最強の音声入力機能ならば、単語登録機能を扱えるものであって欲しいです。

　必ずしも音声入力機能の一部に単語登録機能が備わっている必要はありません。どのような形でもいいから、ユーザーが登録した単語を音声入力機能から使えるようにするべきだ、という意味です。

　これが特に必要になるのは、小説を書くときですね。

　例えば小説の登場人物は独自の固有名詞なので、最初から音声入力機能では変換できない場合が多々あります。

　しかし単語登録をしてそれを音声入力で扱うことができれば、ただ普通に喋っただけで、あなたの設定した登場人物名が漢字変換されて出てくるわけです。

　この機能がないと、小説を音声入力で書くのはちょっとしんどいのではないでしょうか。

　他にも、専門分野のドキュメントを書きたい場合などは、その分野の専門用語をたくさん使わなければならないので、単語登録機能を呼び出すことが必須となるでしょう。

　という具合に、単語登録機能を扱えるようになることで、より多くのニーズに応えることができるわけです。

　最強の音声入力機能ならば、この機能も持っていて当たり前と言うことができるのではないでしょうか。

バックグラウンド入力

　ここで想定しているバックグラウンド入力とは、スマホをホーム画面にしたりスリープ状態にしたりしても、バックグラウンドで音声入力ができる機能を指します。

　この機能があれば、例えばピンマイクを襟元にセットし、スリープさせたスマホをポケットに入れ、歩きながら喋るだけで、文章が出来上がってしまうのです。

　まさに「ながら作業」で文章を作成することができるので、非常に便利です。

　最強の音声入力機能ならば、このバックグラウンド入力にも力を入れていて然るべきでしょう。

　もちろん、入力された文章を見ながらでないと、次に書くべきことがなかなか思い浮かばないという人は多いですし、そういう人はバックグラウンド入力にそれほど魅力を感じないかもしれません。

　しかし、後で全面的に書き直すことを前提に、とにかく思いついたことを文章の形にざっと書き下ろしておきたい、というニーズも確実にあるのです。

　様々なニーズに応えてこそ最強の音声入力機能と言えるわけで、やはりこれを外すことはできないと私は考えます。

今の音声入力機能に足りないもの

　2021年現在でもすでに様々な音声入力機能があり、たくさんの人々の文章入力を助けています。

　それらはどれも、一昔前に比べればかなりの進化をしているのですが、まだ完璧にはほど遠く、それぞれなりに欠点を抱えています。

　ここでは、有名どころの音声入力機能が、現時点でどのような欠点を持っているかについて、一つずつ解説していきます。

Google音声入力

　Google音声入力は、数ある音声入力の中で最もメジャーなものかもしれません。

　Googleドキュメントと連動したときに、そのパワーは最大級に発揮されます。

　今すでに、ちょっとしたブログを書いている人から、仕事でWebライティングをやっている人まで、Google音声入力とGoogleドキュメントの組み合わせのお世話になっている人はかなり多いのではないでしょうか。

　Google音声入力は確かに素晴らしいのですが、いくつか困った点もあります。

　まず、かなり厳しい時間制限が存在します。次に何を入力しようか数秒間迷っていると、その間に機能がオフになってしまい、入力したければまた手動でオンにするしかないのです。

　なぜこのような仕様になっているのかわからないのですが、このせいでかなり焦って音声入力をしなければならない羽目になり、それが原因で文章が少しガタガタになってしまうことがあります。

　また、単語登録機能を呼び出したりできないので、専門用語や固有名詞を文章の中に取り込むことができません。

　したがって、小説を書くときなどは、まず人物名を別のキーワードで入力をしておき、後で清書するときに一気に置換するといった対処をしなければならなくなります。

　これはお世辞にも便利とは言えませんよね。

Simeji

　Simejiも優れた音声入力機能ですが、Google音声入力とほぼ同じ欠点を持っています。

　時間制限がありますし、登録した単語を呼び出すことができません。

　そしてSimejiにはもう一つ、運営企業の問題があります。

　Simejiを運営しているのは中国企業なので、大量の音声データが「ちょっとまずい形で」利用されてしまうことも覚悟しなければいけないのです。

　機密性のある文章はSimejiで音声入力しない、といったことを徹底すれば個人レベルでは問題ないと思うのですが、基本的に気が気ではないですよね。

　また、句読点を自動で打ってくれる仕組みになっているのですが、その句読点の位置が気に入るとは限りません。

　というか、私の場合はほとんど気に入りませんでした。

　句読点の入れ方について、いくつかモードが用意されていればよいのですが、残念ながらそういったものは今のところありません。

　句読点の自動挿入は、後に清書する際にちょっと見やすくなる機能、くらいに思っておくのがよいでしょう。

Siri

　SiriはAppleの音声入力機能で、世間一般的には「iPhoneに備わっているもの」という認識でしょう。

　Siriの良いところは、連絡帳の機能を使って、事実上の単語登録を行えることです。

　連絡帳の氏名の欄に、自分の使いたい単語を登録しておくと、それを音声入力で喋ったときに、最優先の変換候補として引っ張ってきてくれるのです。

　しかしSiriは、Google音声入力やSimejiと比べて、変換精度にちょっと難があると言われています。

　もちろん、現時点ではどの音声入力機能も完璧にはほど遠いのですが、人によっては「明らかにSiriは劣っている」とまで感じる人もおり、そこまで差があるとなると、さすがに如何なものかなと思いますよね。

　この辺はAppleにもうちょっと頑張って欲しいところなのですが、ともあれ現在のところは、前述の2つの音声入力機能に変換制度の点では差をつけられているというのが多数派の意見となっています。

Speechy

　Speechyは、これまでに挙げてきた音声入力機能とは違い、独立したアプリとなります。

　無料版も公開されているのですが、しっかり使い込むとしたら有料版を買う必要があるでしょう。

　Speechyの素晴らしいところは、iPhoneで使う場合に連絡帳を使った単語登録ができること、入力時間の制限がないこと、バックグラウンド入力があることです。

　私が特に強調したいのは入力時間無制限である点で、これにより、入力された文字を見ながら、いつまでもゆっくりと喋り続けることができてしまいます。

　この点だけでも、お金を払ってSpeechyを試してみる価値はあるのではないでしょうか。

　ただしバックグラウンド入力については、残念ながらうまく機能してくれないことが多いことは注釈しておくべきですね。

　Speechyを起動して音声入力を開始し、iPhoneをスリープにして喋り続け、どれどれと思ってスリープ解除をすると、ほぼ確実に入力が途中で止まっているのです。

　この不具合は、できるだけ早く解消して欲しいところです。

　Speechyの最大の難点は、他の音声入力機能と違って、巨大企業が開発しているわけではないことです。

　もしかしたら明日にも開発を終了してしまう可能性をそこそこ孕んでおり、先述したような「時間が経つにつれて必ず進化していくであろう」という安心感がないんですよね。

　そういう意味では、Speechyに命を預けるような使い方をするのは、ちょっとリスキーかなとは思います。

現状のベストな使い分け

　現時点では、究極の音声入力機能を夢見ながら、目の前にある不完全な音声入力機能を使うしかありません。

　従って、いくつかの音声入力機能を、あなたの用途に合わせて使い分けていくのが、音声入力との賢い付き合い方ではないかと思います。

　では、具体的にどのように使い分けていけばよいのでしょうか？

　まず、短い文章であるならば、基本的にどの音声入力機能を使っても問題ないというか、大差ないと思います。

　Twitterに文章を打ち込むといった程度のことであれば、ちょっとした変換精度の違いだの、制限時間だのといったことは基本的には関係ありません。

　あなたの周りにたまたま存在した音声入力機能を、そのまま使えばOKでしょう。

　一方で長文を書きたい場合には、あくまで私個人の意見ですが、iPhoneでSpeechyを使うことをお勧めします。

　その理由は先述したSpeechyの解説でも触れた通り、現時点で単語登録機能へのアクセスと時間無制限とバックグラウンド機能を備えた音声入力機能を、私はこれしか知らないからです。

　特に単語登録機能は重要で、Google音声入力はSimejiを使ってみたものの、その点で挫折してしまったという人も多いのではないかと想像します。

　その点、Speechyならば十分な働きをしてくれることでしょう。

どれが最初にすべてを備えるのか？

　現存する音声入力機能の中で、どれが最初に究極と呼べる地点まで到達するのでしょうか。

　とりあえず現時点の機能だけで考えるならば、Speechyはかなり究極に近いところにいます。不具合を解消するだけでグンと抜きん出るからです。

　しかし先ほども述べた通り、Speechyは巨大企業が運営しているわけではないので、これから2年3年と経つにつれて、どんどん進化していくはずと楽観的に考えることができないのが懸念点です。

　その次に有力なのはSiriでしょうか。すでに単語登録機能を（若干ハック要素の強いやり方とはいえ）備えており、あとは時間制限を伸ばし、バックグラウンド入力を実装してくれるだけでよいのですから。

　ただ、その時間制限がかなり難物です。Siriはもう長いことずっと、連続して40秒間しか入力できない仕様を続けているからです。

　せめてその時間を3分とかに伸ばせる設定があるだけで、人によっては10倍くらい便利に感じられると思うのですが……。

　単純な技術力で言えば、Googleが最強だとは思うのですが、果たしてGoogleが自分達の音声入力機能に足りないものを、今後実装していく気があるのかどうかは、ちょっと微妙なところがあります。

　例えば、単語登録機能が果たしてどうにかなってくれるでしょうか。これは漢字文化圏独自の課題なので、アメリカ企業であるGoogleが真剣に動くかどうかは微妙なところがあります。

　また、一定時間しゃべらないと止まってしまう機能も、廃止される気配がありません。

　皮膚感覚としては、今のままひたすら変換精度だけが凄くなっていく予感がします。

　各陣営、ぜひとも切磋琢磨して、凄いものを少しでも早く生み出していただきたいです。

まとめ

　私の観測の範囲内では、2021年3月末現在、少しずつ音声入力が人々のあいだに浸透しつつあるように感じられます。

　こういう言い方は語弊があるかもしれませんが、「ごく普通の人達」が、文章を作成するために音声入力を使い始めたような気がするのです。

　もともと音声入力を使っており、単に使い勝手がよいという以上に音声入力にハマっている私としては、現在の流れはとても素晴らしいと感じます。

　多くの人が音声入力を求めれば、それだけ企業も音声入力を成長させることに力を入れるでしょう。

　皆が使えば使うほど、音声入力はスピーディーに進化していくのです。

　もし事がうまく運ぶのであれば、この記事で定義した程度の「最強」であれば、あと3年くらい経てば無料で使えるようになる可能性がありそうです。

　そのような未来が来た時、文章を書くという行為は、今とは比べ物にならないくらい超高速なものになるでしょう。

　私はかねてからずっと「時速1万文字で小説を書く」ことを夢見ているのですが、その夢が音声入力によって叶えられる日が来るのかもしれません。

　音声入力、これからも発展していくことは確実なツールですので、ぜひあなたも今のうちから体得してみてはいかがでしょうか。

【関連記事】

天国的底辺

二次元、創作、裸足、その他諸々についての思索で構成されたブログ