天国的底辺

二次元、創作、裸足、その他諸々についての思索で構成されたブログ

Pixelの文字起こし機能を求めてEdivoiceに行き着いた話

音声入力

 

 Googleが販売しているスマートフォンであるPixelシリーズに、新たに日本語文字起こしの機能が加わりました。

 その評判があまりに高かったため、音声入力オタクである私としては注目せざるを得なくなり――このたび、いろいろ試すことになりました。

 

 この記事では、その文字起こし機能が実際にどうだったのかという感想、そしてその過程で出会った、とある素晴らしいアプリについて書いていこうと思います。

 

 

Pixelの文字起こし機能とは?

 Pixelの文字起こし機能は、Google Pixelが利用することのできる「レコーダー」というアプリの機能に含まれるものです。

 レコーダーのメイン機能は、名称からわかる通り音声を録音することなのですが、そのついでに録音した音声をテキストに起こすことができ、それを自由に取り扱うことができるようになっているのです。

 

 要するに音声入力機能がついた録音機能なわけですが、今回なぜ物凄く話題になったかと言うと、文字起こしの精度がとんでもなく素晴らしいものだから……らしいのです。

 これまで音声入力にほとんど興味を示していなかったとおぼしき人達が、動画や記事などを見て、あるいは実際に試してみて、興奮状態に陥っている様子を、Twitterなどでいくつも発見することができました。

 

 日頃、音声入力の可能性に注目し、少しでも生産性の高い音声入力を行う方法はないかと模索している私にとって、到底無視できない現象であったことは言うまでもありません。

 

Pixel 3以降にも開放された

 もともとこの文字起こし機能は、Pixelシリーズの最新バージョンであるPixel 6においてのみ利用できる機能でした。

 Pixel 6にはTensorという独自のチップを採用されており、そのチップの機能を使って「オフラインで」文字起こしを行うことができる、というのがセールスポイントだったのです。

 

 しかしこの記事を書いている数日前、Googleはこの文字起こし機能を、最新バージョンではない他のPixelシリーズにも開放することを発表しました。

 具体的にはPixel 3以降で、同様の機能が利用できるようになったのです。

 ただしPixel 6以外はオンラインへの接続を必要とする、という条件つきで。

 

 私が初めてPixel 6で強力な文字起こし機能を使えることを知ったとき、心の底からこの端末が欲しくなりました。

 しかし2種類あるうちの安いほうでも7万円台であり、音声入力を試すためだけに購入できる製品ではありません。

 

 それでやきもきしていたところに、Pixel 3以降にも開放するというグッドニュースが舞い込んできたのです。

 

中古のPixel 3を購入

 Pixel 3は、2018年に発売されたスマートフォンです。

 その当時はそれなりに高級機だったはずですが、今ではすっかり型落ちとなり、中古で安く出回っていました。

 楽天のとあるショップを見てみたところ、ランクAの中古品で14,400円。

 

 これぐらいの値段であれば、音声入力のテストをするためにだけでも購入できる……そう結論を下すまでにさほど時間はかかりませんでした。

 

 というわけで、間もなく購入。すぐに製品が届き、さっそく噂の文字起こし機能を試す運びとなりました。

 

文字起こし機能の感想

 さて、この記事はここからちょっとした紆余曲折を経るわけですが、まずは問題の文字起こし機能がどんな具合だったのか、感想を簡潔にまとめていきたいと思います。

 

認識精度はGoogle音声入力とほぼ同等

 各方面から「ものすごい認識精度である」と言われていたこの機能ですが、私の個人的な感想としては、Google音声入力とそれほど精度に違いはないという感じでした。

 

 私は普段PCでGoogle音声入力を使っており(VoiceInという拡張機能を経由しています)、かの機能の大体のところを把握しているつもりなのですが、こちらのほうが劇的にミスが少ないとか、文脈を考えてくれるとか、そういったことは特になかったのです。

 

 ちょっと意地の悪い言い方になってしまいますが、この文字起こし機能をやたらと持ち上げているのは、普段はあまり音声入力に親しんでいない人たちなのではないか、という気がしました。

 

「音声入力は、あなた方の知らないところで凄く進歩しているんですよ!」

 ちょっぴりそう言いたくなってしまいましたね。

 

 ただ、このレコーダーならではの強みだなと思う部分もありました。

 それは「言葉そのものだけでなく、声のトーンも考慮してくれているのを感じる」ところです。

 

 これまでの音声入力は、声のトーンについては無頓着だったため、精度を上げるためには、平坦にゆっくりと話すのがコツでした。

 しかし今回の文字起こし機能の場合は、「普通に喋る」ことでむしろ認識精度が上がる気がしたのです。

 

 この点は正統進化と言えるのではないかという印象を持ちましたね。

 音声入力は本来、「普通に」喋ったものがそのままマトモな文章になるべきですから。

 

入力待機状態が途切れないのは長所

 すでに述べたように、私はVoiceIn拡張機能を使ってPCでGoogle音声入力を使用しています。

 この拡張機能の最大の特徴は、沈黙が続いてもオフにならないことです。

 

 デフォルトのGoogle音声入力は、一定の時間(10秒ぐらい?)何も喋らずにいると自動的にオフになってしまいます。

 そのため、次に何を書こうかちょっと考えるだけでも、もう一度音声入力のスイッチを入れる必要があります。

 しかしVoiceInを使う限りはそれがなく、途中で熟考モードに入ってもずっと待っていてくれる仕様になっています。

 

 レコーダーの文字起こし機能も、デフォルトで途切れない仕様になっていました。

 つまりVoiceIn拡張機能と同じ感覚で音声入力を使うことができたわけです。

 この点は素直に長所だと思いました。

 

期待していたほどではないかも

 ただ総合的に考えて、私が期待していた通りのクオリティだったかというと、そこまでではないという印象です。

 もうちょっと「魔法のような」使い勝手を想像していたのですが、正直そこまで劇的なパフォーマンスは発揮してくれなかったんですよね。

 Pixel 6ではなくPixel 3だったからでしょうか。

 

 14,400円という金額を支払い、中古のスマホを買ってまで試してみる価値があったかというと……まあ、買って損したとまでは思いません。

 でも、大正解だったかと問われると、それはそれで「はい」とは答えにくいなというレベル。だいたいそんな感じの手応えでした。

 

Edivoiceとの出会い

 とまあそんな風に、文字起こし機能については一応自分の中で落ち着いたのですが、話はそれでは終わりませんでした。

 事のついでにAndroidスマホの音声入力についてあれこれ調べているうちに、とあるアプリの存在が私のアンテナに引っかかったのです。

 

 そのアプリの名前はEdivoice

 最近のアプリというわけではなく、結構昔からAndroid専用のアプリとして知る人ぞ知る存在であったようです。

 

 私はこれまでずっとiPhoneオンリーのユーザーだったので、このアプリの存在を知る機会がありませんでした。

 仕方ないことではありますが、しかし音声入力オタクとしては、ちょっとアンテナが低すぎたなと反省するところはあります。

 

 具体的に私がEdivoiceに興味を持ったのは、以下の記事を読んだことによります。

 興味のある方は、ぜひ参考にしてみてください。

 

stocker.jp

 

 そんなわけで、私はEdivoiceがどのようなパフォーマンスを発揮するのかに興味を持ち、せっかくだからこちらも試してみようという決断を下したのでした。

 無料のアプリであるという点にも後押しされたところがあります。

 

Pixel 3 + Edivoiceの感想

 ではここから、Edivoiceを使ってみての感想を書いていきましょう。

 ただし、アプリ単体の感想を書くのはちょっと難しいです。

 というのも、音声認識の精度がどれくらいかとか、動作がどれくらいキビキビしているかといったことは、デバイスの優劣にも大きく依存するからです。

 

 つまりEdivoiceの感想は、今回購入したPixel 3自体とセットで語らなければいけないということになります。

 

 というわけで、ここからはあくまでも「Pixel 3でEdivoiceを使ってみた感想」となりますので、それをご理解いただいた上で読んで頂ければ幸いです。

 

認識精度は高い

 まず認識精度ですが、これはなかなか高いなと思いました。

 このアプリが裏で使用しているのはGoogle音声入力なので、普段私がPCで行っている作業と基本的には変わらないはずです。

 しかしPixel 3のマイク性能が良いためか、PCでは判別してくれない単語もきちんと判別してくれるのです。

 

 具体的には「話」と「裸足」。

 この2つの単語は前々から私にとって鬼門で、どうしても判別してもらえなくて悲しい思いをしていたのです。

 しかしPixel 3でEdivoiceを使うと、ほぼ完璧に両者を聞き分けてくれます。

 

 裸足フェチであり裸足という単語を多用する私にとって、このことは本当に好印象に繋がることでした。

 

入力待機状態は途切れないが出だしに反応しないことも

 EdivoiceはGoogle音声入力を使っていますが、本家の機能と違って沈黙の時間が続いても途切れることはありません。

 このあたりはVoiceInと同じであり、非常に使い勝手が良いという感想になります。

 

 音声入力というと、淀みなくペラペラと喋り続けたものがどんどんテキストに起こされていく印象があるかもしれませんが、実際のところはそんなに次から次へと言葉が紡ぎ出されるわけではありません。

 次にどのような言い回しをしようかというシンキングタイムはどうしても生まれます。

 

 そのようなシンキングタイムがどれだけあってもずっと待っていてくれるのは、本当に便利なんですよね。

 

 ただしその一方で、ときどき入力に「詰まり」が発生してしまうのは問題点だなと思いました。

 特に、喋り始めの最初の単語が無視されることがちょくちょくあるのです。

 

 もともと途切れる仕様になっているGoogle音声入力を続行させる関係上、ある程度は仕方のないことなのかもしれませんが、調子よく喋っているときにこれが発生してしまうと、それなりに水を差された気分にはなります。

 この辺り、改良されるとよいのですが。

 

辞書機能

 Edivoiceには辞書機能が用意されています。

 これにより、独自の単語変換を作り出すことができ、生産性をかなり向上させることができます。

 

 ただし注意しなければいけないのは、これは普通の人が考える辞書機能とはちょっと違うということです。

 具体的には、いったんサーバーが変換した言葉を、さらに変換する機能なんですよね。

 例えば「えでぃぼいす」を「Edivoice」と登録してもダメで、サーバーが返してくる「エディボイス」などを「Edivoice」と結びつけて登録する必要があるわけです。

 これもVoiceInと同じです。

 

 恐らく、外部開発者は「プレーンの言葉そのもの」を扱うことが許可されておらず、このような形で辞書機能を作ることしかできないのでしょう。

 Google自体が辞書機能に対応してくれれば良いのですが、日本人だけのためになかなかそこまでは動いてくれないでしょうね。

 このあたりは妥協しなければいけないところかなと思います。

 

よく使う文字のワンタッチ入力が便利

 Edivoiceは、句読点や記号などの頻繁に使う文字をワンタッチで入力できるようになっています。

 これにより、音声入力しながら手入力で文章を読みやすい形に整形することが、かなり簡単にできてしまいます。

 カギ括弧なども用意されているのがありがたいですね。

 

 しかも独自の言葉を4つ登録することができ、それらも1タップで文面に反映されるという仕組み。

 この機能は恐らく、使えば使うほどありがたみがわかってくるところだと思います。

 今後愛用し続けることで、どんどん手放せないものになっていく予感があります。

 

入力した文章はGoogle KeepでPCに渡す

 私がとりあえず採用した使い方は、入力した文章をGoogle Keepにいったんコピペし、PCでそれをさらにGoogleドキュメントにコピペし本文として仕上げる、というものです。

 今のところ、これが一番手に馴染みます。

 Googleサービスに送信したりコピーしたりするのは簡単で、5秒あれば行うことができるので、いたって簡単です。

 

 前述した「詰まり」の問題などがありますが、それらがあまり影響のない範囲でしか起こらないのであれば、これから先、とても有意義に使っていけるのではないかという感想を持ちました。

 

レコーダーとEdivoiceのどちらを選ぶか?

 ここまで、噂のレコーダーの文字起こし機能と、遅れ馳せながら出会ったEdivoiceについての感想を書いてきました。

 

 ファーストインプレッションとして、私がどちらを選ぶかというと――ちょっとズルい言い方になりますが、「用途に応じて使い分けたい」という感じです。

 

 私が使ってみた限り、音声認識の精度が私に好都合なのはEdivoiceのほうです。

「はなしとはだし」と喋って、それをちゃんと「話と裸足」と変換してくれるのは、Edivoiceのほうだけ。

 レコーダーの文字起こし機能では、何度やっても「話と話」になってしまいます。

 

 さらにレコーダーは「フェチ」という言葉もうまく拾ってくれないため、「はだしふぇち」と喋ってもただの「裸足」になってしまうという……。

 これらはちょっといただけません。

 

 しかしレコーダーには、どうやら声のトーンも考慮してくれるらしい、という強みがあります。

 そして、Edivoiceに比較的よく見られる「詰まり」も感じられませんし、比較的早口でも対応してくれるのを感じます。

 

 以上のことを考えるに、画面を見ずに入力し続けるならレコーダー、見ながら入力するならEdivoice、という使い分けがよいのではないかと思われます。

 例えば、ウォーキングしながら思考を記録するならレコーダー、自宅でスマホから音声入力したいならEdivoice、という感じ。

 

 使っていくうちにまた考えが変わってくるかもしれませんが、とりあえずはこういう方向性で生活に取り入れていきたいなと思いました。

 

おわりに

 以上、Pixelの文字起こし機能について語るところから、最終的にEdivoiceに行き着くという流れで、音声入力を語らせていただきました。

 

 今回個人的に不覚だと思ったのは、iPhoneユーザーであるがゆえにEdivoiceという素晴らしいアプリの存在をまったく認識できていなかったことです。

 もっと前からこのアプリの存在を知っていれば、音声入力のためだけに安いAndroidスマホを購入するという選択を、とっくにできていたはずなのですが……。

 

 まあでも、こうやって気づくことができただけでもラッキーだったと考えるべきでしょう。

 ガンガン使っていき、また何か思うところが溜まったら記事にしていくつもりです。

 

 音声入力に興味のある皆さんに、何らかの参考となる情報を提供できたのであれば幸いです。