天国的底辺

二次元、創作、裸足、その他諸々についての思索で構成されたブログ

音声入力アプリを徹底比較!Pixelレコーダー、Group Transcribe、UDトーク

音声入力

 

 最近になって音声入力がだんだんと知られているようになってきました。

 特に文章を書くことを仕事にしている人の多くは、既に音声入力の魅力に気付いており、有名な音声入力アプリを使って効率の良い仕事を行っています。

 

 私もその一人で、すっかり音声入力の魅力にとりつかれてしまいました。

 

 そんな中、私が最近出会って、甲乙つけがたいなと思った3つの音声入力アプリがあります。

 Pixelのレコーダーによる日本語音声入力(以下Pixelレコーダー)、Group TranscribeUDトークです。

 今回はこの3つのアプリについて、様々な方面からその機能を徹底比較していきたいと思います。

 

 ちなみに最近私が触った音声入力アプリの中にはもう1つ、Edivoiceというものもあるのですが、今回は比較対象から除外しました。

 というのも、Edivoiceはその性質がちょっと他のアプリとは異なっているからです。

 

 今回比較するアプリの特徴としては、以下の3つを挙げることができます。

  • スマホアプリであること
  • バックグラウンド入力ができること
  • 句読点を自動で挿入してくれること

 このうち最後の句読点の自動挿入に関して、Edivoiceは対応していないのです。

 EdivoiceはGoogle音声入力を利用しているので、そこまでの機能は備えていないわけですね。

 

 というわけで今回は、性質の似通っているPixelレコーダー、Group Transcribe、UDトークの3つに絞って比較していく次第です。

 

 記事の最後では、どのような状況でどのアプリを使い分けていくのがおすすめか、も解説していきますので、最後までお読みいただければ幸いです。

 

 

比較1:認識精度

 まず一番肝心な認識精度についての比較ですが、これに関しては以下のような感じですね。

 

Pixelレコーダー=Group Transcribe>UDトーク

 

 PixelレコーダーとGroup Transcribeがほぼ互角のパフォーマンスを発揮しているのに対して、UDトークは一歩劣る印象です。

 単純に認識ミスがちょっと多いということもあるのですが、それより気になったのは、固有名詞への対応が弱いところですね。

 Pixelレコーダーならば確実に拾ってくれるであろう単語も、UDトークの場合は無視されてしまい、無理やりな結果が挿入されてしまうことが結構あるのです。

 

 このあたりはビッグデータの規模を考えると仕方がないのかもしれません。

 何しろ音声入力というのは、ある意味では「たくさんのユーザーデータを集めた者の勝ち」という世界です。

 全世界の人間からデータを集めている企業と、よりローカルにデータを集めている企業では、どうしても勝負にならないところがあります。

 技術力でどうにかカバーしようのないものがあるわけです。

 

 その割にはUDトークは頑張っていると言えるのではないでしょうか。

 

 ただしUDトークには次で解説する機能がついているので、それをうまく活用することによって、欠点をだいぶ補うことができるという期待が持てます。

 

比較2:辞書登録(単語登録)機能

 続いて辞書登録機能についてです。

 これについては、もう圧倒的に以下のような結果となります。

 

UDトーク>>>>>Pixelレコーダー=Group Transcribe

 

 UDトークの圧勝ですね。

 というよりも、PixelレコーダーにもGroup Transcribeにも辞書機能に相当するものは搭載されていません。

 あらかじめ用意された辞書の範囲内でしか、変換することができないのです。

 

 このためUDトークは、パーソナルな固有名詞や、マニアックな専門用語といったことに関してはほとんど独壇場となっています。

 PixelレコーダーやGroup Transcribeでは絶対に変換できない、あなただけの言葉も簡単に変換してくれるようになります。

 

 ここで強調しておきたいのは、UDトークに登録した単語は、そうでない他の単語よりも認識されやすいという点です。

 例えば私が最初にUDトークを使い始めたときは、「裸足」という単語をなかなか認識してもらえなくてちょっと困っていたのですが、この裸足を辞書登録したところ、以前よりもはるかに高い確率で認識してくれるようになりました。

 

 つまり自分が多用する単語は、普通の単語であってもどんどん辞書登録を使っていくことで、精度を上げられるということです。

 この性質を徹底的に活用すれば、UDトークでも十分なレベルまで認識精度のクオリティを高めることができるのではないでしょうか。

 

比較3:インターフェース

 続いてインターフェースですが、これはなかなか難しい判断でした。

 とりあえず私なりの意見としては、以下のようになります。

 

UDトーク>Pixelレコーダー>Group Transcribe

 

 UDトークが少しだけリードしているという感じですね。

 

 この違いを分けたのは、ちょっとしたオプション機能の差です。

 UDトークは色々と細かなオプション機能を持っており、ある程度自分の好きな使い勝手を追求することができるのです。

 その気になれば音声認識エンジンを切り替えることもできるので、デフォルトのAmiVoiceが気に入らなければ、iPhoneの標準機能やGoogle音声入力に切り替えることも可能となっています。

 

 そしてこれはインターフェースとは少し違う話かもしれませんが、Group Transcribeには連続で30分までしか使うことができないという制限があります。

 このため30分を超える音声入力をしようとすると、いったん途切れてしまい、もう一つ別のセッションを作らなければならないという手間が発生します。

 

 なかなか30分を超える音声入力をする機会はないかもしれませんが、会議の議事録をとりたい人などにとってはちょっと難儀かもしれませんよね。

 そういうことを考えると、これは短所のうちにカウントしてよいのではないかと思います。

 

 ちなみにUDトークもかつては30分の制限があったらしいのですが、現在では撤廃されており、時間無制限となっています。

 これは非常にありがたいですね。

 Pixelレコーダーに関しては、そもそもそのような制限はなかったみたいです。

 

比較4:データ消費量

 最後に比較するのはデータ消費量です。

 ここで言うデータ消費量とは要するに、30分なら30分音声入力をしたときに、どれぐらいの情報量がサーバーに送られるのか、別の言い方をするならばどれくらいギガが減るのかということです。

 

 これに関しては以下のような結果となります。

 

Pixelレコーダー>>>>>UDトーク>>>Group Transcribe

 

 この要素に関しては徹底的に三者三様であり、明白な差があります。

 Pixelレコーダー圧倒的に1位、そして次にUDトーク、最後がGroup Transcribeとなります。

 

 なぜこのような結果になるのか?

 

 まず、Pixelレコーダーはオフラインで機能するというのが最大のポイントです。

 当初は最新のPixel 6のみオフラインで使用することができ、Pixel 3から5まではネット接続環境が必要だとGoogleがアナウンスしていたのですが、どうやらそれは誤報だったようなんですよね。

 SIMカードの挿さっていないPixel 3でも、外で音声入力できることが確認できました。

 

 従ってPixelレコーダーは消費データ量がゼロということになります。

 これは素晴らしいですよね。

 

 その次がUDトークです。

 試しにUDトークを使って30分ほどウォーキングしつつ音声入力をしてみたところ、消費データ量が10MBほどになりました。

 これを1ヶ月続ければ、かける30で300MBになります。

 この程度ならば、データ消費量を気にすることなく使うことができます。

 

 それに対してGroup Transcribeは、30分使っただけで70MBほどのデータ量を消費してしまいました。

 これに30をかけると、月に2GBを超えるデータ消費量になってしまいます。

 

 例えば楽天モバイルを利用していると、月間1GBまでは料金がかかりません。

 しかしGroup Transcribeを使って毎日30分ウォーキングしながら音声入力すると、このリミットを超えてしまうことになるわけです。

 

 UDトークとGroup Transcribeとの間で、どうしてこんなに消費データ量が違うのか?

 具体的な仕組みは素人の私にはわかりません。

 もしかしたらこのあたりのデータ量の差が、認識精度の差となって現れている可能性もあります。

 だとするならばUDトークのデータ消費量の少なさは、必ずしも長所とばかりは言えないことになるのでしょうか?

 

 わかりませんが、いずれにせよ10MBと70MBの違いは大きなものであり、ここでの比較においては、UDトークの方が遥かに上ということになるでしょう。

 

結論としての使い分け

 以上のような比較から考えて、次のような使い分けをするのが良いのではないかと思います。

  • 一般的なことを書くならPixelレコーダー
  • 専門的なことを書くならUDトーク
  • Pixelを持っていないiPhoneユーザーはPixelレコーダーの代わりにGroup Transcribe

 例えば私の生活環境で言うのであれば、Webライティングやブログにおいては、Pixelレコーダーを使うのが良いかもしれません。

 そしてその一方で、小説のアイディアを作ったり、プロットを練ったりといったことに関しては、専門用語というか、自分で作った固有名詞がたくさん出てくるので、UDトークを使うのが良いのではないかという感じになります。

 

 ちなみにこの結論に関して一つ頭に入れておいて頂きたいのは、これらの音声入力アプリを外で使うことを前提としているということです。

 家の中で使う分には、話が変わってきますよね。Wi-Fiが使えれば消費データ量など関係ありませんし。

 

 私は自宅では通常PCで音声入力をしており、スマホで音声入力をするのはそれができない場面に限られます。

 そのため、今回のような比較の仕方に至った次第です。

 そのあたりを考慮した上で、この記事を読んでいただければ幸いです。

 

おわりに

 というわけで、私が最近触った音声入力アプリである、Pixelレコーダー、Group Transcribe、UDトークの3つを比較検討する記事を書いてみました。

 何かしら皆さんの参考になる部分があれば幸いです。

 

 音声入力は年々進化しており、一度も触ったことがない人にとってはほとんど魔法のように機能するようになっています。

 あまり文章を書かない人にとってはどうでもいいことかもしれませんが、ちょっとでも長い文章を書くことが日常になっている人には、音声入力はもはや必須のアイテムと言える位置に来ていると言えるでしょう。

 

 今回の記事を参考にして、ぜひ自分に合った音声入力ライフを送ってみてください。

 最後に補足ですが、今回紹介したアプリはいずれも無料です。お金を支払う必要は一切ありません。

 

 今後も音声入力について思ったこと、発見したことがあれば、いろいろと記事にしていきたいと思います。

 文章を書くことに興味のある方は、ぜひまたお読み頂ければと思います。