近年の音声認識システムは、従来のものと比べるとかなり精度が上がってきています。
話した言葉をきちんと認識して文字に起こすという機能は、いろいろな場面で役に立っています。
様々な音声APIが各社から公開される中、音声から感情分析するAPIもあると聞いて早速、どういうものなのか作ってみました。
今回、使用するのはEmpath API。
Empath APIは声の高低、トーン、スピード、強さ等、物理的な特徴を解析して感情の判定をします。
数万人の音声データベースを元に喜怒哀楽や気分の浮き沈みを判定するとのことです。
簡単にテストしやすいようにwavファイルアップロード機能をつけてみました。
目次
EMPATHの特徴
Empathは、音声等の物理的な特徴量から気分の状態を独自のアルゴリズムで判定するプログラムです。
数万人の音声データベースを元に喜怒哀楽や気分の浮き沈みを判定します。
今回のテストの目的
今回のテストの目的はこのようなものです。
録音された音声で、どこまでその音声を発した人の感情を判断することができるのか?
といった事です。
実際には、何を作ったのか?
まずは、Empath に申し込む
そして、プログラムを書き、Empath APIのテストをしました。
テストをした結果
テストの結果、
「平常」「怒り」「喜び」「悲しみ」「元気度」
こうした、5種類の感情がわかりました。
しかし、実際に使いたいのは、
今は、食事をしたい気分なのか、旅行したい気分なのか
といったことがわかれば、
Uberなどの食事を届けるサービスや
旅行会社の宣伝に使えるのではないかと
考えました。
当社でも、AI=人工知能については、
いろいろな事を検証していきたいと思いますので、
検証を希望される内容がありましたら、
連絡をお待ちしています。
今回、wavファイルをアップロードして試せる機能をつけましたので
テストを希望されるかたは、お問い合わせからご連絡ください。