IBM Watson トライアル その4/4
■前回までの内容
これまで過去3回、Watson APIを1つ1つ、順番にトライアルを実施してまいりました。
■APIの紹介
今回が最後の紹介です。
残りのデモをトライアルしていきます。
Speech To Text
喋った内容がテキストに変換されるデモです。
リアルタイムに認識されていく経過がテキストとして表示されていて興味深いです。
メインの認識結果のほかに、信頼度が低い(同音異義語や認識が曖昧な)個所について別の認識単語に置き換えた結果も提示されます。
このAPIは日本語に対応していますので、色々と試してみました。
発音 | 認識 |
---|---|
わとそん | ワトソン |
にほんご | 日本語 |
ぐーぐる | Google |
きしゃのきしゃはきしゃできしゃした | 記者の貴社は帰社で帰社した |
じゅうだいのくるま | 十代の頃も |
十代車 | |
くるまがじゅうだい | 車が渋滞 |
車が十台 | |
じゅうだいのおとこのこ | 十代の子 |
じゅうだいなじこ | 重大な事故 |
とうきょうとっきょきょかきょく | 東京特許許可局 |
きょうはあつい | 今日は暑い |
あついほん | 厚い本 |
あついてつ | 熱い鉄 |
もーつぁると | 大阪城 |
あいふぉん | IPhone |
はいふん | ハイフン |
あいろん | あれ |
上記には記載していませんが、周りで別の人が会話していたりとマイクの環境が良くなかったせいか、発音の聞き取りの時点で全く認識できなかったことも結構ありました。おそらく、話し手が複数いる場合にはうまく対応できないのかもしれません。
同音異義語については、文章の流れを意識してその場に相応しい単語が選択されているようですが、IMEによる一発変換と比較して大きな差を感じるほどではありませんでした。
音声から抑揚などテキスト以外の情報を聞きとって利用しているのかなどについてはよくわかりませんでした。
当たり前ですが、前後の関係性を認識しやすい長文の方が短文よりも得意そうですし、話し言葉やくだけた文章よりも硬い文章の方が得意そうでした。
Text To Speech
入力したテキストが音声に変換されるデモです。
このAPIは日本語に対応していますので、いろいろと日本語のニュースを読ませてみました。
イントネーションや文章の区切りなどに若干の違和感があるものの、概ね聞き取れる程度の発音でしゃべってくれました。
例えば、以下のような部分でも問題なく発音されます。
テキスト | 発音 |
---|---|
103.5% | ひゃくさんてんごぱーせんと |
3700億円 | さんぜんななひゃくおくえん |
前後の文の内容で読み方が変わるので、必ずしもそのような発音にはならないのですが、以下の様な読み間違いが発生していました。
テキスト | 発音 |
---|---|
一般相対性理論 | いち はんあいたいせいりろん |
無線LAN | むせんえるえーえぬ |
1+1=2 | いち いち に |
略語を含め英字記載部分部分はアルファベット読みに、記号はそもそも発音されないような傾向です。たしかに、「かっこ」や「ハイフン」などを読み上げられると困りますから、そのように学習(もしくは、インプットとして無視)しているのでしょう。しかし、略語は一般的な発音を期待したいところです。
Tone Analyzer
テキストから感情、文体などを分析し、文章全体と文ごとにその結果を表示するデモです。
いくつかのニュース記事本文を分析してみます。
Emotion | Language Style | Social | |||||
---|---|---|---|---|---|---|---|
Anger | 0.09 | Analytical | 0.45 | Openness | 0.67 | ||
Disgust | 0.34 | Confident | 0.34 | Conscientiousness | 0.81 | ||
Fear | 0.01 | Tentative | 0.23 | Extraversion | 0.49 | ||
Joy | 0.00 | Agreeableness | 0.57 | ||||
Sadness | 0.01 | Emotional Range | 0.22 |
Emotion | Language Style | Social | |||||
---|---|---|---|---|---|---|---|
Anger | 0.30 | Analytical | 0.68 | Openness | 0.40 | ||
Disgust | 0.02 | Confident | 0.87 | Conscientiousness | 0.26 | ||
Fear | 0.04 | Tentative | 0.38 | Extraversion | 0.75 | ||
Joy | 0.00 | Agreeableness | 0.69 | ||||
Sadness | 0.02 | Emotional Range | 0.63 |
Emotion | Language Style | Social | |||||
---|---|---|---|---|---|---|---|
Anger | 0.15 | Analytical | 0.13 | Openness | 0.82 | ||
Disgust | 0.51 | Confident | 0.09 | Conscientiousness | 0.84 | ||
Fear | 0.01 | Tentative | 0.00 | Extraversion | 0.12 | ||
Joy | 0.01 | Agreeableness | 0.42 | ||||
Sadness | 0.03 | Emotional Range | 0.11 |
なぜか、AngerやDisgustに満ちた結果になってしまいました。ニュースのような文章の場合、内容を的確に伝えることを目的としているために、このような結果になってしまったのではないかと推測しています。
宇宙飛行士のニュースではAnalyticalやConfidentの分析値が高くでており、科学的、学術的な内容であることが伺えます。
ディズニーランドの紹介テキストではどうでしょうか。
Emotion | Language Style | Social | |||||
---|---|---|---|---|---|---|---|
Anger | 0.02 | Analytical | 0.07 | Openness | 0.68 | ||
Disgust | 0.20 | Confident | 0.20 | Conscientiousness | 0.78 | ||
Fear | 0.09 | Tentative | 0.00 | Extraversion | 0.60 | ||
Joy | 0.55 | Agreeableness | 0.50 | ||||
Sadness | 0.06 | Emotional Range | 0.13 |
こちらはさすがにJoyが高いですね。
自分が書いたメールや記事などを分析させて、相手にどのような印象を与えるか、Chatやメールコミュニケーションで相手がどのような感情状態であるのかなどを分析、対応するなどの目的で利用されることを想定しているとのことです。
Tradeoff Analytics
トレードオフの関係のあるいくつかの要素を分析し、最適と考えられる選択肢を提案するデモですが、残念ながらデモサイトに接続することができませんでした。
車や携帯電話など、スペックと価格であったり、スペックの個別の要素間にトレードオフの関係のあるようなものを購入する際の意思決定のサポートなどに利用されることを想定しているとのことです。
Visual Recognition
画像認識の言葉通り、画像を認識し、分類するデモです。
トレーニングされた画像のみを認識可能なようなので、用意された学習データを用いてトレーニングし、その認識率を確認します。
トレーニングデータはゴールデンレトリバー。
Google画像検索で出てきたゴールデンレトリバーとそれ以外の画像を幾つか与えてみます。
画像イメージ | 判定 |
---|---|
ゴールデンレトリバー、立ち | 77% |
ゴールデンレトリバー、座り | 75% |
ゴールデンレトリバー、顔のアップ | 82% |
ゴールデンレトリバー、子犬6匹 | 77% |
ゴールデンレトリバーのぬいぐるみ | 78% |
クーバース(ゴールデンレトリバーに似た犬種) | 68% |
グレートデーン | 否定(50%未満) |
チワワ | 55% |
狼 | 否定(50%未満) |
ノルウェージャンフォレストキャット | 否定(50%未満) |
ゴールデンレトリバーのフィギュア(チョコエッグ) | 56% |
ゴールデンレトリバーのイラスト | 否定(50%未満) |
なんとなく認識できているような感触が得られました。一部誤認識している部分については学習データが少ないのが原因だと思われます。沢山のデータで学習した場合にどの程度の精度になるのか気になります。
チョコエッグのフィギュアの判定についてはフィギュアの出来がいいのか、画像認識側が頑張ったのか面白い結果が出ました。
■まとめ
今回で、すべてのデモのトライアルが完了しました。
WatsonがSoftbankと共同で日本語を学習し始めて1年ほど経つそうですが、各APIが、どんどん日本語対応されていくことを期待したいです。
以上、全4回の長い記事でしたが、お付き合いいただきありがとうございました。