|
Chapter3.
地域放送局待望! の全自動リアルタイム字幕制作システム
◆事前準備作業10秒、運用人員ゼロを実現
全自動リアルタイム字幕制作システムは、3つのステップで、放送中の運用人員「ゼロ」を達成しつつ、リアルタイムな字幕表示を行う。
第1は、放送用原稿からの字幕テキストへの変換だ。字幕テキスト自動変換機能を開発したことで、ボタンをワンクリックするだけで自動的に実行できるようになった。
第2に、放送中のアナウンサー自身の声を音声認識し、テキスト変換する。このフェーズで機能するのが、NTTサイバースペース研究所が開発した音声認識技術(VoiceRex)だ。この技術は、これまでの研究開発成果に放送局との実験結果を反映させることで、認識率を飛躍的に向上させた。アナウンサーが抑揚をつけて話しても、90%台の認識を維持する。
第3に、アナウンサーの発話の音声認識結果と、事前に自動生成した字幕テキストを照合したうえで、アナウンサーの発話のタイミングにあわせて字幕をリアルタイムに自動送出する。この字幕テキスト自動送出機能は、特許申請中の新規技術が使われている。
この3つのステップの各機能を連携して機能させることで、放送前の事前準備は字幕テキストへの自動変換にかかる約10秒だけ、放送中に張り付いていなければならない人間は「ゼロ」という、放送局待望のシステムを作り上げることができた。
字幕表示の遅延がほとんどないのも大きな特長だ。
リスピーク音声認識方式では、リスピーカーが復唱し、手作業で細かいところを訂正して送出するため、アナウンサーの発話と字幕表示の間に5〜10秒の遅延が生じる。全自動リアルタイム字幕制作システムであれば、遅延1〜2秒、ほぼリアルタイムで、字幕が表示されるのである。
「全自動リアルタイム字幕制作システム」および従来方式のシステム概要
◆音声認識技術の活用方法の「転換」
テレビ番組への字幕付与は、米国やオーストラリアではあたりまえのサービスとなっている。特に米国では、放送中に速記入力者が1名張り付くのがルール化しており、字幕表示率はほぼ100%である。しかし日本語は、聞こえた音声をそのまま文字にするのではなく、漢字変換の作業が必要となるため、英語圏でのやり方をそのまま取り入れることはできない。
こうした背景の中で、全自動リアルタイム字幕制作システムを実現したのは、「発想の転換」である。
音声認識は、認識率100%に向けて技術革新を重ねてきたわけだが、音声認識結果をそのまま使うことを目的とせず、認識されたデータを字幕送出のタイミングを判断するためのツールに用いた点がポイントである。字幕テキストを照合する材料として用いるのであれば、認識率が80%でも十分であり、リスピーカーも要らない。放送局の事情を熟知し、ノウハウを積んできたNTTコミュニケーションズならではの「目のつけどころ」ということになる。
◆地域放送局の現場で共同実験を重ねたうえでの商用化
2008年1月の商用化は、地域放送局の現場で共同実験を重ねたうえでのサービス開始であることも重要なポイントだ。
NTTコミュニケーションズは、北海道放送、KTS鹿児島テレビをはじめとする複数の地域放送局と共同実験を重ねてきた。実験時に、放送局の現場担当者が、「これは良い。いますぐに使い始めたい」と声を上げたほどに評価が高かった。また、制作した字幕が放送品質であるという確証を得たうえで、今回の商用化に踏み切ったのである。
全自動リアルタイム字幕制作システムのメリット・デメリット

|