オフィス

Skype 翻訳者の仕組み

目次:

Anonim

サイエンス フィクションは、技術的に進歩したデバイスへの言及でいっぱいです。その動作は、神話的な表現を言い換えると、魔法と見分けがつきません。それらの作者の創造的な精神から生じる、そのような発明がいつ私たちの手に渡るのか想像するのは難しく、私たちはそれらの存在が私たちのライフサイクルの一部にならないことを受け入れることになります.しかし、ときどき、そのうちの 1 人が時期尚早に私たちの生活に忍び込みます。それは Microsoft と Skype が実現しようとしているリアルタイム翻訳の場合です

"タスクは簡単ではありません。これには、Skype のビデオ会議機能、Microsoft Azure の広大なクラウド サーバー ネットワーク、Microsoft Research の技術革新、および統計や機械学習などの複数の分野における最近の進歩が含まれます。これらすべてがあなたのサービスに役立つので、あなたがあなたの言語で文を発音するとすぐに、システムはあなたの発言を認識し、それを翻訳して別の言語であなたの連絡先に送信します.それはどのように可能ですか?"

それを可能にするテクノロジー

Skype Translatorという新しい機能を示す名前は、1 年も経たないうちに一瞬たりとも変わりません。 . Skype Translator は、音声認識、機械翻訳、および機械学習技術に関する数十年にわたる研究の成果です。これらすべての分野で、最新の進歩がなければ不可能だったシステムの運用が行われています。

Skype Translator は、音声認識、機械翻訳、機械学習技術に関する数十年にわたる研究の成果です。

音声認識は、しばらくの間調査されていた技術ですが、その採用は常に多数の影響を受けてきました。エラーの発生や既存システムの過敏性。一瞬の疑い、アクセントの小さな変化、または最小限のノイズが、コンピューターを混乱させ、何を望んでいるかを理解させるのに十分でした。これは、「ディープ ラーニング」技術の開発と人工ニューラル ネットワークの作成が爆発的に発展するまでのやり方であり、Microsoft Research はそれについて何かを知っています。彼らのおかげで、エラー率を大幅に減らし、音声認識の信頼性と堅牢性を向上させることができました。これは、Skype Translator が機能するために必要な最初のステップです。

機械翻訳 は、Skype 翻訳者が支えているもう 1 つの明白な柱です。ここでも Microsoft は社内テクノロジを使用し、Bing 翻訳エンジンを使用してテキストをある言語から別の言語に翻訳します。彼のシステムは、構文認識技術と統計モデルを組み合わせて結果を絞り込みます。さらに、この機会に、エンジンは、通常書面で想定される正確さと簡潔さからはほど遠い、口頭での会話で発生する言語の種類を認識するように特別にトレーニングされています。このように、Skype Translator システムは、Bing Translator の膨大な言語知識ベースと、口語で一般的に使用される単語やフレーズの広範なレイヤーを組み合わせています。

しかし、スピーチと言語は複雑な領域です。それらは絶えず変化し、複数の味と種類があり、各人には独自のスタイルがあります。 Skype Translator はこれらすべてに対応する必要があり、音声認識と機械翻訳の両方の継続的なトレーニングと最適化が必要です。これを行うために システムは堅牢な「機械学習」プラットフォーム上に構築されています 機械とアルゴリズムの学習を可能にする技術の開発を目的とした人工知能の一部門ですサンプルデータでトレーニングすることによって。統計の分野で一般的なこれらの技術を使用することで、使用時に生成されたデータを利用して、音声認識と自動翻訳をさらに改良することで、サービスを改善することができます。

このテスト データの一部は、Facebook などのソーシャル ネットワーク、翻訳された Web ページ、字幕付きのビデオ、さらには目的のために作成され、手動で転写および翻訳された会話など、さまざまなソースから自動的に生成されます。 .しかし、データの別の部分は、サービスを通じて行われた実際の会話から得られます。これは重要です。なぜなら、Microsoft が通話ごとに通知するので、Skype Translator は会話を録音して匿名のままにし、後でそのアルゴリズムによって分析できることを知っておく必要があるからです であり、統計モデルのトレーニング プロセスで導入されました。

Skype翻訳者は、実際の人間の会話での使用に基づいたプロセスを通じて学習できる場合にのみ正しく機能します

"

システムはこの学習プロセスなしでは機能しません。人間が話すとき、私たちは一時停止して物事を繰り返し、間違いを犯し、考えを変えながら、あー、えー、えーと>その実際の使用法を学ぶだけで、それをより良くすることができます"

数秒である話し言葉から別の話し言葉へ

これらすべての進歩によってサポートされています。重要なのは、Skype Translator が認識および翻訳プロセス全体をユーザーに対して迅速かつ透過的に実行できることです 私たちが話すたびに、システムは私たちが話していることを認識し、それを受信者の言語に翻訳し、最初に伝えようとしていたことに忠実な方法で伝えなければなりません。中間のステップに気付かないほど、より良い結果が得られます。

システムが私たちが話していることを検出するとすぐに、私たちが話したことを記録し始め、音声認識プロセスを開始します これはそうではありません発音している各単語を認識するだけでなく、余分なものをすべて排除し、意味のない表現やノイズを削除し、句読点や大文字を含めてテキストの文への分割を検出し、コンテキストを提供します。それはあなたの解釈に役立ちます。少し考えてみると、これらすべてを話し言葉から判断するのがいかに難しいかがわかります。

Skype 翻訳者は、その音声認識を可能な限り正確にする必要があります。なぜなら、以下は 収集された情報を準備して、改善された統計モデルと比較するためです 「機械学習」システムによる。ここでのプロセスは、私たちが話していることをシステムが理解したものと、モデルに含まれる単語や文脈との間の類似点を見つけ、その後、音声をテキストに変換して外国語に翻訳する、以前に学習した変換を適用することで構成されます。

最後のステップで、Skype は 女性と男性の声を持つボットのペアを準備しました。ユーザーが1つを選択すると、翻訳されたメッセージを受信者に伝える責任があります。これにより、書かれた文字起こしと翻訳が画面に表示されるだけでなく、第3の人間であるかのように大声で聞くこともできます。私たちの間の仲介. .これらのボットはメッセージをすばやく伝えることができるため、画面の反対側で聞いている人は誰でも、私たちが発音してから数秒後にメッセージを受け取ります。

出発点としてのテストプログラム

正確に言えば、ボットが第三者のスピーカーとして会話に登場することは、まだ洗練されていない詳細の 1 つです。 Microsoft は、通訳者を介して話すことに慣れている人にとっては、それらに適応するのは簡単ですが、それ以外の人にとっては学習期間が必要であることを認識しています. Microsoft と Skype は、存在する最高のリアルタイム翻訳エクスペリエンスを作成することを決意している可能性がありますが、そのためには 彼らは私たち自身と機械の両方を学ぶ必要がありますSkype 翻訳者のプレビューは、そのプロセスのもう 1 つのステップにすぎません。

テスト プログラムは 12 月中旬に開始され、英語とスペイン語の 2 つの言語間の音声翻訳と 40 を超える文字翻訳 が導入されました。アクセスするには、招待状が必要です。招待状は、プログラムの Web サイトに登録することでリクエストできます。うまくいけば、Windows 8 用の Skype アプリケーションから Skype Translator を試すことができます。1 または Windows 10 テクニカル プレビュー。それ以外の場合は、サービスが延長されて正式に公開されるまで待つ必要があります。

"

とにかく、2014年に別れを告げようとしているちょうどその時、Skype Translatorが始まりました。読み終える前に、ここで少し立ち止まって、今読んだ年について考えてみてください。"

Via | Skype ブログ I、II

オフィス

エディタの選択

Back to top button