OpenAI、45言語対応の高度な音声AI機能「Advanced Voice Mode」を発表 - ChatGPT Plusで段階的にロールアウト

OpenAIは、ChatGPTの新機能「高度な音声モード（Advanced Voice Mode）」のα版を一部のChatGPT Plusユーザーに提供開始したと発表した。この新機能は、より自然でリアルタイムな会話を可能にし、ユーザーの感情を認識して応答する能力を持ち、今秋までにすべてのChatGPT Plusユーザーに展開される予定だ。機能リリースの遅延 OpenAIは当初、ChatGPTの新機能「Advanced Voice Mode」を2024年6月下旬にα版としてChatGPT Plusの一部ユーザーに提供する予定でしたが、1ヶ月の遅延を発表しました。この遅延の主な理由として、OpenAIは不適切なコンテンツを検出・拒否する能力の向上、ユーザー体験の改善、そしてリアルタイムの応答を維持しながら数百万人規模のユーザーに対応できるインフラの準備を挙げています。この慎重なアプローチは、製品の品質と安全性を確保するためのものですが、一部のユーザーからは失望の声も上がっています。OpenAIは、秋までにすべてのChatGPT Plusユーザーにアクセスを提供する計画を立てていますが、具体的な時期は安全性と信頼性の基準を満たすかどうかによって変動する可能性があります。Advanced Voice Modeの概要 OpenAIが導入したAdvanced Voice Modeは、ChatGPTとの音声対話を大幅に改善する革新的な機能です。この新機能は、GPT-4oモデルを基盤としており、従来の音声認識、テキスト処理、音声合成の3つの独立したモデルを単一のマルチモーダルモデルに統合しています。これにより、会話の遅延が大幅に削減され、よりスムーズで自然な対話が可能となりました。Advanced Voice Modeの主な特徴は以下の通りです：より自然でリアルタイムな会話：AIの応答が非常に自然で、反応が早くなりました。中断機能：ユーザーは会話の途中でAIの発話を遮ったり、新たな指示を与えたりすることができます。感情認識：ユーザーの声の抑揚や感情的なニュアンスを察知し、それに応じた適切な反応を返すことができます。OpenAIは安全性の向上にも注力しており、100人以上の外部専門家「レッドチーマー」を起用し、45の言語で徹底的なテストを実施しました。また、暴力的な内容や著作権保護されたコンテンツの出力をブロックするガードレールも実装されています。現在、Advanced Voice Modeは4つのプリセット音声（Juniper、Breeze、Cove、Ember）を使用しており、これらはOpenAIが声優と協力して作成したものです。この機能は現在、一部のChatGPT Plusユーザーにアルファ版として提供されており、2024年秋までにすべてのPlus会員に展開される予定です。なお、この機能の開発過程では、デモで使用された「Sky」という音声が映画『Her』でAIアシスタントを演じた女優Scarlett Johanssonの声に酷似していたことから論争が起きました。これにより、AI技術の進化に伴う倫理的問題や著作権の課題が浮き彫りになりました。Advanced Voice Modeの段階的展開計画 OpenAIは、Advanced Voice Modeのα版を段階的に展開しています。現在、一部のChatGPT Plusユーザーに限定して提供されており、選ばれたユーザーにはメールとモバイルアプリのメッセージで通知が送られます。OpenAIは、今年秋までにすべてのChatGPT Plusユーザーがこの機能を利用できるようにする計画を立てています。さらに、ビデオや画面共有機能も開発中であり、将来的にリリースされる予定ですが、具体的な時期は明らかにされていません。この段階的なアプローチにより、OpenAIは機能の改善とユーザーフィードバックの収集を行いながら、安全性と品質を確保することを目指しています。Advanced Voice Modeの技術的な特徴 OpenAIのAdvanced Voice Modeは、技術的に高度な特徴を備えており、安全性と品質の向上に重点を置いて開発されています。まず、OpenAIは100人以上の外部専門家「レッドチーマー」と協力し、45の言語で徹底的なテストを実施しました。これにより、多言語対応の精度を高め、さまざまな言語や方言に対する理解力を向上させています。プライバシー保護と著作権問題への対応として、OpenAIは4つのプリセット音声（Juniper、Breeze、Cove、Ember）のみを使用しています。これらの音声は、OpenAIが声優と協力して独自に作成したものです。この approach により、特定の個人の声を無断で使用するリスクを回避し、法的問題を防いでいます。さらに、OpenAIは不適切な音声出力を遮断するシステムを構築しました。このシステムには以下の機能が含まれています：プリセットの4種以外の音声での発話をブロック暴力的な内容の出力をブロック著作権で保護されたコンテンツ（音楽など）の生成要求をブロックこれらの技術的特徴により、Advanced Voice Modeは高い安全性と品質を維持しつつ、ユーザーに自然な音声対話体験を提供しています。OpenAIは、ユーザーフィードバックを基にモデルの改善を続け、2024年8月にはGPT-4oの詳細なパフォーマンスレポートを公開する予定です。このレポートには、モデルの限界や安全性評価に関する情報も含まれる予定です。今後の展開計画 OpenAIは、Advanced Voice Modeのアルファテストから得られた知見を活用し、より安全で魅力的な音声体験の実現を目指しています。ユーザーからのフィードバックは、GPT-4oの改善に役立てられる予定です。また、OpenAIは2024年8月上旬に、GPT-4oの能力、制限事項、安全性評価に関する詳細なレポートを公開する計画を発表しています。このレポートにより、Advanced Voice Modeの技術的特徴や潜在的な課題がより明確になり、ユーザーや開発者がこの新機能をより深く理解し、効果的に活用できるようになることが期待されます。