SUMMARY
MicrosoftのMAIグループが音声認識・音声生成・画像生成の基盤モデルを発表。Webプロジェクトへの組み込みが期待される。
背景
OpenAI・Google・Anthropicが次々とモデルを投入する中、MicrosoftのMAIグループが自社開発の基盤モデル群を同時発表した。Azure経由での提供が前提で、Microsoftサービスとの連携が強みになる。
変更点
発表されたのは音声認識・音声生成・画像生成の3モデル。音声認識はWhisper、画像生成はDALL-Eの代替候補として開発されたとみられ、いずれもAzure AIプラットフォームからAPI経由で利用できるようになる予定だ。
Web制作への影響
Webサイトへの音声インターフェース組み込みや、バナー・OGP画像の自動生成ワークフローに応用できる可能性がある。Microsoft 365との統合が進めば、クライアントのワークフロー提案の幅が広がる局面が来るかもしれない。
注意点
現時点では日本語の音声認識・生成の品質が英語と同水準かは不明。Azure利用が前提のため、既存インフラがAWSやGCPのプロジェクトでは移行コストも含めた判断が必要になる。