2024年5月14日 星期二

Microsoft announces new AI model - Does the Mona Lisa also sing?

Recently Cnn.co.jp reported the following:

米マイクロソフト、新たなAIモデル発表 モナリザも歌う?

2024.04.22 Mon posted at 16:00 JST

 Tweet

ニューヨーク(CNN) 米マイクロソフトは、顔の静止画像と話し声の音声クリップを取り込むと画像の人物が話しているようなリアルな動画を自動生成できる新たな人工知能(AI)モデル「VASA1」を発表した。

この動画は写真だけでなく漫画や美術作品からも生成でき、リップシンク(口パク)や自然な顔・頭の動きを伴った本物のような仕上がりになる。

研究者らが示したデモ動画ではアニメーション化された「モナリザ」が俳優アン・ハサウェイさんのコミカルなラップを歌っている。

このAIモデルが生成する動画は面白いと同時にやや神経に障るほどリアルだ。マイクロソフトによれば、この技術は教育や「意思疎通に困難を抱える人のアクセシビリティーの向上」、あるいは人間ためのバーチャルコンパニオンの作成に利用できる可能性があるという。一方でこのツールが悪用され、現実の人間になりすますために使われる可能性があることも容易に想像できる。

マイクロソフトは現時点でVASA1をすぐに一般公開する予定はない。この動きは、マイクロソフトの提携先であるオープンAIが、同社の動画生成AI「ソラ」をめぐる懸念に対処する方法と似ている。オープンAIは2月にソラを紹介したが、現時点ではテスト目的で一部の専門家にのみ公開している。

研究者によると、VASA1は会話している人々の顔を撮影した数多くのビデオで訓練され、「唇の動き、(唇以外の)表情、視線、まばたきなど」を含む自然な顔や頭の動きを認識するように設計されている。その結果、VASA1が静止画をアニメーション化すると、より生き生きとした動画になる。

Translation

New York (CNN) - Microsoft announced that it had launched a new artificial intelligence (AI) model, VASA-1, that could automatically generate realistic videos that appeared as if the person in the image was speaking, by capturing a still image of a face together with an audio clip of a person's speaking voice.

This video could be generated not only from photos but also from manga and art works, and had a realistic finish with lip sync ​(lip movement coordination) and natural facial plus head movements.

In a demo video shown by researchers, an animated Mona Lisa sang a comical rap song by actor Anne Hathaway.

The videos produced by this AI model were both interesting and somewhat nerve-wracking real. Microsoft said the technology could be used in education, "improving accessibility for people with communication difficulties," or creating virtual companions for humans. However, it's also easy to imagine how this tool could be misused and used to impersonate real people.

Microsoft currently had no plans to release VASA-1 to the public any time soon. The move was similar to how Microsoft partner OpenAI was addressing concerns surrounding its video-generating AI, Sora. OpenAI introduced Sora in February, but was currently only making it available to a limited number of experts for testing purposes.

According to the researchers, VASA-1 was trained on numerous videos of people's faces in conversation, and was designed to recognize natural facial and head movements, including “lip movements, facial expressions (other than lips), gaze, blinking, etc.” As a result, when VASA-1 animated a still image, it became a more freshly video.

              So, Microsoft has launched a new artificial intelligence (AI) model that can automatically generate realistic videos that appear as if the person in the image is speaking. My worry is that this tool could be misused if it is in the wrong hands. I think AI usage should be subjected to more monitoring as its ability is getting more and more sophisticated.

沒有留言:

張貼留言