近年ChatGPTをはじめとして生成AI(Generative AI)が話題となっています。代表的な生成AIサービスについて簡単に調べた内容をまとめてみたいと思います。生成AIにも、対話型チャットAI、画像生成AI、動画生成AIとあるのでそれぞれの区分ごとにまとめます。
Contents
対話型チャットAI
対話型チャットAIは、テキスト入力等を認識してチャットで応答を返してくれる生成AIサービス/ツールの事です。代表的なものとして以下を紹介したいと思います。
製品/サービス | 開発元 |
---|---|
ChatGPT | OpenAI |
Bard | |
Claude | Anthropic(アンソロピック) |
ChatGPT
ChatGPTは、OpenAIが開発したAIチャットサービスです。利用者が質問した内容に対して自然な形で回答が返ってきて会話ができるサービスで、2022年11月に公開されて以降、急激に注目を集め、リリース後の約2か月程度でユーザー数が約1億人を突破しました。Microsoftとも提携していることからこれからの成長にも期待が高まっています。
ベースの技術はGPT-nで、ChatGPTとして現在一般に公開されているのはGPT-3.5です。有料版であれば最新のGPT-4を制限がありますが使用可能です。またGPT-5といった話題も最近出てきています。日本語のUIサービスはありませんが、日本語のチャットにも対応しています。
訓練に使用しているデータセットは2021年9月までのデータのため、直近の情報に対しては回答できないという特徴があります。ただし、「WebChatGPT」「ChatGPTplugins」というものも出てきていて、2021年10月以降の情報を回答に組み込むことができるようになっているようです。
生成AIサービスの代表格として今後がとても楽しみな生成AIサービスです。
ChatGPTの概要と簡単な使い方は「概要と始め方・使い方」にまとめています。興味があれば参考にしてください。
Bard
Bard(バード)は、Googleが開発した対話型AIチャットサービスです。なお、「Bard」というのは日本語の「吟遊詩人」「歌人」というような意味があります。Microsoftが提携するChatGPTが話題になった2022年末には、Google内で「Code Red (非常事態)」が宣言されたと報じられて話題となりました。
Bardでは、LaMDAという大規模言語モデルをベースにしていましたが、2023年5月にPaLM2という次世代言語モデルを発表して使用しています。(【参考】Google Japan Blog: PaLM2のご紹介)
Bardでは、インターネットのWebコンテンツ情報を利用するため、リアルタイム性が高いことが特徴で、ChatGPTが直近の話題に対して回答できないの対して有利な点です。
検索エンジンと言えばGoogleという感じと思いますが、今後ChatGPTやBard等、チャットAIと言えば〇〇というのは何になってくるのか、どのような勢力図になってくるか楽しみですね。
Claude
Claude(クロード)は、Anthropic(アンソロピック)が開発するAIチャットツールです。ChatGPTやBardとの対抗になるAIシステムの一つかと思います。
Anthropicは、Googleと2023年2月にパートナー提携を結んでいます。競合する製品の開発会社間の提携に見えますが、BardとClaudeは、それぞれが別のAI領域での課題を解決しようとしている点で違いがあります。
Bardは人間と自然な対話を可能とすることに焦点を当てていますが、ClaudeはAIがどのように思考して決定を下すのかという意思決定の過程を人間が理解できるようにすることに焦点を当てています。
Googleは、AnthropicのAI技術を取り込む意図があるのかなと感じますが、今後Googleの実現するAIシステムとどのような関係性を持っていくか見ていきたいと思います。
画像生成AI
画像生成AIは、テキスト入力等の情報をもとに自動的に画像やイラストを生成するAIサービス/ツールの事です。代表的なものとして以下を紹介したいと思います。
製品/サービス | 開発元 |
---|---|
Stable Diffusion | Stability AI |
DALL・E/DALL・E2 | Open AI |
Imagen | |
Midjourney | デビットホルツ氏設立の研究所 |
Stable Diffusion
Stable Diffusion(ステーブルディフュージョン)は、Stability AIが開発した画像生成AIです。Amazon Web Service (AWS)とのパートナーシップも結んでいます。
少し前までの画像生成と言えば、敵対的生成ネットワーク(GAN: Generative Adversarial Network)という印象でしたが、近年の画像生成AIでは「拡散モデル(Diffusion Model)」というものが主流になっており、今回紹介する画像生成AIサービスもこのモデルをベースにしているものばかりです。
Stable Diffusionが、以降で紹介する画像生成AIと大きく異なるのは、拡散モデル(Diffusion Model)を応用した「潜在拡散モデル (Latent Diffusion Model)」を使用している点です。
また、完全なオープンソースで利用できる点も大きな特徴で、ソースコードやモデルは公開されており無料で利用可能です。ブラウザベースで使用できるStable Diffusion WebUI等、画面ベースでも簡単に利用できる環境があり、手軽に画像生成AIサービスを試すことができます。
ブラウザベースで使用できるStable Diffusion WebUIをローカル環境にに構築する方法について「ローカル環境の構築方法と基本的な使い方」にまとめています。興味があれば参考にしてください。
DALL・E/DALL・E2
DALL・E(ダリ)およびDALL・E2(ダリ・ツー)は、ChatGPTを開発しているOpenAIが開発した画像生成AIです。名前の由来は、画家の「サルバドール・ダリ」とロボットをテーマにした映画「WALL・E」を組み合わせたものと言われています。
DALL・Eは、ChatGPTのベースともなる言語モデル「GPT-3」を拡張したものになっています。DALL・E2は、2022年4月に発表された新しいバージョンで画像生成の最先端モデルである「拡散モデル(Diffusion Model)」を利用してより高解像な画像を出力できるようになっています。
Imagen
Imagen(イマジェン)は、2022年5月にGoogleから発表された画像生成AIです。Imagenについても「拡散モデル(Diffusion Model)」を用いており、他の画像生成AIと同じ仕組みをとっています。
Googleによると「現時点では一般利用に適さない」ということで、Imagenのソースコードは非公開で、外部ユーザーの利用を許可していません。
Midjourney
Midjourney(ミッドジャーニー)は、デビットホルツ(David Holz)氏が設立した研究チームが開発した画像生成AIです。少人数の会社によって運営されているようですが、具体的な会社名という意味では調べてもよく分からなかったので調べがついたら修正しようと思います。
Midjourneyも「拡散モデル(Diffusion Model)」を用いて他の画像生成AIと同じ仕組みをとっています。他の画像生成AIに比べるとアーティスティックな画像を生成するということで注目されています。
2022年9月には、アメリカコロラド州の絵画コンテストで、Midjourneyが生成した絵が1位を取ったとして注目を浴びました。(【参考】ITMedia News 画像生成AI「Midjourney」の絵が米国の美術品評会で1位に 優勝者「物議を醸すことは分かっていた」)
Midjouneyの実行では、discordを用いてサーバーに対してコマンドを実行する必要があるようです。
動画生成AI
動画生成AIは、テキスト入力、動画等の情報をもとに自動的に動画を生成するAIサービス/ツールの事です。代表的なものとして以下を紹介したいと思います。
製品/サービス | 開発元 |
---|---|
Gen-1/Gen-2 | Runway |
Gen-1/Gen-2
Gen-1/Gen-2は、Runwayが開発する動画生成AIツールです。Runwayは上記で紹介したStable Diffusionの開発にも関わった企業です。
Gen-1は、動画から動画を生成する(Video to Video)のツールであるのに対して、Gen-2はテキストや画像から動画を生成する(Text to Video)点で違いがあります。
Gen-1は、こちらのデモサイトを見るとイメージがわきやすいかと思います。
本記事執筆の2023年時点では、まだ動画生成については出てき始めたという感じです。画像生成ができるようになった時に動画もいずれはと思っていましたが、出てきたなという印象を持っています。今後の発展が楽しみな領域です。
まとめ
近年ChatGPTをはじめとして話題となっている生成AI(Generative AI)について代表的な生成AIサービスについて簡単に調べて紹介しました。生成AIには、対話型チャットAI、画像生成AI、動画生成AIといったいくつかの種類があります。
正直今回紹介したAIサービスの中でどのような勢力図になってくるかは全く見えないなと思います。数年後にはどれかのサービスが台頭しているかもしれませんし、消えているものも数多くあるのではないでしょうか。
提携関係も、Microsoft、Google、Amazon等が様々な提携を進めており、今後どのAIサービスが台頭してくるのか非常に楽しみです。引き続き、情報は調べて本記事についても更新していきたいなと思う次第です。