ハダノ元教頭が GIGAスクール と DX人材育成 について考えるブログ
AIが高速で進化する中、今までできなかったことができるようになりました。文章生成AIや画像生成AIは、革命的なテクノロジーです。
「生成AIをちょっとさわってみたけど、実用的じゃない」と言う人たちは、部活動でいうと見学・体験入部で見切りをつけています。道具を揃えノックを受け続けて、だんだん楽しめるようになってきます。
今回お届けするのは……
これまでの記事の中でも、何度か画像生成AIをとりあげてきました。アプリやサービスサイトなど無料で行う方法もありますが、いろんな制約があるためお試し程度で終わりがちです。
やはり、ローカル実行(PC内でAIのプログラムを動かす)したいものです。
まずは、文章生成AIに相談してみましょう。
ただし、これらの利点は一部のユーザーにとっては欠点となる場合もあります。例えば、高性能なハードウェアを購入する初期コストは高くなる場合があります。また、AIのセットアップとメンテナンスには専門知識が必要です。したがって、各ユーザーは自身のニーズと能力に基づいて最適な選択を行うべきです。
要するに、
ということです。
さっそく生成AI用の最新PCを購入し(→ 🔗詳細は別の機会に)、Stable Diffusion をローカル実行することにしました。
🔗生成AIグラビアをグラビアカメラマンが作るとどうなる?第七回:自分で始める環境作りとお薦め機材 / AUTOMATIC1111を動かしてみる (西川和久)
……を参考に、リアルアジア系モデルの 🔗yayoi_mix でビーチグラビアを生成してみました。
標準モデルのかわりに好きなモデルを入れて生成できるのは、ローカル実行の強み(その1)です。
この記事のトップ画像は、「日本人風の美少女ではトップクラスのクオリティ」と評判のモデル 🔗BlazingRealDrive で生成したものです。
モデルによって生成画像の傾向に違いがあります。次々と新しいモデルが開発されているので、楽しみがつきません。
「AIに動画生成はまだできない」「AIで動画生成できてもかなり手間がかかる」とハダノは思っていました。
ところが、AnimateDiff を使えば1枚の画像から一貫性のある動画を生成できるというのです。この技術のすごいところは、今までと違い元の絵の状態を保ったまま生成できるという点です。
Stable Diffusion Web UI の拡張機能 として組み込めば、テキストから動画を生成できます。いろんな拡張機能を入れられるのは、ローカル実行の強み(その2)です。
🔗Stable Diffusionで動画生成AnimateDiff - 禁断のAI
……を参考に、動画生成してみました。
まず 🔗yayoi_mix 、次に 🔗BlazingRealDrive で生成しました。
Stable Diffusion の Seed値 を -1 にすると、毎回ランダムな値が作られ、違う画像が生成されます。気に入った画像が出るまで生成を繰り返すことを「ガチャを回す」ともいいます。何の制限もなくガチャを回せるのは、ローカル実行の強み(その3)です。
ガチャを回してすぐ気づいたのは、「全身がはいると、顔が破綻しやすい」「上半身中心だと歩いているように見えない」ということです。
今回は、Seed値 を 1483282210 に固定してモデルを変えてみました。構図・背景などは似た感じになりますが、モデルによってけっこう違いが出ました。yayoi_mix に比べると、BlazingRealDrive の方が濃い顔でしっかり歩くことが多いようです。語順・同義語などプロンプト(呪文)を微妙に変えると、結果も微妙に変わります。
そうなると、他のモデルも試したくなります。
🔗Dark Sushi Mix は、光と影の表現に優れる2次元イラスト系モデルです。
「禁断のAI」の記事内で使われていたモデル BRAV5 の後継モデル 🔗BRAV6 も気になります。
参考までに 🔗Dark Sushi Mix と 🔗BRAV6 で生成した動画を載せます(1/4サイズで)。
イラスト系モデルは背景が砂嵐になりがちですが、Dark Sushi Mix は、きれいにアニメ化してくれます。
BRAV6 は、ソフトにボケた背景とさわやかな表情が魅力的ですが、動きに違和感があります。腕や脚が3本に見えるときがあります。
撮影機材・技術がなくても美しい浜辺や水着モデルを手配しなくても高品質なビーチグラビアを生成できました。
本物そっくりなできばえで大満足ですが、せっかくの生成AIです。現実には存在しない画像も作ってみたくなります。
「ビーチを歩いている妖精」を出そうとプロンプト(呪文)をいろいろ入れてみますが、妖精が妖怪に化けたりしてうまくいきません。学習に使われた画像からかけ離れたものは難しいようです。
「妖精コスプレグラビアならありそう」と考え、プロンプトの服装指定を "white flower fairy style costume" にするとうまくいきました(Seed = 1483282210)。
動画の場合、派手な衣装・動作だと「妖精のはね」がちぎれたりして崩壊しやすいので、プロンプトを細かく調整する必要がありました。
同じ yayoi_mix で、ガチャを回して見栄えのする静止画を作ってみました。
静止画なら、動画より自由な構図・衣装・ポーズを楽しめます。これからいろいろやっていきたいと思います。
今回あらためて実感したローカル実行の利点は、、、
ということです。
たまにしか出かけないならタクシーやレンタカーでいいかもしれません。いつでもどこへでも行きたいならマイカーが便利です。好みのカーアクセサリーをつけたり、スタッドレスタイヤに交換したり、いつでもどこへでも気兼ねなく運転したりできるのがマイカーの強みです。特に、運転初心者が運転を楽しめるようになりたいなら、マイカーが必須でしょう。
画像生成AIのローカル実行とは、マイカーの運転のようなものです。乗りこなせるようになると楽しくなります。