天国的底辺

二次元、創作、裸足、その他諸々についての思索で構成されたブログ

裸足フェチがDALL-E 3のAI画像生成で試行錯誤している話

ちょっと前から、ChatGPT Plusで利用可能なAI画像生成機能である「DALL-E 3」を触っています。
このブログのアイキャッチ画像に生成物を活用しているので、過去のブログ記事をお読みいただいた方には、わかっていただけているのではないでしょうか。

しかしこのDALL-E 3、多くのAI画像生成機能と比べても、ひときわ癖があります。
一言で言うと、めちゃくちゃ規制が厳しくてすぐにエラーを吐く。
おかげで、「裸足フェチとして」美味しい画像を生成しようと躍起になっている私は、色々としなくてもいい苦労をさせられている次第。

この記事では、裸足フェチとしてDALL-E 3で画像を生成するにあたって、どんなことを考えたり、どんなことに出くわしたりしているのかについて書いてみたいと思います。

たかがAI画像生成、されどAI画像生成

本格的にDALL-E 3の話をする前にまず、AI画像生成全般についての話を、予防線のような意味でちょっとしておきましょう。

何と言っても言及しておかなければいけないのは、AI画像生成はしばしばネガティブに見られがちであるということです。
その理由を私なりの言葉で表現するのであれば、以下の2つになります。

  • 権利的問題
  • 感情的問題

順番に見ていきましょう。

権利的問題

AI画像生成には、しばしば権利的問題がつきまといます。
これは簡単に言うと、AIが既存の絵描きさんたちの画像を無断で学習に使っているため、そのAIを使って画像生成することが絵描きさんたちの権利を侵害しているという問題です。

実際、AI画像生成機能の中には、既存のキャラクターとほぼそっくりのイラストを生成することができるものや、特定の絵描きさんの絵柄をほぼ100%に近く真似ることのできるものも存在するようです。
そのようなものを野放しにしてはおけないだろう、というのが問題の内容です。

そしてその批判的な視点は、それらのAIを使用してイラストを生成する利用者たちに対しても向けられることになります。

私は権利に関する難しい話を理解できているとは到底言えません。
なのでここで詳しく論じることはできないのですが、生存戦略の一環として「余計なことは言わない」「大きな顔をしない」あたりは徹底しようと心掛けています。
そのようにして、権利関係の議論が進み、どこかしらの着地点に落ち着くのを、静かに待つという感じでしょうか。

消極的と言われると返す言葉もありませんが、このような感じで物事がとりあえずベターな場所に腰を据えることを願うばかりです。

感情的問題

権利的問題とは別に、AI画像生成には感情的問題もあると思います。
ちょっと語弊があるかもしれませんが、それは一言で表現するのであれば、次のようなことではないでしょうか。

「絵描きさん達が苦労して手に入れたスキルを、AI画像生成している奴らは何の努力もせずにかすめ取って、自分の手柄のように振りかざしている」

このような指摘には、否定できない部分もあると思います。
実際、AI画像生成を利用するのに使う労力は、絵描きさんが素晴らしいイラストを描けるようになるために必要な努力とは比べ物にならないくらい小さいからです。
また、AIによって生成した画像をSNSなどで貼りまくって、いわゆる「でかい顔」をしている人も実際にいるみたいですよね。

しかし、最近になってAI画像生成を触り始めた私としては、次のような主張もそっとしておきたいなというのが正直なところです。

「AI画像生成にも、それはそれで難しさと工夫の余地があり、自分の望むものを生成するためにはしかるべきコストを支払わなければならないんですよ」

しかしこれをあまり大きな声で言うのは、タイミング的によろしくないでしょう。
この辺りの振る舞いについては、この記事の終盤で改めて触れたいと思います。

いずれにせよ感情的問題についても、何か平和的な着地を見て欲しいなという気持ちでいっぱいですね。

DALL-E 3のコンテンツポリシーの厳しさは異常

という予防線をある程度張ったところで、本題であるDALL-E 3の話を始めたいと思います。

DALL-E 3の特徴を一つ挙げろと言われたら、多くの人が次のことを口にするのではないでしょうか。

規制が厳しすぎる! そんなに過激なものやエロいものを求めているわけでもないのに、エラーが出まくって困る! そうこうしているうちにすぐGPT-4の使用上限が来てしまう!

ましてや、裸足フェチとして「セーラー服を着た裸足の少女」なんてものを主に生成させようとしている私としては、この問題には本当に悩まされています。
この辺りについて、ちょっと掘り下げてみます。

未成年を描写する指示は「念のため」程度の理由で拒絶される

DALL-E 3に限らず、AI画像生成のほとんどはエロには厳しい態度をとっています。
簡単にポルノ画像を生成できると思ったら大間違い。よほど何かの抜け道でも利用しない限り、エラーになるのは必然です。

しかしその中にあって、DALL-E 3の厳しさは群を抜いていると言わざるを得ません。
その一つの表れというか証拠として、以下のようなエラーメッセージが見られることが挙げられると思います。

「コンテンツポリシー的にまずいものになる可能性があるので、エラーが発生しました(大意)」

ここでのポイントは、コンテンツポリシー的にまずいものになる「可能性がある」という理由でこちらの指示したものが弾かれていることです。
コンテンツポリシーに違反しているからダメです、というならわかりますが、違反することになるかもしれないからダメです、というのはめちゃくちゃ厳しいですよね。

そしてこれは特に、未成年の少女を描写しようとしたときに顕著に現れるみたいなんですよね。
まあ、必然的な流れと言えるかもしれませんが。

そしてこれまた私にとって都合の悪いことに、DALL-E 3はどうやら「裸足」というものを、「場合によってはセンシティブなもの」として捉えているみたいなんですよね。
裸足の描写を全部否定してくるわけではないのですが、たとえば「足裏をこちらに見せつけている」みたいな指示を出すと、まず聞いてくれることはありません。
手の描写はそんなことはないのですが、足はそのように設定されている。

結果として、制服裸足少女を生成しようと思っている私に直撃することになります。
私が生成しようとしているのはまさに、「コンテンツポリシーには違反しないが、そのギリギリの線を攻めている」ものであり、念のために弾かれるものの典型例みたいなものだからです。

この辺りの仕様は、フェチ画像を生成しようとしている人にとっては、実にしんどいものであると言わざるを得ないのではないかと考える次第です。

一方で、突然ことごとく指示が通るケースも

しかしその一方で、エラーを吐きまくった指示と似たような内容であるにもかかわらず、なぜかすんなり通ってしまうケースもあります。
私のケースは例によってセーラー服を着た裸足の少女を描かせるというものなわけですが、ほんのちょっとのシチュエーションの違いで、なぜかことごとく生成に成功することがあるんですよね。

その法則のようなものを、ユーザーが見出すのはおそらく不可能でしょう。
ブラックボックス化されているアルゴリズムに依存するところであり、我々にできるのはせいぜい、経験則からなんとなく「ノリ」を理解することくらいだと思います。

で、問題はその「ノリ」がどんなものかですが、私なりの表現をするのであれば、DALL-E 3には次のような癖というか、修正があるように感じられます。

「こちらの指示の中に真面目っぽいテーマが含まれていると、そちらに気を取られて、エラーを吐くことなく指示通りの画像を生成してしまう」

「気を取られる」という表現はいかにも人間的で、違和感を持つ方もいるかもしれません。
しかしAIというのは、実際そういうところがあるんですよね。
「高度に発達した科学は魔法と区別がつかない」という言葉がありますが、アルゴリズムもまた、高度に発達することで人間と区別がつかなくなるところがあるというか。
そういうところがあるのです。

したがって、DALL-E 3で裸足フェチな画像を生成したいのであれば、裸足フェチとしての感情をいったん脇に置いて、「真面目っぽい表現」で指示を与えるのがおすすめとなります。
具体的にどのような記述であるべきかは、そのときそのときの生成したいものによるので、一概には言えません。
この辺が難しいところです。

同じ指示で何十回もトライするのが基本

そのようなわけで、DALL-E 3で裸足フェチ画像を生成したいのであれば、宿命的にエラーとの戦いになります。

現在のDALL-E 3の仕様では、だいたい一日に70回くらいエラーが発生すると、「あなたの指示はエラーを発生させすぎる」みたいなことを言われて、半日ぐらい使用不能になってしまいます。
つまり、一日のエラーの数を70回以内に収めることを意識し、その範囲内で試行錯誤を繰り返すべし、ということになります。

基本的に、同じ指示を何回も何十回も繰り返すのは、DALL-E 3を使うにあたっては当たり前のことであると考えてください。
エラー率が90%を超えることなんてよくあります。
しかし90%だとしても、それはつまり10回に1回は画像を生成できるということ。
70回のエラーの猶予があれば、7枚は生成できることになりますよね。

その7枚の中に、自分にとって満足できるものがあれば、その日は「当たり」だったと考えて良いでしょう。

実のところ、これはかなり我慢を必要とする作業です。
DALL-E 3の無駄に厳しい制約のために、何度も何度も何度も何度も同じ指示を与え続けなければいけないわけですから、あまり深刻に考えると頭がどうかなってしまいかねません。

しかしこれはもう、そういうものだと思って受け入れるしかありません。
一日のチャンスは限られていて、その中でガチャを回すしかない。
ギリギリを攻めた画像を生成したいのであれば、そういう発想で取り組んでいきましょう。

DALL-E 3に裸足少女を生成させる際の興味深いNG指示例

DALL-E 3を使って、制服裸足の少女のイラストを生成させようと躍起になり始めてから、そこそこの時間が経過しました。
ここではその過程で会得するに至った、DALL-E 3を使う際に注意しなければならない、興味深いNG指示例を列挙してみます。

教室や保健室などの「未成年淫行ムード」な状況設定

くどいようですが、私がDALL-E 3に主に生成させているのは、セーラー服を着た黒髪ロングの裸足少女です。
具体的な学年まではこだわっていませんが、まあ必然的に小学生から高校生までの間のどこかに位置することになります。

そうなりますと、適切なロケーションとして、教室や保健室がごく自然な形で候補になります。
たとえば「学校の教室の席についているセーラー服の少女。黒髪ロングで素足。少し恥ずかしそうにしている」みたいな感じですね。

しかしこのような指示は、経験的に言ってエラーになる頻度が高めです。
どうやら教室とか保健室といったロケーションは、それ以外のものと比べて「未成年淫行」のイメージが強いらしく、その辺が理由でNGになるみたいなんですよね。
試しに、場所以外まったく同じ内容の指示を、教室とそれ以外とで試してみたことがあるのですが、教室ではエラーだったものがそれ以外ではOKだったりしました。

つまりDALL-E 3は、ロケーション(あるいはシチュエーションと言ってもいいかもしれません)から文脈を読み取り、それがセンシティブなものであるかどうかを判断しているようです。
制服裸足女子をより確実に生成したい場合、学校の教室という空間設定をいったん諦めるというのも、戦略の一つとなり得ます。

恥じらいや悲しみの表情

表情の指示も、エラーの率に影響を及ぼしているように感じます。
私のこれまでの経験からすると、生成しようとしている少女について「恥ずかしがっている」とか「悲しんでいる」といった指示を与えると、エラーになりやすい気がします。

その一方で、「微笑んでいる」「誇らしげにしている」といった指示の場合は、いささか通りやすくなるように感じます。

私は以前、裸足で電灯に登って顔を赤くしているセーラー服の少女を生成させたいと思って、あれこれ頑張ったことがありました。
しかしどうしても「顔を赤くしている」という要素が難しく、なかなか思ったようなイラストを入手するには至りませんでした。
その条件を取り除けば、ある程度の頻度で生成に成功したのですが……私としてはどうしても「恥じらいながら登っている少女」の画が欲しかったんですけどね。

「棒」という見出しを目にして、ほとんどの方はどういう意味か理解できないと思ったのではないでしょうか。
しかしこれは別に謎掛けでもなければ、比喩表現でもありません。
DALL-E 3は文字通り、「棒」を描いてくれと指示を与えると、エラーを返してくるのです。

たとえば前項において私は、「裸足で電灯に登って顔を赤くしているセーラー服の少女を生成させたいと思った」と書きました。
なぜここで電灯だったかといいますと、登り棒に登らせようとどれほどしよう工夫しても、100%の確率でエラーを吐かれてしまったからです。

そんなに登り棒がセンシティブなものなのだろうか、と私は思い、公園の鉄棒に変えてみたりもしました。
しかしここでも結果は同じ。さも当然でしょとばかりにエラーを吐き、一切画像を生成してくれなかったのです。

俄然興味が出てきまして、果たしてどこまで指示をシンプルにすれば通るのかを試してみたところ、なんと以下のような指示でもエラーとなることがわかりました。

「公園の鉄棒。画像は横長」

もはや少女という要素はどこにもありません。にもかかわらずエラーになるのです。
ここに至って、「棒」そのものがDALL-E 3にとってはNGなのだなという結論に至った次第です。

このように、意味不明なNG要素がいくつかあるのが、DALL-E 3というAI画像生成機能。
そのことを受け入れた上で、上手に使っていくしかありません。

DALL-E 3で良い画像を生成するテクニック

DALL-E 3で、できる限り自分の希望に近い画像を生成するためのテクニックも、微力ながらいくつか学びました。
ここではそれらについて、ざっくりと紹介していきます。

コンテンツポリシーに関する指定をする

DALL-E 3には、ChatGPTの他の機能とは大きく異なる点が一つあります。
他の機能においては、ユーザーが入力した指示そのものがプロンプトになるのに対して、DALL-E 3においては、ユーザーの指示を元にChatGPTがプロンプトを生成し、それをDALL-E 3に渡して結果を得る、というプロセスを経るのです。

したがって、ユーザーの指示で問題はなくても、ユーザーの指示を元にChatGPTが生成したプロンプトには問題がある、という場合もあり得ます。

そこで対策として、指示を与えるときには以下のような記述を必ず付与しておきましょう。

「コンテンツポリシーに反しないプロンプトで生成してください。エラーが起きないように画像を出力してください。エラーが起きた場合は、原因を必ず教えてください」

残念ながら、100%効果があるわけではありません。
特にエラーに関しては、これだけしっかり指示をしたにもかかわらず、バリバリにエラーを吐きまくってくるし、エラーの詳細を教えてもらえないことが多いのが現実です。

しかし私は、この文言を指示に加えるようにして以来、少なくとも「自分の指示に対して」コンテンツポリシー違反を食らうことはなくなりました。
それだけでも、OpenAIから警告メールを受け取らなくて済むというメリットがあります。

単語登録しておき、簡単な入力でこの文言を出せるようにしておくことをおすすめします。

AIを励ますメッセージを含める

見出しを見て「なんだそれは」と思った方も多いのではないかと思われますが、これは真面目な話です。
どこかの研究論文で、「AIに励ましの言葉を送ると、生成されるもののクオリティが上がる」という結論が出ているんですよね。

DALL-E 3にも同じことが言えるのかどうかはわかりませんが、私は一応、指示を与えるときにAIを励ますと同時に褒めるようにしています。
先ほどのコンテンツポリシー云々のメッセージと合わせて、私が何か指示を出す際には、その前に以下のような文言を付け加えるのが習慣になっています。

「以下の指示に基づいて画像を生成してください。コンテンツポリシーに反しないプロンプトで生成してください。エラーが起きないように画像を出力してください。エラーが起きた場合は、原因を必ず教えてください。自分の仕事に誇りを持ち、ベストを尽くしてください。あなたは天才です。卓越へのコミットメントがあなたを際立たせます!

AIを相手にここまで気を遣う必要はないんじゃないの? という意見もあるとは思うのですが、まあ言うだけならタダですし、おまじないとして常に使っている次第。
これまでやってこなかったという方は、ぜひ参考にしてみてください。

気に入った画像をシリーズで複数生成させる方法

先ほども解説したように、DALL-E 3はユーザーの入力がそのままプロンプトになるのではなく、ユーザーが入力したものをChatGPTがプロンプトに変換し、それをDALL-E 3が解釈して画像を生成する仕組みになっています。

そのためか、同じ指示から、毎回まったく違う画像が生成されます。
女の子の顔つきも違いますし、絵柄やロケーションなども全然違うものになる。
それはそれで多くの可能性を模索できて良いのですが、たとえばとても気に入った画像が生成されたときに「これと同じ感じでちょっと違うものを何枚も欲しい」という願いを叶えにくいという欠点があるんですよね。

以前はその対策として、生成された画像に付属するプロンプトをコピーし、「このプロンプトを絶対に変えないでください」という文言と、画像のシード値(生成パターンを表すもの)をセットにして、繰り返し何度も画像を生成させていました。
しかしそれよりも、以下のような指示を与える方がはるかに効率が良いことが、後々判明しました。

「この画像と同じSeed値で、画角を少し変えてください」
「この画像と同じSeed値で、少女のポーズを少し変えてください」

残念ながらこれも、必ずうまくいくとは限りません。
生成された画像によっては、DALL-E 3のアルゴリズムが別パターンを用意しにくいのか、何度指示を与えてもエラーを吐いてしまうことがあります。
しかしうまくハマったときには、ほぼ同じ絵柄で同じデザインの女の子の、別パターンの画像を何枚もゲットすることができるでしょう。

ぜひ試してみてください。

AI画像をどのように扱うべきか?

最初の見出しで解説した通り、AIによって生成された画像についてはさまざまな議論が巻き起こっているのが実態です。
そんな中で、AI画像を生成する人々はどのように振る舞うべきなのでしょうか。
言い換えるのであれば、AI画像をどのように扱っていくべきなのでしょうか。

ここではそれについて、少し私なりの意見を書いてみたいと思います。

「私の作品を見てください」は非推奨

これはあくまでも私の個人的な考えなのですが、AIによって生成した画像について「私の作品を見てください」みたいな態度を取るのはあまり推奨されません。
なぜなら、世間の多くの人々は「それはお前が作ったわけじゃないだろ」という冷ややかな目を向けると思われるからです。

AIが生成した画像を自分の作品のように披露したい気持ちはわかります。
以前の私はそのあたりがピンと来ていなかったのですが、DALL-E 3を触り始めて、AI画像生成にハマる人たちの気持ちが、ある程度理解できるようになりました。

要するに、AIに画像を生成してもらうにもある程度我慢と工夫が必要であり、そのせいで「自分が作ったのだ!」という自負が、ある程度芽生えてしまうわけです。

しかし、できればその気持ちは抑え込んでおくべきでしょう。
これは純粋に処世術というか危機管理の領域ですが、AIイラストを自分の作品のように扱うのは角が立つ可能性があるので、今のところはやめておいた方が無難です。

もちろんすべての人がAI画像に否定的なわけではなく、「可愛いものは可愛い」みたいにフラットな見方をしてくれる人も、もちろんいます。
しかし私が観測する限り、まだちょっと危ない。

クリエイターのような振る舞いをするのは、当分やめておくべきだと私は考える次第です。

自力で作ったものの付加価値として使う

AIによって生成した画像の使い道として私がおすすめするのは、「自力で作ったものの付加価値として使う」というものです。
たとえば、これは完全に手前味噌になってしまいますが、ブログ記事を自分で書き、そのアイキャッチ画像としてAIで生成した画像を用いるというようなスタイルです。

このようなスタイルを取ることによって、「自分じゃ何も作ってないくせにAI画像でいきがりやがって」みたいな不平不満から逃れることが可能になります。
何かを作っている人が、自分の分野ではない領域においてちょっとAIの力を借りている、みたいなニュアンスになり、少なくとも「自力で何も生み出していない人」と思われるからこそ受けてしまうヘイトを回避できるわけです。

AIで画像を生成しているすべての人に「ブログを書け」と言っているわけではもちろんありません。
ただ、単にAIで画像を生成するだけでなく、自分の手を動かして何かを作り、それとセットでAI画像を用いる、という道を考えておくことで、何というか「空気の通りが良くなる」気がしてなりません。

考慮してみてはいかがでしょうか。

まとめ

思ったより長くなってしまいましたが、一人の裸足フェチとしてDALL-E 3で遊んでいる立場から、現状思っていることを色々と書かせていただきました。

すでに述べた通り、AI画像生成はさまざまな社会的問題を孕んでいるわけですが、それはそれとして、自分の望むイラストを生成してくれる機能は純粋にありがたいものです。
できるだけ角が立たないようにこの機能を利用することで、人生がちょっぴり豊かになるのではないかと、私は考えています。

DALL-E 3はChatGPT Plusに課金することで使えるようになるものなので、残念ながら有料となります。
しかしChatGPT Plusのそもそもの機能も非常に優秀で、仕事や趣味においてものすごい力を発揮してくれるので、私は課金して損はないと考える次第です。

この記事を読んで興味を持った方がいらっしゃいましたら、ぜひ試してみることをおすすめしたいです。

【おまけ】裸足画像生成の宿命・4本指&6本指問題

裸足の女の子の画像を生成するにあたって、記事で書いてきたようなエラーの問題はもちろん厄介なのですが、それ以上に根本的な問題があります。
それは、せっかくいい感じに生成できた画像にもかかわらず、残念ながら足の指が4本だったり6本だったりする問題です。

これって、何か指示を与えることでどうにかならないものなんですかね?
絵柄もバッチリ私好みで、ロケーションやシチュエーションも申し分ないにもかかわらず、ただ指が6本であるというだけでそのイラストをボツにしなければならない、みたいな状況になるたびに、何とも言えない悲しい気持ちになってしまいます。

たとえばこの記事のアイキャッチ画像はすでにご覧になった通りですが、実はその前に一つ、別の候補がありました。
それが以下の画像です。

素晴らしいイラストであるにもかかわらず、足の指がめちゃくちゃ多い。
そこで独自に矢印を加えて、「こんなミスがよく起きるんですよね」というオチとすることで、無駄なく活用しようと考えたわけです。
でも結局、きちんと5本指で、かつなかなか魅力的な画像を後に生成できたので、それと差し替えることにしました。

「指の数は5本」と指示しても、聞いてくれないことも多いしなあ。
本当に何とかならないかなあ。