#638 汎用的な幾つかのものの中から選ぶ

画像生成AIをよく使う。その中でも写実的な表現のクオリティが高くてよく使っているのはImagen3だ。他ももちろんプロンプトの工夫で色々なんとでもなるわけだが、結局工夫しなくていいと言うところでそれが選ばれてしまう。
いずれも相当程度汎用的だとしても、なんとなくのイメージでは、DALL-E3はChatGPTを通しての画像操作が便利で、対話式でやれるし、あとはプロンプトは通りやすい。ベーシックに使いやすい。でも出てくる絵はややチープなものになりがちだ。
Midjourneyもよく使うが、芸術的な、美しい、画像が出てくる。が写実的でないことが多い。その芸術性がはまらない場面もある。
そしてImageFxで使えるImagen3は写実的な絵、というか写真が得意だ。
ここまで書いてきているけれども、言葉選びは難しい。詳しい人や専門家に言わせると色々違うよね、と言うのはありそう。なにせいずれも優れた汎用性を持っているので。
だから得意だ、と言ってしまうと、いやいや他のやつでも同じことできるよとか、そう言う感じはするので、良い言葉選びではないかもしれない。
しかし要は、味付けというか、傾向はそれぞれ何かしらあるということ。プロンプト次第、工夫次第で、どれも同じようなことができたとしても、工夫しなくても済むならそれはその方が良い。その方が楽だ。
だから例えば、なんとなく今回は写実的な絵を出そうかなと思ったらImageFxを開くし、芸術的だったり美しいイラスト調だったらMidjourneyを開くし、絵のクオリティは求めていないが対話式にやりとりしたかったり、とりあえずなんでもいいから出したければChatGPTを開く。
つまり、汎用的だとは言っても、人間があらかじめその手前でどれを使うという判断がやはり入ってくる。単体でどれだけ優れた汎用性を持ったものを作っても、その手前に人間が入って複数で使い分けるというのは今後も変わらないのかもしれないし、むしろ独占状態にならないほうが良いとは思うので、そうあって欲しい。
ちなみにGemini Flash 2.0 Experimental Image Generation(というような名前だったが記憶の中で書いているので違うかもしれない)も画像操作が対話式に高度なことができるとして最近話題だ。
コメントを残す