发布时间:2024-11-18 09:45:43 来源:米乐m6米乐平台 作者:M6米乐最新下载地址
2023年以来,以Stable Diffusion为主的开源图像生成AI以来,AI从图像和视频两个方向也开始有了质的突破。AI的上限仅仅是为了创造一些图像和视频吗?人们何时才能将技术突破转化为生产力?AI能否像20年前的互联网一样,给人类社会带来巨大变革?
我们采访了坚持图像生成AI创业者和人机交互专家——季啸白。季啸白目前在全球头部互联网社交媒体公司工作,同时也是长期的图像生成AI方向创业者。从全球名校硕士毕业后,季啸白一直投身于图像生成AI产品化的研究和创业,作品也多次获奖。当前AI技术的局限、短期内产品落地的思路、中长期图像生成AI的发展思路和方向……季啸白一一进行分享。
“我认为,AI的发展仍然在很早期。在当下,人们仿佛对AI有些不切实际的幻想,总认为AI已经进化出人类的思维,有感情有思考能代替人类写论文,甚至和人类谈恋爱。这些有些一厢情愿了。”季啸白在开场就说道。
“目前,你让AI写生物医药论文、画一幅抽象主义绘画,AI本质上只是学习过去人们写过的论文、画过的绘画,然后按照人类当下的需求重新有机的杂糅并输出。AI是没有创造性的,特别是图像领域。为什么图像生成AI领域经常出现版权纠纷,其实正是因为AI只是学习了过去的画作,在输出过程中,并不能受控制地不输出一些内容,导致恰好和版权作品相近,因此导致版权问题。”季啸白也指出,图像生成AI经常出现的版权纠纷,其实是因为人类对AI的输出结果不能很好地控制,因此亟须更有效的人机交互方式。
在季啸白看来,不同于ChatGPT,人类无法直接给AI提供图像,但人类对AI生成的图片结果敏感。“如何帮图像生成式AI做好人机交互体验,帮助人们合理准确表达诉求的同时,降低上手难度和门槛,从而获得预期结果,是图像生成AI无法回避的话题。这也是我在创业和工作中重点研究的方向。”
季啸白同时也提到,当前图像生成AI的人机交互方式,从渠道上来说分为用文字生成图像,用“文字+图像”生成图像,用“文字+图像+风格倾向”生成图像,用“文字+图像+标注重点部位”生成图像;从轮次上来说也分为单次和多次。相对复杂的交互方式导致设计合理和简化的人机交互体验能帮助C端产品获得成功,但对B端产品需要深入浅出地提供更丰富的多轮生成调优能力。“B端消费者不喜欢随机,不要套用C端产品的思路来解决B端需求。我也见过B端产品,上来就让用户提供文字描述来生成图片/视频。B端用户是要生成图片拿来干活的,不是天马行空的任由AI发挥。B端无法接受太高的自由度。这一点在人机交互的设计上一定要考虑到。”季啸白补充道。
季啸白认为,图像生成AI的重点正在从to C市场向着to B市场转移(注:to C是指面向普通消费者市场,to B是指面向商业市场)。美国硅谷早期的一些图像生成AI都是面向普通消费者的,他们鼓励用户去他们的平台用文字描述需求,然后点选他们喜欢的图片来下载,整个流程就走完了。这本质上是服务普通消费者的流程,商业化潜力在于用户按次付费,或通过订阅制包月使用。然而早期的商业化探索并不顺利。大部分消费者抱着尝鲜的目的而来,用户增长很快,但留存和付费转化很低,本质上是因为通用型图像生成AI的天花板太低,既没有给用户尝到甜头,也没有直接服务用户的痛点。相比而言,垂类图像生成AI,以及to B图像生成AI的天花板更高,因为他们有的能帮用户赚钱,有的能帮用户找到快乐,有的切实满足了部分商户的特点。
季啸白认为,要关注C端市场低客单价的普遍需求,千万不能陷入追求高客单价或高频;对B端市场,要关注特定垂类市场的高频需求。他具体阐述道:“AI的本质是替代人类的重复劳动和昂贵劳动力,因此偶尔看到部分AI创业者追求高客单价,其实是个误区。AI无法创造奢侈品。同时,图像生成式AI很难触及高频需求,我们的日常生活中,出门吃饭买菜,回家刷短视频睡觉,很少需要创造图像,因此传统商业意义的高客单价和高频都是不可取的。”
季啸白建议,一定要着眼普遍的多个需求才有商业化的价值和空间,比如做AI图像集成工具,连带AI美妆,AI一键换背景,AI一键改光线,AI生成证件照/艺术照,虽然对单个用户而言不算高频需求,但对于整个社会而言,累计使用次数相当可观。
对于toB市场,季啸白建议“钻进去”,和特定垂直行业的从业人员聊,了解他们的具体需求,并判断需求频次和客单价后服务好这些行业。“电商行业其实是最早开始接触图片生成AI技术的行业,因为行业本身信息敏感度高,也有大量图片处理需求。我们工作中也经常有电商行业的从业者来聊,因为他们的需求太大了,无论是图像生成、图像批量后期处理,还是一键换衣等需求,本质上就是用AI的低成本去换重拍图片的成本。”季啸白分享道,“他们的需求非常杂,相当定制化,每一类需求量其实不大,所以图片生成AI其实反而服务不好这个行业。之前有个老板来找我们,希望把帽子、围巾、手套等物品的平铺图能直接生成到模特的身上。其实从技术角度,我们都要对帽子、围巾、手套等物品做定制化的训练和开发,有一定人工成本。对于电商而言,不如就找模特快速拍一下就行了。所以虽然这一个项目没有成功,但能管中窥豹钻进一个行业,具体了解他们的需求、内容和频次的重要性。”
季啸白分享了他的想法:“我认为视频生成正处于破晓时分。其实视频本质就是图像的连贯展示,且从图像生成技术出现开始,人们已经在为AI生成视频努力。视频的商业前景比图片大得多,这也是抖音/TikTok等产品成功的原因。经过互联网20年的发展,人们对消费视频已经习以为常,并且使用习惯也从阅读静态媒体向消费动态内容转变。视频生成应该是下一个方向,大约在2025年达到可商用的成熟度。”
季啸白也坦言,当前视频生成技术尚不成熟,但成熟度一旦建立,OpenAI可能会建立自己的视频平台,和抖音/TikTok直接竞争视频消费者,同时给影视行业带来变革。影视行业不一定喜欢从0开始生成视频,但会对修复拍摄的穿帮细节、虚拟布景AI生成宏大背景、生成无法拍摄的视觉效果等感兴趣,并且影视行业的付费意愿高。和影视行业紧密合作,也许会是这个10年下半场的核心机会空间之一。
对于图像生成AI的长期发展方向,季啸白坦言,超过5年的预期,自己也很难看准。但长期来说,图像生成AI一定是和人类大脑协作,而不是取代人类的摄影和图像创作。
“摄影其实也是拍摄者的情绪和思考的表达,而不仅仅是对客观事物的捕捉和取景。”季啸白说道,“我自己也很喜欢画画和摄影,AI技术不断演进下,人类主动创作的主观表达是永远无法替代的。但同时也不能忘了,我们生活中有太多的重复劳动能被替代。创业固然很难,但创业的难其实来源于发现问题和机会点的眼睛。AI技术永远在演进,我很期待图像生成AI未来的表现,也期待图像生成AI在更多更垂直的领域和赛道的应用。”