遊び心から始まった研究が、広告業界を変える。I’m Creative新機能開発の舞台裏 〜生成AI研究者/起業家 堀田大地の場合〜

Shirofune広報担当

Shirofuneではツール開発からセールスや広報・マーケティング、ユーザーサポートなどのサービス展開に至るまで、社外のプロフェッショナル人材の力を借りてプロダクト・サービス両面での成長に取り組んでいます。社外からShirofuneに関わるプロフェッショナル人材は、どのような想いを持って参加しているのでしょうか。

今回はShirofuneのAIクリエイティブ改善ツール、I’m Creativeの開発に携わった堀田大地さんが登場。堀田さんはコンピュータビジョン(画像認識や画像生成など)分野で最も権威のある国際的な学会、CVPR (Computer Vision and Pattern Recognition Conference)で論文が採択された生成AI研究者です。未踏スーパークリエータという国家レベルで認定された「突出した若手IT人材」でもあります。

そんな堀田さんがなぜShirfouneの開発に関わることになったのか、研究と社会の橋渡しにこだわる彼のキャリアと、I’m Creative新機能の開発秘話をご紹介します。

堀田 大地 https://udonda.github.io/
株式会社MAGICA 代表取締役/東京大学 先端科学技術研究センター 特任助教
画像とレイアウト生成の研究に従事し、東京大学大学院にて博士号を取得。IPA(独立行政法人 情報処理推進機構)の未踏IT人材発掘・育成事業にて「未踏スーパークリエータ」に認定される。またコンピュータビジョン(画像認識や画像処理など)分野で最も権威のある国際的な学会、CVPR 2024では1万2000件以上の論文の中から上位0.77%に選出されるなど世界的にも高い評価を受けている。2025年より株式会社MAGICAの代表取締役に就任。生成AIの知見を活かし、不動産やM&A分野の課題解決にも取り組んでいる。 

馬をシマウマに変える!?遊び心から始まった研究が、実務で役立つ技術になるまで

2025年5月、ShirofuneのAIクリエイティブ分析ツール「I’m Creative(アイムクリエイティブ)」に、新たな機能が加わりました。広告クリエイティブの成功・失敗要因をAIが分析し、その結果に基づいた改善案を構成案として自動生成する機能です。

この新機能の構想は、もともとShirofuneが次なる進化として目指していたもの。しかし、技術的な突破口が見つからずにいました。プロフェッショナル人材との接点を広げる中で出会ったのが、堀田さんでした。

両親の影響で、小学生低学年の頃からパソコンに触れていました。小学校4年生の頃には、あるゲームに夢中になり、かなりの時間を費やしていたんです。プレイ時間に比例して経験値が上がるゲームで、当時は「いかに効率よくレベルを上げるか」を考えるのが楽しくて。

学校に行っている間もゲームを進めたいと思い、家にいなくても自動でプレイしてくれるプログラムを作れないかと考えるようになりました。そこから、見よう見まねでプログラミングを始めたのが最初のきっかけです。

実は学部時代に夢中になっていたのは、ロボット開発です。レストランの店員をロボットで再現するロボカップ@ホームという大会に出場していたのですが、あるとき気づいたんです。ハードを作るのは大手企業の仕事で、僕らに求められるのは、ソフトウェアだなと。

iPhoneを例にとってもそうですよね。ハードを作るのはアップルの仕事です。だったら、ソフトウェア領域に進んだ方がいいのでは?と考えるようになりました。

ちょうどその頃、ディープラーニングが注目されていて、画像認識の精度が一気に上がりました。面白そうだなって思って関連授業を受講して、試しに自分で作ったプログラムを先生に見せたんです。そうしたら「これ、研究でやろう」と言われて。そこから研究がスタートしました。

「馬の画像をシマウマに変える」という技術をたまたま見つけて。「しょうもない!」と思いながら面白さを感じて、「白米をカレーに変える」画像変換のプログラムを作って先生に見せました(笑)。いわゆる、元祖・生成AIのような技術です。

そこからこの領域の面白さにどっぷりハマり、成人式の参加も見送ったほど夢中になりました(笑)。

https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix より引用

馬の画像から生成されたシマウマの画像は、後から修正や編集をするのが難しい。Photoshopを使えば多少レタッチもできますが、限界があります。でも実務で活用することを考えると、あとから文字を追加したり、サイズや配置を変えたりと、柔軟に編集できた方が便利ですよね。

だったら、最初から編集しやすい形式で生成すればいいのでは?と考えるようになりました。そこで「ベクターグラフィックス」と呼ばれる、編集しやすい構造で画像を生成する方法を模索するようになりました。そうすることで、Photoshopのレイヤー構造のように、テキストや図形を独立した形式で生成できるようになるからです。

要は実務で使えるデータ生成へと、研究の方向性を変えたわけです。単に馬をシマウマに変えるだけでは、社会のお役に立つのは難しいので(笑)。研究と社会の接点を探る中で、自然とそういう方向に進んでいきました。

その後は修士課程・博士課程と一貫してこの領域で、様々な企業とコラボレーションをしながら、実務で使える生成技術を探究してきました。

Microsoft Research Asiaなど、世界各地の研究者とも共創をしてきた

Shirofuneとの出会いと、I’m Creativeの新機能開発

僕の研究領域は広告業界と親和性が高く、学生時代にインターンとして働いていた会社の繋がりでShirofuneと出会ったのがきっかけです。

ShirofuneとI’m Creativeの存在を知った時はすごく驚きました。「誰もやっていないことを、ここまでやっている会社があるのか」と。しかもI’m Creativeが求めていた「バナー構成案の自動抽出」は、まさに僕が研究してきた「レイアウトの自動生成」とピッタリ一致していて。これは面白い取り組みができそうだなと感じたことを覚えています。

そうなんです。しかも、Shirofuneには実現に必要不可欠なデータが全部揃っていました。配信されたバナー、広告効果、それをどう修正すべきかのテキスト情報が大量に蓄積されていて。サービスの作り込みが本当に素晴らしくて、材料が完璧に揃っていた。

ここまで理想的なデータセットを持っている企業って、本当に珍しいんです。よく「良い食材が揃っていたら、美味しいカレーは自然とできる」なんて言いますけど、本当にそんな感覚でした(笑)。

プロの知見とChatGPTの技術革新が導いたスピード開発

毎回のミーティングがすごく濃密で、刺激的でした。Shirofuneの皆さんはそれぞれが専門領域に対する深い知見を持っていて、フィードバックが的確なんです。研究者として学ぶことが多かったです。

あと技術的な面で言うと、ちょうど開発期間中にChatGPTが画像生成機能をリリースしました。実際に試してみて「これは世界が変わったな」と衝撃を受けました。I’m CreativeではChatGPTの技術も一部取り入れて、当初の想定を超えるアウトプットを出せたことも印象に残っています。

また、スピード感にはすごくこだわっていました。今、まさに熱いマーケットなので、僕のせいでリリースが延期することはあってはならないなと。限られた時間の中で、最大限のパフォーマンスを出したいと思っていましたし、関わったメンバー全員が同じ思いで取り組んでいたと思います。

イタリア留学中は「ピザを食べまくった」と語る堀田さん

少人数で、進化し続ける。Shirofuneは自分が目指す組織の理想像

すごく大きな気付きがありました。今、僕は自分の会社を経営しています。きっかけは「世界を変え得る技術が出てきているのに、既存企業に入社したら保守的な運用がメインで、”攻め”の姿勢が取れない」と感じたこと。生成AIのような技術が出てきた今こそ、少人数でもスピード感を持って、0→1のプロダクト開発に取り組みたいと考えるようになりました。

長らく研究に携わってきましたが、10年後もずっと研究をしていたいかというとそういうわけではない。研究だけに閉じた世界ではなく、社会と接続された場で技術を使っていきたいという思いがありました。

僕の場合、研究は1〜2割、実社会への応用が8〜9割というバランスが理想的だと感じています。だったらそんな場所を自分で場所をつくろうと思って起業を決めました。

そういう視点で見ると、Shirofuneはまさに僕にとって「理想的な会社像」なんです。少人数で、長きに渡りプロダクトを磨き続けてきた大先輩のような存在。他の誰もやらない領域で、ひたすら強みを伸ばしている。結果としてソフトウェア自体が、圧倒的な競合優位性になり、確かな成果を出している。技術で勝つ戦い方をしている。

僕自身が将来こうありたいと、目指す姿を間近で見せてもらいました。これは間違いなく、自分のキャリアにとっても大きな財産になったと感じています。

研究者時代の飲み会は、ビール片手に論文を持ち寄るのが日常!
AIや画像生成といった共通言語をもつ仲間たちとの時間は、最高のインプットの場でもある

技術と社会の接点を広げる。生成AIで「誰にも相談できない悩み」を解決したい

今、注力しているのは不動産やM&Aの領域です。どちらも情報の非対称性が非常に大きい領域で、相談する側とされる側に利益相反が起きやすい。だからこそ相談のハードルが高いと感じています。

でも生成AIなら、情報を漏らされる心配もなく、バイアスもなく、何より心理的に安心して話せる相手になれる可能性がある。そんな、頼れる相談相手のようなAIを作りたいと思っています。

そうなんです。画像生成領域については、今でも研究自体は追っていますが、会社としては全く違うテーマに挑戦しています。

というのも、画像生成の領域については僕の中で結構「やり切った感」があって。実は2024年にCVPR(Computer Vision and Pattern Recognition Conference)という世界的なコンピュータビジョンの学会で論文を発表したんです。毎年、世界中の研究者が魂を削りながら論文を発表するような、すごく熱量の高い場です。

そこで投稿された1万2,000本中の90本、つまり上位0.77%に選ばれたんです。この時に、自分の中で達成感を感じたことが大きかったです。

広告バナーの構成案を自動で提案する、AIの研究です。具体的には、画像内の空白部分に「ここに文字を入れたらいい」という位置をAIが予測して提案する技術です。まさに今回Shirofuneと取り組んだテーマに近い内容でした。

ただ、Shirofuneの開発がさらにすごいのは、被写体そのものの位置まで動かすことを前提にしていたこと。これは論文でも見かけたことのないアプローチで、実用的かつ先進的な取り組みです。

こうした挑戦ができたのは、Shirofuneが質・量ともに優れたデータを保有し、素晴らしい方々が開発に関わっているからこそ。その一人としてサービスの開発に関われたことは、僕にとっても本当に有意義でした。

I’m Creativeのような先進的なサービスは、開発すること以上に、広げることが難しいと認識しています。だからこそ、このサービスが今後どんな風に成長していくかとても楽しみにしています。

また開発者として必要としていただけるタイミングがあれば、それはきっと技術が大きく変化する時。次のブレイクスルーのタイミングで、またご一緒できたら嬉しいですね。

<取材・文/藤井恵

この記事を書いたライター
Shirofune広報担当
一覧に戻る