見出し画像

生成AIが進化するほど、オリジナルデータが重要になる

ChatGPTをはじめとする生成AIをコンテンツ制作に活用しようとプロンプトを工夫してみても、どうもいいコンテンツが作れないと感じている人は多いと思います。その理由と、打開策を考えてみました。


生成AIが書いた文章には「におい」がある

 生成AIは、何もないところから答えを生み出す魔法の箱ではなく、命令文すなわち「プロンプト」が重要だということが広まってきました。「ChatGPT プロンプト」で検索してみると、「プロンプト文例集」「プロンプトテンプレート集」「業種、職種別プロンプト集」などのページが山のように表示されます。

 こうしたプロンプトを縦横無尽に駆使することで、企業の製品紹介やオウンドメディアのコンテンツなどが短時間で生成できるようになる、という期待もありました。しかし実際にやってみるとわかるのですが、生成AIが作成したテキストは、「当たり前のことを大袈裟に書いているだけで、面白くない」という印象を受けることが多いです。

 もちろん、ビジネスメールに代表されるような定型文を、時間をかけずに作成したい、という目的であればそれで全く問題ないのですが(特に、何かを断るときやミスを謝罪するときなど、気が重いメールを書かなくてはいけないときには大活躍です)、読んだ人に面白いと思わせたい、読んで得したと思わせたい、何か行動を変えるきっかけにして欲しいということを期待するには力不足な感じが否めません。

 生成AIの言語モデルは与えられた単語に続く単語やフレーズを予測することで、人間が書いたようなテキストを作成します。どのような予測が行われるかは、モデルの元になっている学習データに依存します。Webのデータを学習しているのであれば、Webに公開されているコンテンツの中から与えられた単語と一緒に登場する確率が高い単語やフレーズを数珠繋ぎにつなぐことでテキストを生成します。

 生成AIが書いた文章を人間が書いた文章と判別するためのAIもいくつか公表されており、「よく似たフレーズが何度も繰り返されていないか」「Web上で公開されたコンテンツと合致するフレーズが多く含まれていないか」「文章としては成立しているが意味が不明になっていないか」といったことをチェックしているようです。一方、人間が文章を読むときにはほとんどの場合そんなことは意識していませんが、やはり人が書いたものとは違うと感じることが多いのは前述の通りです。

人間と生成AIの「書く」プロセスを分解する

 なぜ、違いを感じるのかを考えるために、人間が「書く」プロセスを整理してみましょう。

 まず、小学校の国語の授業でも巷に溢れる文章術の本でも強調されるのが「文章を書く前には意図と目的を明確にするのが大事」ということです。日常私たちの目に触れるコンテンツは(うまく伝わっているかどうかはさておき)それを意識しています。次に、意図と目的に沿って何を書くのかを決め、そのために必要なデータを集めます。ここで「データ」というのは、数値や調査情報に限らず、インタビューや会話や自分自身の経験や心情、あるいは想像も含めた、広い意味での文章の「ネタ」を意味しています。集めたネタを並べ替えて構成を考え、必要であればデータの追加や裏取りをして、テキストを作成します。

 小学生の作文も、学生のレポートも、ビジネスパーソンが書く報告書も、ライターが書く記事も、内容は異なっても文章を書くプロセスはほとんど同じです。一方で、生成AIは、当然ですがそれ自体が意図と目的を持つわけではありません。そこに目的と意図を与えるのが「プロンプト」です。データ収集と構成は、プロンプトに関連のありそうなテキストをAIが学習データから抽出することで行われます。そして最後に、抽出したデータに含まれる単語を起点にして、確率的にテキストが生成されます。

人間がテキストを書くプロセスと生成AIがテキストを書くプロセスを比較してみました。

 比較してみると、生成AIのプロセスは、赤枠の部分でモデルが学習したデータに依存していることがわかります。つまり、「目的と意図」と「生成物」を変換にするために利用する「ネタ」の部分が、人間が書く文章とは違うということになります。

 用途にあわせて独自のデータセットを学習させたモデルを使う生成AIもありますが、ChatGPTのような汎用的な生成AIであれば学習に使用しているデータはインターネットで公開されているものがほとんどです。だとすると、プロンプトでいくら工夫してもテキストの生成に使うのは「同じネタ」、しかも莫大な量のデータの中から最大公約数的に抽出したデータということになるわけですから、できあがったテキストが「どこかで見たような」「あたりまえのことを大袈裟に書いている」という印象になるのはある意味当然かもしれません。

生成AIにデータを与えてみる

 逆にいえば、生成AIのプロンプトに意図、目的の指定だけでなく、一緒にデータを与えることで、「どこかで見たような」ではないテキストを生成できる可能性があります。

 SNSなどで話題になったのが、「童話のストーリーを別の視点で書き直してみる」というものです。『〜鬼から見た桃太郎〜ChatGPTを使っていろんな立場から絵本を読んでみる』というこちらの記事では、誰でも知っている「桃太郎」の物語を丸ごと入力して「鬼の視点で物語を書き換えてください」というプロンプトを与えています。

 読んでいただくとわかりますが、鬼の視点の物語は、鬼ヶ島で平和に暮らしていた鬼のところに、「鬼ヶ島には悪い鬼がいる」という風評を信じた桃太郎が乗り込んできて、暴力を振るったあげくに宝物を奪って去っていく話になっています。鬼から見れば「桃太郎こそが侵略者」という、それぞれの正義が戦争を引き起こすことが実感できるような、新しい物語が生成されています。

 データとしてストーリー記述する文章を与えて生成AIに立場を変えて書き換えさせるというのは、いってみればディベートのようなものです。ひとつの事象をさまざまな立場から論じるというのは、生成AIが得意で、かつ有用な使い道だといえるでしょう。夏休みの宿題の読書感想文を生成AIに書かせてそのまま提出するのはいただけませんが、生成AIで物語をさまざまな立場から書き換えてみると、感想文を書くときのヒントになるかもしれません。

社内に眠っているデータをコンテンツ化する

 話を戻すと、生成AIでコンテンツを作ろうとしてもいまひとつ面白いものができない、という悩みは、プロンプトと一緒にデータを与えることで解決できるのかもしれません。逆にいえば、生成AIに与えるデータが無いと、生成AIを使って面白いコンテンツを生成することはできないだろう、ということになります。

 とはいっても、自社が持っているデータで生成AIに入れられそうなものってなんだろう、と考え込んでしまうかもしれません。意外に、自社ではどんなデータを持っているのか、ということを整理できていない会社は多いです。さらに自社のデータの中にも、公開しているデータと非公開のデータがあります。次の表は、企業の公開データと非公開データの例です。

 非公開データというのは理由があるから非公開なので、これを生成AIに入力してコンテンツ化するというのはちょっと抵抗があるかもしれません。実際、ノーガードで入力してしまうとモデルの再学習に使われ情報が流出する可能性は否定できないので、設定を適切に行う必要があります。その前提で、非公開データを生成AIに入力すると、完全にオリジナルのコンテンツを生成することが可能になります。

 例えば、飲料メーカーが1週間の売上POSデータを使って「20代の男性が平日の朝買っているドリンク」のランキングを作ってみたとします。これと一緒に、公開されている製品情報と、非公開の商品企画会議の議事録を生成AIに入れると、ランキングと一緒にちょっとした開発エピソードが添えられた商品紹介のコンテンツが瞬時に作成できます。さらにこれを「20代の女性」「中・高校生」「昼食時」など切り口を変えるのも簡単ですし、データを毎週更新することも簡単にできます。生成AIと非公開のデータを使うことで、手間をかけることなく、すでに公開済みの「製品紹介」のコンテンツにオリジナリティを加えて新しいコンテンツを生成することができるのです。

 データは宝ですが、持っているだけでは価値にはなりません。文字通り宝の持ち腐れです。データをそのまま公開するのではなく、コンテンツ化して外に出すことで、新たな価値を生むことができます。さらに、生成AIを利用すれば、取得してから間もない、価値の高い新しいデータをどんどんコンテンツ化することができます。

 数年以内に、コンテンツ化できるオリジナルデータを持っている企業と持たない企業では発信できるコンテンツの質も量も違いになって来ると予想します。生成AIが進化するほど、オリジナルデータの必要性と価値が高まっていくのです。生成AI×データの視点で自社内にあるデータを見直し、オリジナルデータを充実させていくことがこれからの企業には必要になると思います。
 
【参考文献】
AIが生成した文章は判別できる? ポイントは「言葉選びの意外性」にあり (Wired)https://wired.jp/article/how-to-spot-generative-ai-text-chatgpt/
ChatGPT」が書いた文章を見分けることは可能か--5つの検出ツールをテスト (ZDNET Japan)
https://japan.zdnet.com/article/35207809/

「効果的に広告配信したい」「効率よく営業したい」など、データを活用してお悩みは解決したい方はこちら