2023年08月23日18時00分に弊誌が公開した記事に関連しまして、弊社内の調査が完了したため、改めてご報告とお詫びを申し上げます。まずは本件につきまして、報道機関様および関係者様、弊社メディアをご利用のユーザー様に多大なご迷惑をおかけしましたこと、心よりお詫び申し上げます。
また公表時期につきまして、影響範囲の調査と対応、関係者への連絡などをおこなったことから、前回発表より期間が空いてしまったことも、重ねてお詫び申し上げます。
本件の概要
本件は、2023年08月22日に公開された記事(以下「問題記事A」)につきまして、複数の報道機関に掲載された文章をそのまま用い、剽窃・盗用に該当すると言える箇所が確認されたことに端を発します。当該記事は本誌記者による執筆ではなく、弊誌が β 版として開発・検証をおこなっていた生成系 AI によって生成された記事です。
問題の発覚後、同システムによって生成された AI 記事も全て非公開にしておりますが、その後の調査を通じて「問題記事A」以外の問題ある記事の存在や、事態の経緯などが確認出来たため、判明後の対応などと併せて、以下でご報告させていただきます。
判明の経緯
本件につきましては、「問題記事A」が剽窃・盗用していた報道機関様の記事(記事a)の関係者様より、2023年08月22日21時頃に問題をご指摘をいただき、事案が発覚しました。
そのため同日22時05分までに、当該記事を非公開にするとともに、その他全ての AI 生成記事についても、翌23日15時58分までに非公開対応をおこないました。その後23日18時00分に、「問題記事A」に関する事態のご報告および謝罪記事を発表させていただきました。
問題の所在・原因
弊社が β 版として開発・検証をおこなっていた生成系 AI は、複数のウェブサイトや報道機関様のサイトなどを参照し、話題となっているキーワードや事件などについて、新たな記事を生成する目的で開発したものでした。
当該システムは、GPT-4 や GPT-3 などの大規模言語モデルを利用し、弊社が独自に記述した時事性の高いキーワードの説明などを組み合わせた記事を生成することを目指していました。その際には、複数のウェブサイトや報道機関様のサイト、ソーシャルメディアなどから話題のキーワードや、著作権法第10条2項における「事実の伝達にすぎない雑報及び時事の報道」(*1)のみを参照することを企図しておりました。
取得対象
また当該システムは、特定のウェブサイトや報道機関様のサイトを対象として収集する仕組みではなく、ソーシャルメディアなどで話題になったコンテンツをもとに参照先を決定しており、その際にはタイトル・媒体名・本文の一部を取得していました。
問題の所在・範囲
ところが生成された記事は、単なる事実の伝達を超えたものであるだけでなく、冒頭で述べたように剽窃・盗用に該当すると言える箇所が、複数箇所含まれるものとなっておりました。事態発覚後の調査で、以下のような結果が確認できました。
問題が確認された記事は、08月18日18時11分から08月22日19時17分に公開された、合計49記事となっており、これらは、08月18日18時11分から08月23日15時58分まで閲覧可能な状態となっておりました。
この49記事のうち、15記事が「明らかな盗用・剽窃を確認できる箇所がある記事」であり、1記事が「盗用・剽窃の疑わしい箇所がある記事」と確認されました。また、これらの記事を含めた34記事が「盗用・剽窃とみなされる可能性が高い記事」と確認されました。
ここで言う「明らかな盗用・剽窃を確認できる箇所がある」とは、確認のための便宜上(*2)、出典を明記しないまま、一字一句同一の記述が25文字以上連続して確認できる箇所が存在している記事を指し、1記事内にそうした箇所が2つ以上存在している記事は11記事、1つ存在している記事は4記事でした。
「盗用・剽窃の疑わしい箇所がある記事」とは、確認のための便宜上、出典を明記しないまま、一字一句同一の記述が15文字以上(25文字未満)連続して確認できる箇所が存在している記事を指し、この1記事には、そうした箇所が1つ存在していました。
「盗用・剽窃とみなされる可能性が高い記事」とは、確認のための便宜上、一字一句同一の記述はないものの、事実の伝達を除いて、記事の構造や背景説明、取捨選択された情報の扱いなどに類似性が認められる記事を指します。これは「明らかな盗用・剽窃を確認できる箇所がある記事(15記事)」と「盗用・剽窃の疑わしい箇所がある記事(1記事)」を含めて、人間の目視によって調査・確認したものとなります。
また、上記の問題が確認された記事に限らず、今回公開された49記事は、いずれも既存の記事にフリーライドしたものであり、新たな価値や見解、議論などを生み出しておらず、社会的・倫理的に問題があることは言うまでもありません。
判明後の対応
前述の通り、「問題記事A」については08月22日22時05分までに非公開対応をおこない、記事(a)の報道機関様とのご連絡・対応を開始しました。また、それ以外の AI 生成記事についても問題があると判断し、翌23日15時58分までに、その他の48記事について非公開対応をおこなうとともに、問題把握および調査を開始しました。
また当該システムについては08月23日18時頃までに停止し、今後は一切同様の要件にもとづいて機能開発をおこなわない旨を決定しました。また取得していたタイトル・媒体名・一部の本文、タイムスタンプなどの関連するデータにつきましては、09月11日までに弊社データベース・サーバー・端末より全て削除しております。同じく、生成された AI 記事も全て削除しております。
この結果につきまして、09月12日までに「問題記事A」で剽窃・盗用していた報道機関様に改めて謝罪・ご報告をおこない、本日こちらの「弊社の記事に関するお詫びとお知らせ」を公開させていただきました。
弊社見解と今後の対応方針
本件は、当該システムの機能開発における(1)著作権に関する認識・理解不足(2)リスク認識およびコンプライアンス意識の欠如、の2点に起因するものと考えております。改めて、こうした重大な問題への理解や認識が欠如しておりましたこと、その結果として報道機関様および関係者様、弊社メディアをご利用のユーザー様にご迷惑をおかけしたことを深くお詫び申し上げます。
今後は、本件に関連する十分な理解・知見を得るまでの間、それに付随する機能開発は一切停止するとともに、開発・リリースフローなどの全面的な見直し・改善をおこなってまいります。また著作権に関しても、本件に限らず関連する法規・法規範などを検証し、専門家など第三者による指導を受けつつ、問題点がないかを確認してまいります。
そして最後に、リスク認識およびコンプライアンス意識の徹底につきましては、改めてメディア企業としての責任を自覚した上で、経営陣を中心として深く反省をおこない、再発防止策の実施を推進してまいります。特に、解説記事も含めたコンテンツの品質管理を改めて徹底し、皆様から認めていただけるような記事をお届け出来るように、ゼロから出発してまいります。
(*1)一般社団法人日本新聞協会「ネットワーク上の著作権について」1997年11月6日 を参照
(*2)盗用・剽窃は、必ずしも同一文字列の重複のみを指すものではありませんが、本調査をおこなう上での便宜上、本定義にもとづいて記事数の確認を行いました。