七難ハック
機械学習で利用するデータセットのライセンス継承についての私見
最終更新: 10/06/2021

最初に言っておきますが、私は法律について明るいわけではないただの一般市民であると同時に、これから書く内容についてはすべて個人の見解でしかありません。
これから書く内容の正確さについて一切の責任は負えません、また会社など私の周囲の組織・個人の見解とも一切関係のないものです。
ご理解ご了承いただける方のみお読みください。


問題: CC BY-SAライセンスで配布されたデータセットを用いて学習した機械学習モデルはCC BY-SAライセンスでなければならないか

私の見解: CC BY-SAである必要性はない

という話で、なぜそのような見解に至ったかの話をしたいです。
もちろんこの見解が間違っている可能性は大いにあります。ただ、かなり調べたのですが、この問題について明確な答えが出ている様子はなく私の見解が正しい/間違っているのどちらであったとしても、まずこの問題について提起したいので記事にしました。


発端

まず機械学習関連のライセンス問題・著作権問題を学ぶには、「シロワニさんの機械学習ブログ」さんのこちらの記事がとても参考になります。(非常にわかりやすくまとめていただきありがとうございます)

大前提の知識はこの記事をくまなく読むことで一通り押さえられるかと思います。(30条の4など、日本の機械学習環境が有利という話含め)

そのうえで、疑問になる点があります。それはこちらの記事でも結論が出ていない(わからないとされている)、上述の「CC BY-SAのデータセットを使ってモデルを作成した場合にモデルもCC BY-SAとなるのか」という問題です。

CC BY-SAとは

CC BY-SAとはクリエイティブコモンズのライセンスの1つで、日本語で「表示」「継承」と呼ばれるものです。「表示」については著作権者のクレジットを記載する必要があるという話なのでそこまで難しいことでもないのですが、「継承」が発生すると事情が変わってきます。

「継承」についてはソフトウェア開発のシーンでは「GPL」ライセンスの方が理解しやすいでしょう。いわゆるコピーレフトのことです。(きちんと確認したわけじゃないですが、CC-BY-SAはGPLv3に一方向の互換があるという話もあった)
昔から「GPL汚染」「ライセンス汚染」などと言われてしまうように、コピーレフトのライセンスが混ざるとそれがずっと付き纏うという仕組み上、敬遠されがち(特に商用では)なものです。

NLPにおけるWikipediaデータセット

コピーレフトになるのがイヤだから最初からCC BY-SAライセンスのデータを使わなければいいんじゃないか、というとそれはそう簡単でもなく、実際には現時点で大量のモデルがCC BY-SAライセンスのデータを使って学習されています。
そうです、Wikipediaのデータです。最近のNLPのタスクはWikipediaダンプデータで学習させたりするシーンは山ほどあります。殊、日本語の自然言語処理界隈では、オープンなデータの少なさも相まって、Wikipediaのデータを使うことが多いでしょう。

そんなWikipediaのデータはCC BY-SAライセンスの下に公開されています。つまり現時点でも既に多くのモデルがCC BY-SAライセンスに基づいたデータを使って学習されている状況です。

実例

では実際に、それらのモデルのライセンスはどうなっているのでしょうか。
実例を紹介していきます。

huggingface上で公開されていることもあって恐らく国内で最も有名なBERTモデルの1つと思われる、東北大のモデル、cl-tohoku/bert-japaneseシリーズはすべてCC BY-SAで公開されています。また、こちらは過去にissue上でなぜCC BY-SAライセンスの選定に至ったかの経緯を説明されています

The pretrained models are distributed under CC-BY-SA license, as they are trained on Wikipedia.

ということなので、東北大の乾研究室(の研究員の方)の見解としては「CC BY-SAのデータセットを使って学習されたモデルはCC BY-SAを継承する」ということのようです。

続いて、京都大学のモデルについて見ていきましょう。

京大でもNLPで有名な黒橋・褚・村脇研究室から日本語の事前学習済みBERTモデルが公開されています。こちら、ライセンスについては末尾に記載があり、Apache License 2.0となっていることが伺えます。つまり京大の黒橋・褚・村脇研究室(の研究員の方)の見解としては「CC BY-SAのデータセットを使って学習したモデルでもCC BY-SAを継承する必要はない」ということのようです。

もう一つ見ていきましょう。NICTこと国立研究開発法人情報通信研究機構の開発した日本語事前学習済みモデル、通称NICT BERTです。

このモデルも、東北大や京大と同様にWikipediaのデータをもとに学習されています。
こちらのライセンスを見るとCCライセンスはCCライセンスですが、BY(表示)のみとなっています。SA(継承)はついていません。
通常、ライセンス継承する場合はCC BY-SAというライセンスを、(CC BY-SAより)制限のゆるいCC BYライセンスにすることはできません。
つまりNICTの見解としては「CC BY-SAのデータセットを使って学習したモデルでもCC BY-SAを継承する必要はない」ということで、継承せずに新たに「CC BY」ライセンスで公開しているということでしょう。

このように、研究機関や人によって見解が割れているのがわかるでしょうか。私がいま一番問題だと感じているのは、見解が割れているこの状況であり、その結果より無難(?)なCC BY-SAを継承するパターンが増えているのではないかということです。

見解が割れる理由

それはもちろん現時点で法整備が追いついていなかったり、この事象に関する判例などが見当たらないことが原因だと思いますが、本件で論点になるのは「機械学習モデルは元データの二次的著作物になるのか」ということだと思います。

単純な写真を編集する場合を考えてみましょう。仮に、CC BY-SAライセンスの写真があるとします。

その写真を複製し、ブログの見出しなどで使う場合はどうでしょうか?これは明確に「複製」なので元の著作権者のクレジットを表示しなければなりません。

では次に、この写真を編集してみたとしましょう。たとえば文字を入れてみます。

この場合、「改変・変形・加工」にあたるので、元の著作権者の表示をしたうえで改変したことを明記し、そしてライセンスを継承しCC BY-SAとする必要があります。

これがCC BY-SAの条件となります(間違っていたら教えてください)

では、機械学習の場合どうなるでしょうか?ここで議論している機械学習はデータセットのデータを読み込んで、計算し、その特徴を学習していくものです。(そうじゃない機械学習もあると思うけど今は目を瞑って欲しい)
この行為は「改変・変形・加工」に相当するでしょうか?
冒頭紹介した「シロワニさんの機械学習ブログ」さんでもここが不明瞭であるため判断が難しいという旨を記載されていました。
機械学習という行為が上述の写真の例と比べて直感的にわかりづらいので、「機械学習行為は改変・変形・加工に相当するのか」ということの判断が難しく、その結果見解が割れているという状況に見えます。

私の見解

私個人としては「改変・変形・加工」に相当しないという立場(見解)を取らせていただきます。

冒頭でも述べたとおり法律について完全な素人です、間違っている可能性は大いにあります。
ただ私は私なりに調べた結論として以下のように考えています。

「改変・変形・加工」とは即ち著作権法上の「二次的著作物」にあたるかどうかということだと理解し、この「二次的著作物」の判断基準は翻案であるかどうか、つまり江差追分事件

既存の著作物に依拠し、かつ、その表現上の本質的な特徴の同一性を維持しつつ、具体的表現に修正、増減、変更等を加えて、新たに思想又は感情を創作的に表現することにより、これに接する者が既存の著作物の表現上の本質的な特徴を直接感得することのできる別の著作物を創作する行為

ということである。
データセットについてはDB著作物であるから、その本質的特徴は「選択」と「配列の創作性」と考え、そうであるなら元の形状を失い特徴量として保持されているだけの機械学習モデルはデータセットの翻案にはあたらない。つまり二次的著作物ではない。

という考えです。

つまり二次的著作物にあたらないので、「CC BY-SAのデータセットを使って学習したモデルでもCC BY-SAを継承する必要はない」というのが、冒頭でも述べた今の私の見解です。

ではなぜデータセットはCC BY-SAで公開されているのか

殊、機械学習向けとうたわれて公開されているようなデータセットの場合、モデルが継承しないならCC BYで十分ではないか?という意見もあるかと思います。
しかしこれは単純にですね、各々でデータを追加したり、あるいは使いやすい形に変換したり、そういった「改変・変形・加工」をしたあとも、同じライセンスだったら公開して頒布していいよっていうことだと思っています。継承しない場合、たとえばデータを追加したり変換したデータセットをNC(非商用)などの他の制限が追加されたライセンスで公開されてしまう可能性があるからです。
機械学習モデルにライセンスを継承させるために付けられたライセンスではないのではないと思って見ています。

今後について

現時点ではあくまで私の見解は上述の通り、というだけです。
見解が割れている以上、然るべき機関で議論を進め、結論を出していくべき議題ではないかと思っています。
いまのあやふやな状態だと、当然「継承してるほうが無難」という結論に傾きやすく、その結果「CC BY-SAを継承したモデル」が増えていくことを懸念しています。(商業的な機械学習の発展の妨げになるのではないか)
もちろん継承することが正しいのであればそれは仕方ないことですが、 そうでないならば、作成されたモデルに自由なライセンス付与がなされることを、1人の開発者としては望みます。

※2021/10/7 13:00 読み返すと日本語が不自然な部分があったので細かい修正をしました