2025年2月、ブラジルのミナスジェライス連邦大学の研究チームが、世界中の研究者・技術者・社会学者の注目を集める大規模データセットを公開しました。
その名も 「Discord公開チャットデータセット(2015~2024)」。
内容はなんと、20億件以上のDiscordメッセージ。
2015年から2024年にかけて、3,167の公開サーバーから収集されたメッセージが含まれています。

データセットの概要
対象期間:2015年〜2024年
サーバー数:3,167
メッセージ総数:約20億件
形式:JSON形式、匿名化処理あり(ユーザー名→ハッシュ、ID置換)
公開場所:Zenodo(EUが運営する研究用データ共有プラットフォーム)
→ https://zenodo.org/records/15170676
研究・技術分野へのインパクト
この公開により、以下のような研究が現実味を帯びてきます:
- SNS上の誤情報・陰謀論の拡散メカニズムの解明
- ゲーマーコミュニティにおける政治的言説の進化分析
- マルチモーダルチャットボットの自然言語トレーニング用コーパスとしての活用
- Discord上でのAIの受容・反発に関するトレンド調査
倫理的な議論も…
このデータは「公開サーバーから取得されたメッセージ」ではあるものの、以下の懸念も指摘されています。
- Discordの利用規約違反の可能性
- メッセージの内容に個人情報やセンシティブな話題が含まれている恐れ
- 匿名化処理がされているとはいえ、完全な特定不可とは限らないこと
一部のユーザーは、「半プライベートな空間での会話が勝手に学術目的で利用されるのはおかしい」と反発の声を上げています。
結論:ビッグデータ時代の「研究と倫理」のはざまで
今回のデータセットは、AI・言語・SNS分析に関心のある研究者にとっては極めて貴重な資源となる一方で、プライバシーやプラットフォームのポリシーといった問題も無視できません。
今後、どこまでデータを「公共財」として扱えるか、また研究者はどこまで「倫理的責任」を持てるのかが、ますます問われることになるでしょう。
🔍 参考リンク
- データセット公開ページ:Zenodo
- 研究論文(arXiv): Discord Unveiled: A Comprehensive Dataset of Public Communication (2015–2024)
![]()