SNS - ~ DX & AI for Radical Change ~

2025年2月、ブラジルのミナスジェライス連邦大学の研究チームが、世界中の研究者・技術者・社会学者の注目を集める大規模データセットを公開しました。
その名も 「Discord公開チャットデータセット（2015～2024）」。

内容はなんと、20億件以上のDiscordメッセージ。
2015年から2024年にかけて、3,167の公開サーバーから収集されたメッセージが含まれています。

データセットの概要

対象期間：2015年〜2024年

サーバー数：3,167

メッセージ総数：約20億件

形式：JSON形式、匿名化処理あり（ユーザー名→ハッシュ、ID置換）

公開場所：Zenodo（EUが運営する研究用データ共有プラットフォーム）
→ https://zenodo.org/records/15170676

この公開により、以下のような研究が現実味を帯びてきます：

このデータは「公開サーバーから取得されたメッセージ」ではあるものの、以下の懸念も指摘されています。

一部のユーザーは、「半プライベートな空間での会話が勝手に学術目的で利用されるのはおかしい」と反発の声を上げています。

今回のデータセットは、AI・言語・SNS分析に関心のある研究者にとっては極めて貴重な資源となる一方で、プライバシーやプラットフォームのポリシーといった問題も無視できません。

今後、どこまでデータを「公共財」として扱えるか、また研究者はどこまで「倫理的責任」を持てるのかが、ますます問われることになるでしょう。