データセット

From Gephi:Wiki

Gephi のサンプルデータセット。さまざまな形式 (GEXF、GDF、GML、NET、GraphML、DL、DOT) のものがあります。追加したいデータセットがあったら、自由に追加してください。その際、忘れずにオリジナルの作者を記載してください。

サポートされているグラフ形式については、こちらに説明があります。

以下に示すファイルは、unzip しなくても Gephi で開くことができます。

目次

Web とインターネット

[GEXF] EuroSiS Web マップ調査: 欧州 12 か国の「社会における科学 (Science in Society)」活動主体の Web 上での相互関係をマップしたもの。オリジナルのレポートとデータはここにあります[訳注:リンク切れ]。

[GML] インターネット: University of Oregon Route Views Project に掲載された BGP テーブルから作成した、自律システムレベルでのインターネットの構造の対称的スナップショット。このスナップショットは、2006 年 7 月 22 日のデータから Mark Newman が作成したもので、以前は公開されていませんでした。

ソーシャルネットワーク

[GML] Les Miserables: Victor Hugo の小説『レ・ミゼラブル(ああ無情)』の登場人物を重み付けして表示したもの。D. E. Knuth, The Stanford GraphBase: A Platform for Combinatorial Computing, Addison-Wesley, Reading, MA (1993).

[GML] Zachary の空手クラブ: 1970 年代のある米国大学における空手クラブの 34 人のメンバーの交友関係を示すソーシャルネットワーク。W. W. Zachary, An information flow model for conflict and fission in small groups, Journal of Anthropological Research 33, 452-473 (1977).

[GML] ネットワークサイエンスにおける共著関係: ネットワークの理論と実験に関する科学者たちの共著関係。M. Newman が 2006 年 5 月に作成。このネットワークの最大コンポーネントを描いた図がここにあります。M. E. J. Newman, Phys. Rev. E 74, 036104 (2006).

[GEXF] CPAN 作者: CPAN Explorer は、いわゆる CPAN コミュニティを形成する Perl 言語の開発者とパッケージの関係の分析を目的とした可視化プロジェクトです。このスナップショットは、Linkfluence が 2009 年 6 月に作成しました。ファイルには開発者のネットワークが収められており、同じ Perl モジュールを使っている開発者の間が結ばれています。オリジナルデータはここにあります。

[GEXF] CPAN パッケージ分布: CPAN Explorer は、CPAN Explorer は、いわゆる CPAN コミュニティを形成する Perl 言語の開発者とパッケージの関係の分析を目的とした可視化プロジェクトです。このスナップショットは、Linkfluence が 2009 年 6 月に作成しました。このファイルには、Perl モジュールの依存関係が収められています。オリジナルデータはここにあります。

[NET] ジャズミュージシャンのネットワーク: ジャズミュージシャンのネットワークのエッジのリスト。P.Gleiser and L. Danon , Adv. Complex Syst.6, 565 (2003).

[TGZ] Github オープンソース開発者: http://lumberjaph.net/blog/index.php/2010/03/25/github-explorer/ を参照してください。

[DL] オンラインソーシャルネットワーク 1899 ノード - Opsahl, T., Panzarasa, P., 2009。重み付けされたネットワークのクラスタリング。Social Networks 31 (2), 155-163

[GEXF] Twitter 上のエジプト革命 ハッシュタグ #jan25 の付いたリツイートのグラフ。André Panisson が作成。オリジナルの投稿はここにあります。

生物学的ネットワーク

[GEXF] Diseasome: 既知の障害遺伝子との関連によって結び付けられた障害/疾患遺伝子のネットワークで、多くの疾病の遺伝的原因が示されています。類似する障害に関連する遺伝子では、生成物質間の物理的相互作用発生の可能性が高いと当時に、転写の発現プロファイリングの類似性も高いことが示されています。オリジナルデータセットはここにあります。The Human Disease Network, Goh K-I, Cusick ME, Valle D, Childs B, Vidal M, Barabási A-L (2007), Proc Natl Acad Sci USA 104:8685-8690

[GEXF] C. Elegans の神経網: C. Elegans (線虫の一種) の神経網を表した、重み付けされた有向ネットワーク。D. Watts と S. Strogatz によって作成されたデータは Web から入手することができ、ここにあります。引用時には次の出典を明記してください: D. J. Watts and S. H. Strogatz, Nature 393, 440-442 (1998)。オリジナルの実験データの出所: J. G. White, E. Southgate, J. N. Thompson, and S. Brenner, Phil. Trans. R. Soc. London 314, 1-340 (1986).

[GEXF] イースト: イースト菌のタンパク質間相互作用。オリジナルデータはここにあります。

[訳注:原文に欠落部分があるようです]オリジナルデータはここにあります。

インフラ網

[GML] 電力網: 重み付けのない無向ネットワークで、米国西部諸州電力網のトポロジーを表しています。D. Watts と S. Strogatz によって作成されたデータは Web から入手することができ、ここにあります。引用時には次の出典を明記してください: D. J. Watts and S. H. Strogatz, Nature 393, 440-442 (1998)。

[GRAPHML] Airlines: 出所不明。

[NET] US Air97: North American Transportation Atlas Data (NORTAD)。オリジナルデータはここにあります。


その他のネットワーク

[GEXF] Java コード: Java プログラムのソースコード構造。S.Heymann & J.Palmier, 2008 による。

[GEXF] 動的 Java コード: SVN 上でのコミットの進行による Java プログラムの動的ソースコード構造。S.Heymann & J.Bilcke, 2008 による。

[GML] 単語の隣接関係: Charles Dickens の小説『デイヴィッド・コパフィールド』で使われている形容詞と名詞の結び付きのネットワーク。引用時には次の出典を明記してください: M. E. J. Newman, Phys. Rev. E 74, 036104 (2006).

[NET] Wordnet English dictionnary: 出所不明。

[DOT] 抽象メッシュ: 331 ノード。

ソース

上に掲載したデータセットの一部は、次のところから持ってきたものです。

その他のネットワークデータリポジトリ

ツールボックス