DGraphFin数据集
网站地址:dgraph-web
论文地址:2207.03579
baseline:DGraphXinye/DGraphFin_baseline: This is a repository contaning baseline code for DGraphFin Dataset
DGraph
DGraph提供了来自各个领域(如金融网络和社交网络)的动态数据集的集合。DGraph 旨在帮助社区更好地探索和理解动态图的演变,以及评估动态图建模方法。
DGraph-Fin
标签:为了更好地了解实际的财务场景,我们将节点分为 foreground nodes (前景节点) 和 background nodes (后台节点)。前景节点是标记为正常 (Class 0) 和欺诈 (Class 1) 的节点,它们也是我们预测任务的节点。另一方面,背景节点与任务无关,但在维护图形的连接性方面发挥着重要作用。
任务:DGraph-Fin 的任务是根据节点特征和图形结构信息检测欺诈用户。这是财务场景中的常见任务。我们将节点随机分成训练/验证/测试集,比例为 70:15:15。
不断发展的模式:DGraph-Fin 中的每个边缘都包含时间信息,表示用户填写该紧急联系人的时间。为了保护隐私,使用加密的时间戳来表示时间
DGraphFin 数据文件描述
文件 dgraphfin.npz 包含以下键值(keys):
x:17 维节点特征。
y:节点标签。
数据集中共有 四种类别,每个类别的节点数量如下:- 0 类:1,210,092 个节点
- 1 类:15,509 个节点
- 2 类:1,620,851 个节点
3 类:854,098 个节点
任务描述:
类 1 表示欺诈用户,类 0 表示正常用户,模型需要预测这两个类别的节点。
- 类 2 和类 3 表示背景用户。
edge_index:形状为 (4300999, 2)边索引矩阵。
- 每一行表示一条边,格式为
(id_a, id_b)
,其中id_a
和id_b
是x
中节点的索引。
- 每一行表示一条边,格式为
edge_type:边的类型,共有 11 种不同类型的边。
edge_timestamp:每条边的去敏化时间戳。
train_mask, valid_mask, test_mask:
- 类 0(正常用户)和 类 1(欺诈用户)的节点被随机划分为训练集、验证集和测试集,比例为 70% / 15% / 15%。