参照官方文档学习:
1 数据集加载
Cora是一个机器学习论文数据集。其中共有7个类别(num_classes:基于案例、遗传算法、 神经网络、概率方法、强化学习 、规则学习、理论。整个数据集中共有2708篇论文,在词干堵塞和去除词尾后,只剩下1433个独特的单词(num_node_features),文档频率小于10的所有单词都被删除。
from torch_geometric.datasets import Planetoid
dataset = Planetoid(root='/tmp/Cora', name='Cora')
"""
Data(x=[2708, 1433], edge_index=[2, 10556], y=[2708],
train_mask=[2708], val_mask=[2708], test_mask=[2708])
"""
print(dataset)
问题:cora无法下载:
修改文件 “C:\Users\Chloe\Anaconda3\envs\pytorch\Lib\site-packages\torch_geometric\datasets\planetoid.py” (我的文件位置)
把planetoid.py里面第48行的 url = 'https://github.com/kimiyoung/planetoid/raw/master/data'
改成 url='https://gitee.com/jiajiewu/planetoid/raw/master/data'
方案来源及其它解决方案
2 双层GCN网络构建
GCN直观理解
GCN作者的文档
import torch
import torch.nn.functional as F
from torch_geometric.nn import GCNConv
'''
两层的GCN
'''
class GCN(torch.nn.Module):
def __init__(self):
super().__init__()
#GCNConv的两个参数为input channel size和Output channel size
#conv1将每个顶点的1433个特征压缩到16个特征值
#conv2根据之前得到的16个特征值将其再压缩为7
self.conv1 = GCNConv(dataset.num_node_features, 16)
self.conv2 = GCNConv(16, dataset.num_classes)
def forward(self, data):
x, edge_index = data.x, data.edge_index
x = self.conv1(x, edge_index)
x = F.relu(x)
#dropout用于降低过拟合情况
x = F.dropout(x, training=self.training)
x = self.conv2(x, edge_index)
#dim=0对一列所有元素的进行softmax运算
#dim=1对一行所有元素的进行softmax运算
return F.log_softmax(x, dim=1)
3 训练节点
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = GCN().to(device)
data = dataset[0].to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=0.01, weight_decay=5e-4)
model.train()
for epoch in range(200):
optimizer.zero_grad()
out = model(data)
#在训练集上计算loss,out为图在gcn网络中的计算结果,data.y即7类的概率大小
loss = F.nll_loss(out[data.train_mask], data.y[data.train_mask])
loss.backward()
optimizer.step()
4 计算准确率
model.eval()
#选取7种类别中概率最大的类别为预测的节点类别
pred = model(data).argmax(dim=1)
correct = (pred[data.test_mask] == data.y[data.test_mask]).sum()
acc = int(correct) / int(data.test_mask.sum())
print(f'Accuracy: {acc:.4f}')
输出结果:
部分代码注释来源