在 Spark 上实现 Graph Embedding

科技颠覆者 · 2025-1-7 01:33:44

在 Spark 上实现 Graph Embedding 主要涉及利用大规模图数据来训练模型，以学习节点的低维表现（嵌入）。这些嵌入能够捕获和反映图中的节点间关系，如交际网络的朋友关系大概物品之间的相似性。在 Spark 上进行这一使命，可以利用 Spark 的图计算库 GraphX 大概利用外部库如 GraphFrames。
下面，我将先容如何在 Spark 情况中实现根本的 Graph Embedding，我们将利用 GraphFrames，由于它提供了对 DataFrame 的支持，更为易用。
情况预备

安装 Spark：确保你的情况中已经安装了 Spark。
安装 GraphFrames：GraphFrames 是在 Spark DataFrames 上操作图的库。安装方法通常是将 GraphFrames 的依赖项添加到你的 Spark 作业中。

Graph Embedding 实现步调

Step 1: 创建 Spark Session

起首，你需要创建一个 Spark 会话，这是利用 Spark 的入口。

from pyspark.sql import SparkSession
# 创建 Spark 会话
spark = SparkSession.builder \
.appName("Graph Embedding Example") \
.getOrCreate()

复制代码

Step 2: 构建图

利用 GraphFrames 构建图，你需要两个主要的 DataFrame：顶点 DataFrame 和边 DataFrame。

from graphframes import *
# 创建顶点 DataFrame
vertices = spark.createDataFrame([
("1", "Alice"),
("2", "Bob"),
("3", "Charlie"),
], ["id", "name"])
# 创建边 DataFrame
edges = spark.createDataFrame([
("1", "2", "friend"),
("2", "3", "follow"),
("3", "1", "follow"),
], ["src", "dst", "relationship"])
# 创建图
graph = GraphFrame(vertices, edges)

复制代码

Step 3: 利用 GraphFrames 进行图计算

我们将利用随机游走算法作为天生节点嵌入的基础。此处简化处置惩罚，考虑基于 PageRank 的方法来初始化我们的 Graph Embedding。

# 计算 PageRank
results = graph.pageRank(resetProbability=0.15, tol=0.01)
results.vertices.select("id", "pagerank").show()

复制代码

Step 4: 进一步的嵌入处置惩罚

        实际的 Graph Embedding 通常需要更复杂的处置惩罚，如 DeepWalk, Node2Vec 等。这些算法涉及随机游走以及后续利用 Word2Vec 算法来天生嵌入。这些步调在 Spark 上实现需要额外的处置惩罚，可能涉及到自定义 PySpark 代码大概利用额外的库。
        在实际世界的应用中，单靠 PageRank 并不敷以捕获复杂的节点相互关系。更高级的方法如 Node2Vec，可以更有用地学习节点的低维表现。这里，我们将简化 Node2Vec 的实现思想，利用 PySpark 自定义实现随机游走和利用 Spark MLlib 的 Word2Vec 来天生嵌入。
随机游走算法

        随机游走是 Graph Embedding 中一个告急的步调，用于天生节点序列。这里我们简单实现随机选择下一个节点的逻辑。

from pyspark.sql.functions import explode, col
def random_walk(graph, num_walks, walk_length):
walks = []
for _ in range(num_walks):
# 随机选择初始节点
vertices = graph.vertices.rdd.map(lambda vertex: vertex.id).collect()
for vertex in vertices:
walk = [vertex]
for _ in range(walk_length - 1):
current_vertex = walk[-1]
# 获取与当前节点相连的节点
neighbors = graph.edges.filter(col("src") == current_vertex).select("dst").rdd.flatMap(lambda x: x).collect()
if neighbors:
# 随机选择下一个节点
next_vertex = random.choice(neighbors)
walk.append(next_vertex)
walks.append(walk)
return walks
# 使用自定义的随机游走函数
walks = random_walk(graph, num_walks=10, walk_length=10)

复制代码

利用 Word2Vec 天生嵌入

接下来，我们将利用 Spark MLlib 中的 Word2Vec 来从随机游走天生的序列中学习嵌入。

from pyspark.ml.feature import Word2Vec
# 将随机游走的结果转化为 DataFrame
walks_df = spark.createDataFrame(walks, ["walk"])
# 设置 Word2Vec 模型
word2Vec = Word2Vec(vectorSize=100, inputCol="walk", outputCol="result", minCount=0)
model = word2Vec.fit(walks_df)
# 获取节点的嵌入
node_embeddings = model.getVectors()
node_embeddings.show()

复制代码

Step 5: 评估和利用嵌入

天生的节点嵌入可以用于多种下游使命，得到节点嵌入后，可以将其用于各种图分析使命，比如节点分类、图聚类等、链接猜测等。评估嵌入通常需要具体使命相关的指标。评估嵌入的效果通常依赖于这些使命的性能。
节点分类示例

假如有节点的标签数据，可以利用这些嵌入来训练一个分类器，并评估其性能。

from pyspark.ml.classification import LogisticRegression
from pyspark.ml.evaluation import MulticlassClassificationEvaluator
# 假设有一个包含节点标签的 DataFrame
labels = spark.createDataFrame([
("1", "Class1"),
("2", "Class2"),
("3", "Class3"),
], ["id", "label"])
# 将标签与嵌入进行合并
data = labels.join(node_embeddings, labels.id == node_embeddings.word, how='inner')
# 准备数据集
data = data.select("result", "label")
(trainingData, testData) = data.randomSplit([0.8, 0.2])
# 训练逻辑回归模型
lr = LogisticRegression(maxIter=10, regParam=0.3, elasticNetParam=0.8, featuresCol="result", labelCol="label")
lrModel = lr.fit(trainingData)
# 评估模型
predictions = lrModel.transform(testData)
evaluator = MulticlassClassificationEvaluator(labelCol="label", predictionCol="prediction", metricName="accuracy")
accuracy = evaluator.evaluate(predictions)
print("Test Error = %g" % (1.0 - accuracy))

复制代码

这个简单的流程展示了如何利用 Spark 和 GraphFrames 进行更高级的 Graph Embedding，并利用嵌入来执行图分析使命。实际应用中，你可能需要进一步调解模型的参数，大概对特定使命做优化。
Step 6: 部署到生产情况

将模型部署到生产情况通常涉及将模型生存并在生产情况中加载它，利用如下：

# 保存模型
model_path = "/path/to/save/model"
graph_embedding_model.save(model_path)
# 在生产环境中加载模型
loaded_model = GraphEmbeddingModel.load(model_path)

复制代码

总结

这个示例提供了在 Spark 上进行根本图嵌入的框架，但请留意，真正的 Graph Embedding 如 DeepWalk 或 Node2Vec 需要更复杂的实现。假如你的需求超出了 PageRank 等简单算法的范围，可能需要查阅更多资源或利用专门的图分析工具来实现。这个示例提供了一个简单的树模引导，以便理解图嵌入的根本概念，并在 Spark 情况中实现它们。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

在 Spark 上实现 Graph Embedding

0 个回复

快速回复

楼主热帖

标签云