【pyspark】Word2vec的算法尝试

原创于 2022-10-31 10:29:45 发布 · 430 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#word2vec #算法 #python

算法笔记专栏收录该内容

2 篇文章

订阅专栏

博客介绍了word2vec用于推荐对象相似度计算的方法。先对用户操作清单清洗打分，将item分组测试。导入pyspark包读取文件，进行数据预处理后用word2vec训练，得到item词向量用于预测。最后验证效果，指出算法方案要关注整体，在真实数据上计算出效果才算做好。

背景

word2vec用于推荐对象item的相似度的计算，虽然一般是设计到embedding层，但也可以单独作为一个模块训练。

计算流程

用户操作清单清洗
一般需要筛选出最偏好的X个item，需要针对时间衰减，用户操作次数，不同的操作入口等给出不同打分。
如果要更细致评分，可类似用营销效果模型的夏普利值归因分析，评估每个操作对收入或者活跃的贡献。这个就比较复杂了。
最终的数据形态，是比较简单的不定长数组，每一行都是一个用户的操作itemlist：
为了能够测试效果，item拆分为1-10和11-20两组，每个用户只操作其中一组，则预期最终item的相似度，同一组的相似度很高，不同组很低才符合预期。
pyspark包的导入和初始化

import pyspark 
from pyspark.sql import SparkSession
from pyspark.storagelevel import StorageLevel 
from pyspark.ml.feature import Tokenizer,HashingTF
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.evaluation import MulticlassClassificationEvaluator,BinaryClassificationEvaluator
from pyspark.ml import Pipeline,PipelineModel
from pyspark.ml.linalg import Vector
from pyspark.sql import Row

#SparkSQL的许多功能封装在SparkSession的方法接口中

spark = SparkSession.builder \
        .appName("dbscan") \
        .config("master","local[4]") \
        .enableHiveSupport() \
        .getOrCreate()

sc = spark.sparkContext

读取CSV文件
使用标准的spark方法读取本地文件，同时指定了列名。
如果是在平台上测试，则读取hive库表：

#读取csv文件
dftmp = spark.read.option("header","False") \
 .option("inferSchema","true") \
 .option("delimiter", " ") \
 .csv("XXXXXXXXXX/testw2v5.csv")
df=dftmp.withColumnRenamed("_c0", "trainlist")
df.show(5)
df.printSchema()

数据预处理
把数据拆分成数组存储到新的字段里：

from pyspark.sql.functions import split, explode, concat, concat_ws
df_split = df.withColumn("split_trainlist", split(df['trainlist'], ","))
df_split.show()

使用word2vec训练
整体训练代码如下，指定列的数量，mincount就不指定了，并得到模型：
所有的item无论编号多少，统一当成字符串处理，训练时统一编码，因为一般itemid都不是从0开始编号，把编号当编码反而会增加onehot编码空间，增加计算量（如果很长时间算不出结果，就要关注这点了）：

word2Vec = Word2Vec(vectorSize=3, minCount=0, inputCol="split_trainlist", outputCol="result")
model = word2Vec.fit(df_split)

结果预测
本质上训练，还是要得到每个item的词向量，并用于计算相似度：
这里采用偷懒的方法遍历了测试数据的所有item，再进行预测：

df_test = spark.createDataFrame([
    ("1".split(" "), ),
    ("2".split(" "), ),
    ("3".split(" "), ),
    ("4".split(" "), ),
    ("5".split(" "), ),
    ("6".split(" "), ),
    ("7".split(" "), ),
    ("8".split(" "), ),
    ("9".split(" "), ),
    ("10".split(" "), ),
    ("11".split(" "), ),
    ("12".split(" "), ),
    ("13".split(" "), ),
    ("14".split(" "), ),
    ("15".split(" "), ),
    ("16".split(" "), ),
    ("17".split(" "), ),
    ("18".split(" "), ),
    ("19".split(" "), ),
    ("20".split(" "), )
], ["split_trainlist"])
df_vector = model.transform(df_test)

效果验证
- item两两笛卡尔积：

#计算相似度
#笛卡尔积
df_vector_join=df_vector.withColumn("birthyear",df_vector["split_trainlist"])
rdd_vector=df_vector.rdd.map(lambda p: p)
rdd_vector_join=rdd_vector.cartesian(rdd_vector)

- 相似度函数定义

import math

def cos_cal(v_x,v_y,v_cnt):
    """计算余弦相似度"""
    
    dotxy=0
    len2_x=0
    len2_y=0
    
    for i in range(v_cnt):
        dotxy=dotxy+v_x[i]*v_y[i]
        len2_x=len2_x+v_x[i]*v_x[i]
        len2_y=len2_y+v_y[i]*v_y[i]

    return dotxy*1.0/(math.sqrt(len2_x)*math.sqrt(len2_y))

- 相似度计算

rdd_vector_res=rdd_vector_join.map(lambda x:(x[0][0][0],x[1][0][0],x[0][1],x[1][1],float(cos_cal(x[0][1],x[1][1],3))))
from pyspark.sql import functions as F 
df_vector_res=rdd_vector_res.toDF(["key1","key2","vec1","vec2","simcos"])
df_vector_res.where("key1>10 and key2<=10").show(5)

- 计算不同组和相同组的相似度
  最终结果符合预期，不同组之间相似度不一样：

df_vector_res.where("key1<=10 and key2<=10").agg({"simcos":"avg"}).show()
df_vector_res.where("key1>10 and key2<=10").agg({"simcos":"avg"}).show()
df_vector_res.where("key1<=10 and key2>10").agg({"simcos":"avg"}).show()
df_vector_res.where("key1>10 and key2>10").agg({"simcos":"avg"}).show()

后记

可以看到整体代码量很少，真正word2vec训练的就2行代码，封装的相当好了。大部分工作量还是在方案的设计，预处理，结果分析。
要评估一个算法方案工作量，需要关注整体宏观分析，而不只是看到代码的一点点。
所以一个算法工具的建设，如果只是在测试数据上跑通过流程，基本相当于耍流氓，不能算是算法做好了。只有在真实数据上计算并产生效果，才算是做好了。