奋进运动网

Question

中国有多少个徐卉？

谭冶荣最佳答案

我有个校友叫这个名字，我是通过QQ头像认出她的然后加了她 QQ聊天的时候偶然提到自己是做数据分析的，就问她能不能提供一些资料让我分析数据，她当时很爽快的答应了！我很高兴，于是就约好了时间，准备开始动手。第二天我就开始爬取她所有的QQ空间状态（那时候还没有删除），共计2863条记录。再把这些记录导出，用Python写个简单的脚本，把其中出现次数最多的前1000个字段整理到Excel表格里。然后，我又爬取了她的微博，因为名字相同，所以很容易找到，并且相互间的状态也有一定数量的重合。因此又获得大约500条记录。同样地，把这些字段输出到一个新的Excel文件。

以上工作都在Python环境中完成，所有数据都可以直接导出到本地硬盘。接下来的工作就是在数据库里做一些简单清洗和排序的工作，然后构建一个分类模型，把数据集分成训练数据和测试数据两个部分。

最后，我用的是聚类算法中的K-means方法对训练数据进行分组（划分）；又用同样的方法，针对测试数据进行了分组（划分）。得到两组结果后，再使用数学方法计算两者之间的相似程度，并据此为基准绘制出散点图。经过反复调整模型中各个参数，使结果更符合实际场景的情况下，最终得到的结果是：将姓名看做一个整体概念时，不同姓的人之间平均相似度为75.3%，而同姓的人之间平均相似度为99.4%。而当把姓名拆解成单个汉字后，不同姓的人之间平均相似度上升至90.2%，而同一姓的人之间平均相似度下降至99.2%。

发布于 2024/5/31 5:55:57