中国有多少个徐卉?

谭冶荣谭冶荣最佳答案最佳答案

我有个校友叫这个名字,我是通过QQ头像认出她的 然后加了她 QQ聊天的时候偶然提到自己是做数据分析的,就问她能不能提供一些资料让我分析数据,她当时很爽快的答应了! 我很高兴,于是就约好了时间,准备开始动手。 第二天我就开始爬取她所有的QQ空间状态(那时候还没有删除),共计2863条记录。 再把这些记录导出,用Python写个简单的脚本,把其中出现次数最多的前1000个字段整理到Excel表格里。 然后,我又爬取了她的微博,因为名字相同,所以很容易找到,并且相互间的状态也有一定数量的重合。因此又获得大约500条记录。同样地,把这些字段输出到一个新的Excel文件。

以上工作都在Python环境中完成,所有数据都可以直接导出到本地硬盘。 接下来的工作就是在数据库里做一些简单清洗和排序的工作,然后构建一个分类模型,把数据集分成训练数据和测试数据两个部分。

最后,我用的是聚类算法中的K-means方法对训练数据进行分组(划分);又用同样的方法,针对测试数据进行了分组(划分)。得到两组结果后,再使用数学方法计算两者之间的相似程度,并据此为基准绘制出散点图。 经过反复调整模型中各个参数,使结果更符合实际场景的情况下,最终得到的结果是:将姓名看做一个整体概念时,不同姓的人之间平均相似度为75.3%,而同姓的人之间平均相似度为99.4%。而当把姓名拆解成单个汉字后,不同姓的人之间平均相似度上升至90.2%,而同一姓的人之间平均相似度下降至99.2%。

我来回答
请发表正能量的言论,文明评论!