原文:
www.kdnuggets.com/2019/11/customer-segmentation-using-k-means-clustering.html
评论
客户细分是将市场细分为具有相似特征的离散客户群体。客户细分可以成为识别未满足客户需求的有力手段。利用上述数据,公司可以通过开发独特的吸引人产品和服务来超越竞争对手。
企业最常见的客户群体细分方式包括:
-
人口统计信息,如性别、年龄、家庭和婚姻状况、收入、教育和职业。
-
地理信息,这取决于公司的范围。对于本地化企业,这些信息可能涉及特定的城镇或县。对于较大的公司,这可能意味着客户所在的城市、州或甚至国家。
-
心理图谱数据,如社会阶层、生活方式和个性特征。
-
行为数据,如消费和消费习惯、产品/服务使用情况以及期望的收益。
1. 谷歌网络安全证书 - 加速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升您的数据分析能力
3. 谷歌 IT 支持专业证书 - 支持您的组织的 IT
-
确定合适的产品定价。
-
制定定制化的营销活动。
-
设计一个最佳分销策略。
-
选择用于部署的具体产品特性。
-
优先考虑新产品开发工作。
-
指定簇的数量 K。
-
通过首先打乱数据集,然后随机选择 K 个数据点作为质心进行初始化。
-
不断迭代,直到质心没有变化,即数据点分配到簇的情况不再变化。
K 均值聚类,其中 K=3
您拥有一家超市购物中心,通过会员卡,您获得了一些基本的客户数据,如客户 ID、年龄、性别、年收入和消费评分。您希望了解客户,比如哪些是目标客户,以便可以传达给营销团队并相应地规划策略。
该项目是 购物中心客户细分数据 竞赛的一部分,该竞赛在 Kaggle 上举行。
数据集可以从 kaggle 网站下载,网址在这里。
-
scikit-learn
-
seaborn
-
numpy
-
pandas
-
matplotlib
不再多言,让我们开始编码。完整项目可以在 github 上找到,网址在这里。
我开始加载所有库和依赖项。数据集中的列包括客户 id、性别、年龄、收入和消费评分。
我删除了 id 列,因为它似乎与上下文无关。还绘制了客户的年龄频率。
接下来,我制作了一个箱线图,以更好地可视化消费评分和年收入的分布范围。消费评分的范围明显大于年收入的范围。
我制作了一个条形图,以检查数据集中男性和女性人口的分布情况。女性人口明显超过男性。
接下来,我制作了一个条形图,以检查每个年龄组中客户的分布情况。显然,26-35 岁年龄组的客户数量超过了其他任何年龄组。
我继续制作了一个条形图,以可视化根据消费评分的客户数量。大多数客户的消费评分在 41-60 之间。
我还制作了一个条形图,以可视化根据年收入的客户数量。大多数客户的年收入在 60000 到 90000 之间。
接下来,我将簇内平方和(WCSS)与簇的数量(K 值)进行绘图,以找出最佳簇数量。WCSS 衡量观察值与其簇质心的距离总和,其公式如下。
其中Yi是观察值Xi的质心。主要目标是最大化簇的数量,在极限情况下,每个数据点都成为自己的簇质心。
计算不同 k 值的簇内平方误差(WSS),并选择 WSS 首次开始减少的 k 值。在 WSS 与 k 的图中,这表现为一个肘部。
最优的 K 值通过肘部法则找到为 5。
最后,我制作了一个 3D 图,以可视化客户的消费评分和年收入。数据点被分成 5 个类别,并用不同颜色表示,如 3D 图所示。
K 均值聚类是最受欢迎的聚类算法之一,通常是从事聚类任务的实践者首先使用的工具,用以了解数据集的结构。K 均值的目标是将数据点分组为独特的、互不重叠的子组。K 均值聚类的一个主要应用是客户细分,以更好地理解客户,从而增加公司的收入。
客户细分的聚类算法背景 在今天竞争激烈的世界中,了解客户行为并根据...
[您所需的 K 均值聚类最全面指南
概述 K 均值聚类是数据科学中的一个简单而强大的算法。在现实世界中有大量的应用...](https://www.analyticsvidhya.com/blog/2019/08/comprehensive-guide-k-means-clustering/?source=post_page-----d33964f238c3----------------------)
[机器学习方法:K 均值聚类算法
2015 年 7 月 21 日 作者:EduPristine k 均值聚类(又称为细分)是最常见的机器学习...](https://www.edupristine.com/blog/beyond-k-means?source=post_page-----d33964f238c3----------------------)
对应的源代码可以在这里找到。
[abhinavsagar/Kaggle-Solutions
Kaggle 竞赛的示例笔记本。显微镜图像的自动分割是医学...](https://github.com/abhinavsagar/Kaggle-Solutions?source=post_page-----d33964f238c3----------------------)
如果你想跟踪我最新的文章和项目,关注我的 Medium。以下是我的一些联系方式:
祝阅读愉快、学习愉快、编码愉快。
个人简介:Abhinav Sagar 是 VIT Vellore 的高年级本科生。他对数据科学、机器学习及其在实际问题中的应用感兴趣。
原文。经授权转载。
相关:
-
R 用户的客户细分
-
如何使用 Flask 轻松部署机器学习模型
-
如何在 Python 中构建自己的逻辑回归模型