优好科技

3. 用户检索数据析我们选取检索量最大的一个用户“11579135

简介: 3. 用户检索数据析我们选取检索量最大的一个用户“11579135515147154”,分析一下他一天的检索情况。

网络数据是沙地,数据分析的作用就是在一堆冗杂无序的沙地中找出产品有用的“金子”。

信息技术的发展,使得计算机每时每刻记录着人们的数据,人们在计算机面前,早已经是“透明人”。

万物皆在运动,对于数据来说,也是一直在变化的。

我们对数据进行分析,就是希望可以从不断变化的数据中发现规律、发现趋势,提炼有价值的内容。

好的数据是一座未被发掘的金矿,而好的数据分析报告,可以帮助经营管理者明确战略,不断优化和调整策略,也可以帮助产品经理更好地掌握产品运行情况,不断有针对性的升级优化产品,提升客户体验,增强用户粘性,确保产品用户和效益持续增长。

例如基金公司的数据分析,更多的是来对所投资股票的价值分析。

电商公司的数据分析,会很关注漏斗的转化率。

结合本文的实际案例分析,我们数据分析的目的,主要有以下几点:验证我们的判断。

例如:我们根据经验,判断一般晚上探索某个领域的知识会比较多,我们来验证自己的判断是否正确。

例如:某个关键词检索很频繁,说明极有可能成为热点,提早进行针对于热点的准备,从而获得流量优势。

03 数据准备既然是实践,就需要对真实的数据进行分析。

使用的搜狗实验室所的精简版数据,此数据包包含一天的检索数据,数据压缩包小为63MB,解压后数据包大小为144MB。

其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID。

数据样例如下:00:00:00 2982199073774412 [360安全卫士] 8 3 download.it.com.cn/softweb/software/firewall/antivirus/20067/17938.html在此主要是给大家形象地展示一下数据格式,更为详细的数据大家可以去搜狗实验室获得。

04 分析过程1. 不同时段的检索情况我们以小时为单位,共分24小时,来查看全天时段的用户检索情况。

由于源数据时间格式是“时:分:秒”格式,而我们是准备以每一小时为时段进行分析。

根据操作,生成相应数据,并根据数据生成分析折线图如下图所示:如果对于生成折线图有时需要不断微调,而每次生成数据运算时间较长,其实可以将生成的数据先保存起来,之后调整折线图元素的时候,直接使用结果数据就可以,不需要再重新计算数据,这样可以节约很多时间。

经过我们将数据图示化后,原本密密麻麻的数据显得更为清晰,我们可以方便直观地看出,用户在凌晨4点左右检索频次是最少的,而在下午16点左右检索频次最多,也侧面反应出了网民的上网习惯。

如果我们是广告商家,我们可以针对这种情况,对不同时段的广告进行有针对性的定价。

而我们如果是需要进行广告投放,也知道哪个时段投放,广告的曝光率相对最高。

2. 不同用户的检索情况接下来,我们再分析一下不同用户的检索情况,看一看哪些用户检索量比较大。

这个分析需要用到Python DataFrame中的count操作,即:groupby(用户ID).count。

之后我们将新生成的数据再构建一个DataFrame,取排名前50的用户数据,做降序操作。

部分源代码如下图所示:上图中Console中显示的数据就是当天检索量排名前50的用户。

有兴趣的同学,可以到搜狗实验室上一下这个数据,查看一下检索量431的那位客户当天究竟检索了什么内容。

经过数据分析,我们决定取排名前20的用户,用柱状图显示出他们的检索情况。

排名前20的用户检索情况如下图所示:由于数据比较多,时间关系,我们接下来选取其中一个用户分析一下其检索数据。

3. 用户检索数据析我们选取检索量最大的一个用户“11579135515147154”,分析一下他一天的检索情况。

看来这个用户晚上21点的时候,检索的比较频繁。

如下所示:由于数据据有限,我们也不知道这个用户的年龄、职业、性别。

也客观的说明,每一个看似正常的人,都有不为人知的一面。

大家如果想深入分析,可以在搜狗实验室这个数据,结合本文的分析量排名前20的用户ID,直接在数据中检索一下这20名用户的搜索情况。

4. 不同关键词的检索情况接下来我们以全天的视角,分析一下当天不同关键词的检索情况。

基本分析思路是提取出当天所有关键词的数量,然后通过词频云图进行直观展示。

如下图所示:为了词频云图的展示,我们需要引入“import collections”和“import wordcloud”这两个库。

由于大部分检索词还是挺“奇怪”的,所以就大家不要看的那么清晰了,知道大体分析思路就可以。

根据词频,生成词频云图,如下图所示:05 分析总结有时候对方的数据或多或少导入的时候,会有一些问题,例如:和我们的处理格式有些差异,编码问题。

这就需要我们在数据分析前,先要整理数据,把数据导入时的异常处理掉,同时把可能存在的一些影响分析的垃圾数据解决掉。

所以在数据分析前,确保数据的真实、可靠、有效,是非常有必要而且非常重要的一个步骤。

对于数据分析而言,不同领域、不同场景、不同目标,数据分析的方式方法有所不同,这就需要我们对症下药。

互联网企业、电商网站,更多的是分析用户留存,转化率,访问轨迹。

而金融行业的企业,像基金公司,更多的是做时序分析,趋势分析。

本文的分析,更多的是通过数据提取,可视化,发现一些潜在的情况。

而通过我们本次对用户检索数据的分析,给人最直观的一种感觉就是网络平台就像是一个浓缩的社会,虽然大家在网上检索,谁也不认识谁,但在某种程度上却有一些联系。

而在这个平台上,有好人,也有坏人,侧面也在反应的人们在日常生活中的千姿百态。

也正是因为网络检索的匿名性,反而个人行为没有伪装,也体现了更为真实的个人。

从这个角度上讲,网络数据分析结果的效果,往往比线下数据分析要好。

虽然现在注重隐私保护,但如果出于公共安全的目的,其实可以进行相关数据的分析与预警,提早发现可能发生的违法犯罪情况。

例如:如果一个人频繁的检索如何等恶性词汇,从一定程度上也客观反应了其心理状态,再结合其行动轨迹、购物记录,结合评分卡,综合判断此人发生违法犯罪的概率,提早进行预防,减少对公共安全损害的发生风险。

科技是一把双刃剑,要想真正发挥科技的价值,需要我们更为合理科学的掌握和使用科技,从而使科技真正为人们服务。

企业或是个人价值观的好与坏,也就决定了对数据分析结果价值的好与坏。

不论怎样,如果每个企业、每个人都能将“不”作为其行为准则的底线,这个世界便会美好许多。


以上是文章"

3. 用户检索数据析我们选取检索量最大的一个用户“11579135

"的内容,欢迎阅读优好科技的其它文章