用户分析是网站分析中一个重要的组成部分,在分析用户之前我们必须首先能够识别每个用户,分辨哪些是New Customer,哪些是RepeatCustomer。这样不但能够更加清晰地了解到底有多少用户访问了你的网站,分辨他们是谁(用户ID、邮箱、性别年龄等);同时也能够帮助你更好地跟踪你的用户,发现它们的行为特征、兴趣爱好及个性化的设置等,以便于更好地把握用户需求,提升用户体验。通常当你的网站提供了注册服务,而用户注册并登陆过你的网站,那么用户可以更容易地被识别,因为网站一般都会保存注册用户的详细信息;但是你的网站并不需要注册,而用户的行为以浏览为主,这是用户识别就会显得较为困难,下面提供了几种常用的用户识别的方法:识别用户的几种方法
1、基于IP的用户识别
IP地址是最容易获取的信息,任何的WEB日志中均会包含,但其局限性也较为明显:伪IP、代理、动态IP、局域网共享同一公网IP出口……这些情况都会影响基于IP来识别用户的准确性,所以IP识别用户的准确性比较低,目前一般不会直接采用IP来识别用户。
获取难度:★
准确度:★
2、基于IP+Agent的用户识别
同样基于最简单形式的WEB日志,我们可以增加一项——Agent,来提高单一IP方式识别用户的准确性。Agent也是WEB日志中一般都会包含的信息,通过IP+Agent的方式可以适当提高IP代理、公用IP这类情况下用户的分辨度,同时通过Agent还可以识别网络爬虫等特殊用户,但同样准确度也欠高。
获取难度:★
准确度:★★
3、基于cookie的用户识别
当你通过自定义Apache日志格式或者JavaScript的方法获得用户cookie的时候,其实你已经找到了一个更有效的用户识别的手段。cookie在未被清除的其前提下可以认为是跟某个访问客户端电脑绑定的(一个客户端有可能包含多个cookie),所以用cookie来标识用户其实指的是用户使用的客户端电脑,而并非用户本身。用cookie识别用户的方法当然也存在缺陷:最常见的就是cookie被清除而导致用户无法与原先记录实现对应;同时由于客户端电脑会被共用,或者用户会在不同的电脑上访问你的网站,这个时候cookie就无法直接对应到该用户了。
获取难度:★☆
准确度:★★☆
4、基于用户ID的用户识别
基于用户ID的用户识别是最为准确,因为一般情况下用户不同共享他的用户ID,所以我们可以认为数据中的userid唯一地指向该用户,几乎不存在偏差。当然要使用用户ID来识别用户是需要一定的前提条件的:网站必须是提供用户注册登录服务的,并且可以通过一些手段在点击流数据中记录userid。
获取难度:★★
准确度:★★★
所以对于一个需要用户ID注册登录的网站来说,用户唯一标识符的选择可以遵从以下顺序:当用户注册登录时以userid为准,当用户在未登录状态浏览时以用户的cookie为准,当用户未登录且cookie无法获取的情况下以IP+Agent为准;这样就能从最大程度上识别唯一用户。