【发布时间】:2009-01-26 22:02:06
【问题描述】:
我想知道高流量网站如何处理流量记录,例如像 myspace.com 这样的网站会收到很多点击,我可以想象记录所有这些请求会占用大量空间,所以,他们会记录每一个请求吗?请求或他们如何处理?
【问题讨论】:
标签: iis scalability
我想知道高流量网站如何处理流量记录,例如像 myspace.com 这样的网站会收到很多点击,我可以想象记录所有这些请求会占用大量空间,所以,他们会记录每一个请求吗?请求或他们如何处理?
【问题讨论】:
标签: iis scalability
如果您在 MySpace 页面上查看源代码,您会得到答案:
<script type="text/javascript">
var pageTracker = _gat._getTracker("UA-6293770-1");
pageTracker._setDomainName(".myspace.com");
pageTracker._setSampleRate("1"); //sets sampling rate to 1 percent
pageTracker._trackPageview();
</script>
该脚本意味着他们正在使用 Google Analytics。
他们不能只使用 IIS 日志来衡量流量,因为他们可能会向第三方出售广告,而第三方不会相信您所获得的流量。他们想要来自独立公司的独立数据,而这正是 Google Analytics 的用武之地。
仅供将来参考 - 每当您对网站的运作方式有疑问时,请尝试查看源代码。你会惊讶于你能在平淡的视野中找到什么。
【讨论】:
我们在没有数百人使用的 Intranet 时遇到了类似的问题。磁盘活动很大,性能受到影响。
简短的回答是异步非阻塞日志记录。
【讨论】:
可能像谷歌分析。
使用 Javascript 在不同的服务器上加载页面等。
【讨论】:
不要他们如何跟踪它,因为我不在那里工作。我很确定他们有足够的存储空间来记录他们用户的每一件小事,如果他们愿意的话。
如果我是他们,如果我只是想了解有关我的用户的基本信息,我会使用 AwStats。
他们更有可能开发了自己的脚本来跟踪用户。他们会记录的东西
-ip_address
-推荐人
-时间
-浏览器
-操作系统
等等。然后是一个脚本,用于查看有关用户的不同数据,这些数据按天、周或月变化。正如 brulak 所说,类似于分析的东西,但由于他们可以访问实际数据库,因此他们可以了解更多关于他们的用户的信息。
【讨论】:
ZXTM 流量整形和日志记录,这里是经验之谈
【讨论】:
如果他们没有记录每个请求,我会感到非常惊讶,是的,而且流量特别高的操作通常会以某种形式针对原始服务器日志滚动他们自己的日志管理解决方案 - 有时作为简单的批处理类型的过程,有时作为完整的子系统。
我曾供职的一家公司,在互联网的鼎盛时期,每天的网页浏览量超过 2000 万次;对于那个站点(实际上是一组,我记得总共在几十台机器上运行),我们的运维团队用 C 语言编写了一个非常复杂的集群解决方案,它可以解析、翻译(到关系存储)、压缩和分发每天记录。日志文件,尤其是冗长的文件,堆积得很快,而当时可用的商业解决方案根本无法解决。
【讨论】:
如果通过日志记录您的意思是收集与服务器相关的信息(请求和响应时间、每个请求的 db 和 cpu 使用率等),我认为他们只对 10% 或 1% 的流量进行采样。这会产生相同的结果(为开发人员提供审计信息),而无需填充磁盘或降低网站速度。
【讨论】: