`
文章列表
New Apache project will Drill big data in near real time     Dremel-based project accepted as an Apache Incubator August 16, 2012, 3:02 PM — Working with big data is a lot like dealing with the Heisenberg Uncertainty Principle: either you're going to have a massive amount of data on hand or y ...
  1.验证日期的正则表达式加入闰年的判断以及思路分析 进入正题之前,我们需要澄清两个概念:一,什么是合法的日期范围?对于不同的应用场景,这个问题有不同的解释。这里采纳MSDN中的约定: DateTime 值类型表示值范 ...
jconsole分析线程堆栈,jvi跟踪线程运行情况,分析得出连接问题,并且网上找到了问题的BUG   https://issues.apache.org/jira/browse/DBCP-226   http://stackoverflow.com/questions/4853732/blocking-on-dbcp-connection-pool-open-and-close-connnection-is-database-conne   http://hi.baidu.com/lettoo/item/31a512f87893fec00cd1c86c
  由于我们很多系统采用Windows服务启动方式,这样一来,对JVM的监控工具(比如Jconsole等)就无法使用了,那好吧,自己做个JVM进程内部 即便是Windows服务启动也可以查看系统堆栈的工具 吧!     <%@ page language="java" contentType="text/html; charset=UTF-8" isErrorPage="true" pageEncoding="UTF-8"%> <%response.setStatus(HttpServle ...
1.下载   ActivePerl:地址:  http://downloads.activestate.com/ActivePerl/releases/5.12.2.1202/   Awstats下载:http://sourceforge.net/projects/awstats/files/AWStats/6.95/awstats-6.95.zip    根据安装包提示安装perl,解压awstats-6.95.zip;   2.配置tomcat    在tomcat目录webapps下新建awstats项目将awstats-6.95/wwwroot目录下classess、css、 ...
Lambda Probe 是基于 Web + AJAX 的强大的免费开源工具,拥有几乎所有Tomcat Manager的功能,可以说是一个增强版本的 Tomcat Manager。除此之外,Tomcat Probe 还拥有很多让开发者和系统管理者更方便的性能。从而使得Tomcat对开发者和管理者更加透明。包括应用程序、数据源、发布、日志、线程、集群、系统信 息、状态、连接器状态这些功能。如配合 JDK 1.5 以上甚至可以实时的画出 Server 的详细内存占用状态。   下载 ZIP 文件(LambdaProbe 1.7b, BINARIES ~7Mb), Lambda Probe 的官方地 ...
  private static final int _32MB = 32 * 1024 * 1024; public static DataIterator getExcelDataIterator(InputStream is, int sheetIndex) throws Exception { is = new BufferedInputStream(is); is.mark(_32MB); try { //文件后缀类型判断不如解析时判断Excel类型,文件后缀可以伪造,压缩后后缀名需要另解析 //使用历史版本的逻辑解析2003格式 ...
思考一个问题,以下代码是一个简单的饿汉式单例代码,显然在第一次初始化的时候会发生错误,导致单例的实例化失败,那么失败后可否继续尝试实例化呢?还是说下次使用时直接返回错误的对象或异常呢?   环境HotSpotJVM 1.6   /** * * @author
由ApacheCommon-BeanUtils1.8.3发现的Java的Bug   org.apache.commons.beanutils.BeanUtils.copyProperties(Object dest, Object orig) throws IllegalAccessException, InvocationTargetException       我实际工程中orig参数是一个实现了泛型接口的类   public class
随着信息爆炸时代的来临,互联网上充斥着着大量的近重复信息,有效地识别它们是一个很有意义的课题。例如,对于搜索引擎的爬虫系统来说,收录重复的网页是毫无意义的,只会造成存储和计算资源的浪费;同时,展示重复的信息对于用户来说也并不是最好的体验。造成网页近重复的可能原因主要包括:  镜像网站 内容复制 嵌入广告 计数改变 少量修改 一个简化的爬虫系统架构如下图所示:  事实上,传统比较两个文本相似性的方法,大多是将文本分词之后,转化为特征向量距离的度量,比如常见的欧氏距离、海明距离或者余弦角度等等。两两比较固然能很好地适应,但这种方法的一个最大的缺点就是,无法将其扩展到海量数据。例如,试 ...
传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。产生的两个签名,如果相等,说明原始内容在一定概率下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字节,所产生的签名也很可能差别极大。从这个意义上来说,要设计一个hash算法,对相似的内容产生的签名也相近,是更为艰难的任务,因为它的签名值除了提供原始内容是否相等的信息外,还能额外提供不相等的原始内容的差异程度的信息。 而Google的simhash算法产生的签名,可以用来比较原始内容的相似度时,便很想了解这种神奇的算法的原理。出人意料,这个算法并不深奥,其 ...
  闰秒导致部分Linux服务器高CPU使用率   国际地球自转和参考坐标系统服务(IERS)在2012年6月30日午夜(北京时间7月1号7点59分59秒)增加一闰秒(即出现 7:59:60)。由于Linux kernel 2.6.29之前版本存在bug,在进行闰秒调整时可能会引起系统时钟服务ntpd进程死锁。Debian Lenny、RHEL/CentOS 5等旧发行版今天仍被广泛使用,部分供应商早已经发布了补丁。 但除了Linux服务器外,一些服务器程序也因为闰秒出现了问题,如Reddit、Mozilla、FourSquare、Yelp、LinkedIn和Gawker等网站都短 ...
highcharts是基于javascript的高交互的图表封装。相关的资料: 官网:http://www.highcharts.com/   系统监控界面:效果如下:  
采用开源组件memcached-session-manager(简称msm)来实现Session分布式存储。 1. 将msm对应的jar包放到tomcat的lib目录下,采用kryo进行序列化和反序列化session中的内容,因此也需要把kryo对应的jar包也拷贝到tomcat的lib目录下。 msm的地址:http://code.google.com/p/memcached-session-manager kryo的地址:http://code.google.com/p/kryo/ 2. 配置tomcat下的/conf/context.xml ,在<Context>& ...
  m2e - http://download.eclipse.org/technology/m2e/releases/   http://download.jboss.org/jbosstools/updates/m2eclipse-wtp/
Global site tag (gtag.js) - Google Analytics