`
provista
  • 浏览: 120469 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论
文章列表
1. Tika是什么 Tika是Lucene的一个子项目。 Tika是一个集合,用于处理各种格式化的文档,如doc(x), xls(x), ppt(x), jpg, pdf, etc. 它本身的core可以自动判别文件类型(AutoDetectParser类),也定义了统一的接口(the parse interface),外部接挂了各种 ...
数据库的操作越来越成为整个应用的性能瓶颈,这点对于Web应用尤其明显。关于数据库的性能,这并不只是DBA才需要担心的事,而这更是我们程序员需要去关注的事情。当我们去设计数据库表结构,对操作数据库时(尤其是查表时的SQL语句),我们都需要注意数据操作的性能。这里,我们不会讲过多的SQL语句的优化,而只是针对MySQL这一Web应用最多的数据库。希望下面的这些优化技巧对你有用。 1. 为查询缓存优化你的查询 大多数的MySQL服务器都开启了查询缓存。这是提高性最有效的方法之一,而且这是被MySQL的数据库引擎处理的。当有很多相同的查询被执行了多次的时候,这些查询结果会被放到一个缓存中,这样,后续 ...
PART I MySql常用命令总结 MYSQL常用操作基本操作,以下都是MySQL5.0下测试通过首先说明下,记住在每个命令结束时加上;(分号) 1.导出整个数据库 mysqldump -u 用户名 -p --default-character-set=latin1 数据库名 > 导出的文件名(数据库默认编码是latin1) mysqldump -u wcnc -p smgp_apps_wcnc > wcnc.sql 2.导出一个表 mysqldump -u 用户名 -p 数据库名 表名> 导出的文件名 mysqldump -u wcnc -p smgp_apps_wcnc ...
Google Wave到底是什么? 官方简介翻译: Google Wave是一个实时交互的交流及协作在线工具,你可以用富文本格式、图片、视频、地图和更多的元素进行交流。每个Wave就是一段与多个参与者进行的对话。参与者指的是那些加入每个Wave讨论和参与内容协作的人,参与者在加入的Wave中,可以在任何时间、地点回复,他们还能编辑内容,并且添加更多的参与者进来。Wave还提供了回放功能,可以看到在加入的Wave中,什么时间做了什么改动。 另外大家还可以通过阿禅的文章《Google Wave试用体验与Google的野心》,系统了解下Google Wave的全貌,本文以实用操作为主,所以不做插图 ...
给定一个32位无符号数 求出从高位开始第一个不是0的字符位置 比如,0xFF的前导数就是0,0x01的前导数就是31 要求最简单的算法 对四位二进制数,最高位为1的有8~F,最高位为0次高位为1的有4~7,至高的第三位为1的是2~3,只有最后一位为1的只有1一个数 由此,对一个字节,8位二进制数,推知前导数映射: (数,前导数)={(0x01~0x01->7),(0x02~0x03->6),(0x04~0x07->5),(0x08~0x0F->4),(0x10~0x1F->3),(0x20~0x3F->2),(0x40~0x7F->1),(0x80~ ...
短语的结构其实就是汉语句子结构的基本形态。因为,广义上,笔者认为一个普通的句子,就可以看成主谓结构的短语,比如百家争鸣,百花齐放。   短语主要分为下述几种:   ①并列短语,由两个或两个以上的名词、动词、形容词并列组成的短语。如老师和同学、调查研究、培养和提高、万紫千红、理直气壮、丰功伟绩、是非黑白等。   ②偏正短语,词和词按修饰关系构成的短语,由定语或状语加中心词组成。如我的老师、一个顾客、伟大的人民、世外桃源;小心观察、更加坚决、突然发现、非常壮观、相当迅速。   ③动宾短语,词和词按照支配关系构成的短语,由动词和宾语组成。如吃晚饭、盖房子、歌唱祖国、顾全大局、关心集体、饱经风霜 ...
swap:交换两个数的值: swap(int a, int b){ int temp = a; a = b; b = temp; } 不用临时变量的版本: swap(int a, int b){ a = a + b; b= a - b; a = a - b; }
    一个文本表现为由标点和文字组成的字符串,由字成词,由词生短语,由短语组成句子,进而是段落,节,篇章。要使计算机能够高效的处理真实文本,必须找到一个可行的并且理想的表示方案。这种表示一方面需要真实反映文档内容,另一方面要对不同文档有区分能力。     向量空间模型(Vector Space Model)是一种自然语言处理中常用的模型,它是G.Salton等人在二十世纪60年代提出的,最早用在SMART信息检索系统中。VSM涉及如下基本概念:     文档(document):通常是文档中具有一定规模的片段,从句子到篇章,都可看做一个文档。     项、特征项(term, feature t ...
什么是hadoop Hadoop 由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene 的子项目 Nutch 的一部分正式引入。它受到最先由 Google Lab 开发的 MapReduce 和 Google File System 的启发。2006 年 3 月份,MapReduce 和 Nutch Distributed File System (NDFS) 分别 ...
C/C++ 为了照顾老一辈无产阶级革命家,他们的条件极其艰苦,键盘上缺了很多键, 无法输入下面九个字符:     # \ ^ [ ] { } | ~ 因此推出了 trigraph, 简单的讲就是把上面的每个字符用其他三个字符来代替, 替换的规则如下: #: ??= \: ??/ ^: ??' [: ??( ]: ??) {: ??< }: ??> |: ??! ~: ??- 比如说,下面这个 C++ 程序: #include <iostream> int main() { std::cout << "[]&quo ...
数据挖掘领域十大经典算法 下面是参与评比的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。在我们学习数据挖掘时,可以以这18种算法为主线,如果能把每一种算法都弄懂,整个数据挖掘领域就掌握得差不多了。另外,也可以用这18种算法的熟悉程度来判断自己知识的掌握程度。 Classification ============== #1. C4.5 Quinlan, J. R. 1993. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers Inc. Google Scho ...
做presentation,除了内容的准备以外,我们还要注意对话题表达的把握,就如同下文中常用的一些串词,这些可以让我们做presentation时更加自然也更显得专业~同时提升陈述时的信心,留给自己下一步思考的时间,缓解自身压力,创造轻松的互动环境。 1. Right, let's get started.    好,让我们开始吧 2. Let me introduce myself.    作个自我介绍 3. I've divided my presentation into three main parts.    我的陈述主要分为三部分 4. Just to give you a br ...
Young Tableau问题的描述是这样的,一个由N个小方块组成的阵列(不一定要是矩形,可以是一个任意"光滑"且"单调"的组合),从1到N这N个数填入方块中,要求全部填满并且一个数只能填一个方格一次.并且满足,每个数的上方的数和左方的数比它大.求最后一共有多少种填法.比如一个4*4格子的正方形,1~16这16个数按照上述规则填入,那么一共多少种填法. 笔者根据理解,还是用程序实现了一下算了.不遍历输出所有种类的填法,只算数目而已.语言就用java,比较没挑战性,就练习一下.思想主要就一个递归:16肯定是占据左上角的格子,然后15就可以有两个选择了,对每 ...
s = u'ft&#65292;&#25105;' print re.sub(ur'(?s)&#(\d+);', lambda x:unichr(int(x.group(1))), s) 执行结果: 引用ft,我 实际上,python的sub函数第二参数,即replacement,可以为一个函数.函数的输入就是成功匹配的match object, 输出,亦即返回值,就是用于替换的replacement.这样可根据具体每次不同的成功匹配对象字串,进行不同的替换. 除了上例,又如,定义替换函数: def replacem(o): if o.group(0)=='-': ...
# -*- coding:gb2312 -*- if __name__=='__main__': print "-------------code 1----------------" a = "和谐b你b可爱女人" print a print a.find("你") #index=5,对于一般字符串,按照了 #指定的编码方式(这 ...
Global site tag (gtag.js) - Google Analytics