天下网站一大抄,SNS也不例外
2008/08/03 11:16 | by edwardproAdmin ]
难怪公司有人可以信誓旦旦地称,业务是不能复制的,但是产品可以,于是这就成为了没文化还很拽的理由.表面看起来的确如此在中国这样的抄袭环境下, 任何产品技术只要是新的就会被迅速复制,而且复制得非常像(我说是非常像,不是一样).其实往往这样就带来很多错觉,觉得我们可以毫无止境地抄袭只要有好的东西. 事实上并不完全如此,总需要自己的东西的,就像海内和校内一样,他们最终只能活下一个吧,可是这是谁造成的,是他们自己,自己要走向死亡又有谁能拯救他们,拯救他们的只有他们自己.
groovy还是有点意思的
2008/01/09 09:03 | by edwardproAdmin ]
中文分词永远的难点
2007/12/28 00:41 | by edwardproAdmin ]
今天顺便拿google实验了一下,发现它的中文分词居然也开始使用字单位的而不是词单位的分词结构,比如:
输入:
可莱斯勒 (应该是 克莱斯勒)
克莱斯勒中国-- 首页
| www.chrysler.com.cn/ - 2k - www.chrysler.com.cn/+%E5%8F%AF%E8%8E%B1%E6%96%AF%E5%8B%92&hl=zh-CN&ct=clnk&cd=1&gl=cn&st_usg=ALhdy2_iERk2G7HVE9De5hxu2L7NosBLnQ" target="_blank" class="fl">网页快照 - www.chrysler.com.cn/" class="fl">类似网页 |
克莱斯勒_报价_参数_配置_太平洋汽车网克莱斯勒品牌专区
| 太平洋汽车网汽车报价库克莱斯勒汽车品牌专区提供汽车制造厂商简介,要闻,最新动态,生产车型等。这里你可以了解到克莱斯勒汽车的价格、参数、配置、资讯、图片、评论 ... price.pcauto.com.cn/brand.jsp?bid=39 - 59k - 网页快照 - 类似网页 |
克莱斯勒-搜狐汽车
| 在履行社会责任方面,戴姆勒-克莱斯勒集团基金在2006年出资万美元支持公益事业。 克莱斯勒集团是全球第五大汽车生产商戴姆勒-克莱斯勒股份公司的一个组成部分。 ... jsp.auto.sohu.com/view/brand-bid-191.html - 67k - 网页快照 - 类似网页 |
可莱斯勒的相关焦点
[记者观察]上南合并会是下一个戴克吗? - 14小时前
年度11大失败财经预言伯南克曾低估次贷危机 - 和讯 - 6 篇相关文章 » |
克莱斯勒_戴姆勒-克莱斯勒_新浪汽车_新浪网
| 克莱斯勒,戴姆勒-克莱斯勒,汽车,汽车降价,新车,汽车报价,二手车. auto.sina.com.cn/salon/DAIMLERCHRYSLER/CHRYSLER.shtml - 223k - 网页快照 - 类似网页 |
克莱斯勒300C_北京奔驰_新浪汽车_新浪网
| 国产克莱斯勒300C沿承了进口克莱斯勒300C的设计与品质,增配后排DVD音响系统、18英寸镀铬铝圈、电加热座椅等豪华配置,成为同级豪华车中标准配置最高、品质最高的车型 ... auto.sina.com.cn/salon/bbdc05/bjbcdb/sub_brand/klsl300c.html - 80k - 网页快照 - 类似网页 |
【图】克莱斯勒汽车报价_汽车之家
| 汽车报价_汽车报价大全提供汽车报价、最新汽车、汽车价格、汽车新闻、汽车行情、汽车评测和汽车经销商等综合信息。 car.autohome.com.cn/brand/69/ - 2k - 网页快照 - 类似网页 |
从highlight来看这次搜索的分词应该是以字为单位的,至于克莱斯勒使用贝叶斯或者其他统计学算法就可以算出来,这没什么具体难度。只是感叹一下中文分词的难度,当年第一次搞的时候也采用了je分词,自己也加了词库,但是发现用户输入的内容却是千奇百怪造成了很大问题,使得搜索效率严重下降,然后同事推荐了两分原理的分词,但它的限制就是输入单子就搜不出东西,实验之后认为非常不理想,最后还是用了最简单的单字发,使用单子之后索引的效率确实有所下降,但查处的准确度已经近乎完美,但这不是一个最高效的方法。但今天看看google似乎也采用了单子分词算法看来目前来说分词还是有一定的难度,只好大家各自研究了,大部分分词都是建立在词库上的也难免有些问题,特别是对于一些特殊领域比如it 科技 农林,由于专业名词较多最后导致分词失误,中文说起来容易却不好处理,感叹一下。
对于中文分词的简单思考
2007/08/17 00:01 | by edwardproAdmin ]
受了那么大的教训怎么也应该好好总结下了,下面随便说说吧。
1 词库问题
词库在分词中会非常重要,而且量比较大,这是一个很大的效率瓶颈,我个人觉得在这里应该做到如下的:
a) 多级分词 比如 字母+单字的两级索引这样效率稍高
b) 排除重复和陷阱,重复不多解释了,陷阱,我认为就是那种包含词,包含词的坏处很可能造成正确失效
c) 过长的词组的强制拦截,长词是毫无意义的,比如中华人民共和国,我认为这不是一个好词条,应该是中华 人民 共和国 这几个才对,如果用户的词库中包含过长的就应该强制处理
2 检错要求
JE分词的两大问题:1对于特殊字符有比较大的问题,这个问题一开始还没有发现,但在大规模抓取之后就非常严重了 2 错误的分词。
我个人觉得,分词一旦有错误完全应该选择单字法,这对于查询是有意义的,其实这类似与cjk的二分法看似愚蠢,但仔细看看其实却拥有不错的效果(效果是第一位的)
3 多样的接口
主要针对分词 文件 db 等等多种方式导入这是必须的。
接下来几天内抓紧实现下看看,不过在这里要好好地鄙视下JE分词的,虽然我是偷懒了,但这个分词的能力实在。。。不多说了,好多事情要做。
从手机没带想到的
2007/08/10 09:42 | by edwardproAdmin ]
思路很简单: 通过客户端设置手机的呼叫转移,将来电转接到客户端并通过电脑可以对话,安全性方面也可以考虑双向控制,即客户端开通转移后,可以用手机关闭呼叫转移,并在24小时内不能再在手机不确认状态下获得呼叫转移功能。
三网合一状态下实现这种状态并不难,一点小小的想象吧,上班啦^^
webflow 还是不错的
2007/08/03 12:55 | by edwardproAdmin ]
被PHP大大折磨了。。。
2007/07/24 23:18 | by edwardproAdmin ]
n多的不习惯 变量命名 函数调用 内部调用 类导入。。。
虽然php提供的内置函数确实强大无比,强大到什么都不用自己写,可是那些语法折磨了好半天
数据结构大PK
2007/07/20 05:48 | by edwardproAdmin ]
早上一到公司,就开始PK数据库设计了,大致的意思很简单:
目录树化的结构还是平级的数据结构。
目录树结构
id pid 代表清晰的继承关系
平级数据结构
id name
id tag main_id
很简单用tag来代替目录树,从树变成了平面集合系统,在灵活性上后者更高,但问题是需要改变用户的习惯,这是有风险的,我们开始pk这两条道路,其实我也知道这样的争论意义不大,只是不同的路不同应用,但当从一种系统准备过度过来了,就不得不考虑优劣了。
不过pk的结果只是一种中性妥协,看来还没有结果,明天要再讨论一次的可能![]()
不过还是处于很愉快的状态下,虽然战况激烈![]()
新硬盘新问题
2007/06/26 12:39 | by edwardproAdmin ]
重装了系统,新问题来了,在配置eclipse的rails环境时出问题了,按照以前的配置,我把需要配置的
ruby-> d:\ruby186\bin\ruby
rake -> d:\ruby186\bin\rake
mongrel -> d:\ruby186\bin\mongrel_rails
以前正常的配置如今却无法正常启动服务,连ri都不行原来ri配置为: d:\ruby186\bin\ri后来改成 ri.bat到神奇的对了,但如法炮制ruby rake和mongrel却还是失败,系统就象找不到这些东西一样,但我在控制台中输入这些指令却非常正常和正确地运行了,现在用dclispe连开rails工程都不行了只能留下一个空目录,需要自己在控制台上输入rails project_name了,艾。。。
最后只能改投netbeans 6的门下,netbeans倒是十分正常,效果页很好,可是目前这样我就面临三个开发工具的尴尬:
php -》 zend
java -》 eclipse
rails -》 netbeans
艾。。。真是新硬盘带来了巨大烦恼,好在还有linux后盾,今天回家装ubuntu 7.04,期望一切正常,最害怕的就是无线网卡问题不要再发生,我已经确认了我的华硕无线网卡没有linux驱动了,到时候折腾起来会死人的。
对自己说: good luck
从阿里巴巴的职位看到
2007/06/05 11:54 | by edwardproAdmin ]
| C++开发(Linux) | |
| 高级系统工程师 | |
| 技术合作专员 | |
| 模版开发工程师 | |
| 搜索引擎应用开发工程师 | |
| 日文java开发工程师 | |
| SQA(软件质量保证工程师) | |
| WEB应用安全工程师 | |
| 系统架构师 | |
| JAVA EE 架构师 | |
| 存储系统工程师 | |
| IT系统工程师 这是51job上摘录的阿里巴巴的需求职位,其中有几个职位很让我有兴趣:模板开发工程师 web应用安全工程师。 在当今混沌的时代,着两个职位我觉得恰好做了一个细分,模板开发,以前认为模板是美工的活其实错了,在真正的mvc时代模板上会有脚本的至少ajax的前端js需要这样这样的职位完成,美工完成的是色彩和布局。 web应用安全也是一个很新的职位,主要是负责检查网站脚本漏洞并填补他,这是一个很重要也现在忽视的工作,阿里巴巴的精细化令人惊喜。 |
DW cs3不怎么样啊
2007/05/07 18:49 | by edwardproAdmin ]
莫名其妙!
2007/04/29 11:29 | by edwardproAdmin ]
还是一句话别看到pcpop的论坛好就学,看看人家的深层东西,互联网不是2000年时候白痴也能玩的东西,没想法就不要混,有素质没?就靠你个混日子的所谓高管?好吧,我也没有什么想法了,让人去说吧,自己错过了还说什么呢?简单评论下走人。
VIEW技术要成为主流了
2007/04/22 11:52 | by edwardproAdmin ]
GWT中期学习目标
2007/04/20 12:02 | by edwardproAdmin ]
Gavin King小记
2007/04/19 22:04 | by edwardproAdmin ]
其实之前就有心理准备,这样一个技术天才一定是个比较奇怪的孩子,见到本人之后发现果然如此,一个看起来30岁左右的大孩子,说话很没有分寸(期间因为一个技术问题,居然说出了i suck ROR.),喜欢做ok的可爱状的大孩子,不过讲起技术来他却非常认真时不时来几个幽默,不过这家伙语速太快,我的英文不行大概只听了50%,看来英语学习路慢慢:(




