Welcome Einit.com! 'S bLog
 
Welcome Einit.com!
 
Welcome Einit.com!
Welcome Einit.com!
Welcome Einit.com!
Welcome Einit.com!
 
 
挺好玩的东西——搜狗网页搜索自动分类器 
[ 2008-4-3 20:21:00 | By: 网路游侠 ]
 
首先介绍下搜狗的这个产品,下面的文字来源于搜狗:

搜狗网页搜索自动分类器利用机器学习原理对网页进行分类。分类器的工作步骤如下:
(1)利用搜狐分类目录的分类样本集进行训练,获得每个分类在特征空间上的聚类中心。
(2)接收用户输入的URL,后台抓取并分析相应的页面,输出页面内有索引价值的文本。
(3)采用用户选择的分类器对上一步生成的文本进行自动分类,并输出结果。
分类器被应用在搜狗网页搜索的分类提示功能中。分类提示功能不是简单的关键字叠加。当用户执行了一次搜索以后,分类器自动判断出每条结果所属的分类,然后按分类下结果多少给出提示,帮助用户有效缩小结果集,更精准地找到所需的信息。

这个页面的地址是:http://www.sogou.com/labs/fenlei/

打开,输入你的网址,这里用我的西安人才招聘网做演示用,地址是:http://www.zhonglou.cn

输入网址,提交。



我们看到搜狗的蜘蛛自动获取到了网站的部分代码,点击下一步。



看到了不?分类结果最可能的是“招聘”,但是还有生活、艺术,为什么呢?

1、西安人才招聘网 http://www.zhonglou.cn 是人才招聘类的网站,求职招聘信息最多,因此是招聘。

2、网站上有面馆招聘、送票处招聘,因此认为是生活类网站,也无可厚非。

3、页面有招聘装裱、美工、制图员的,因此也是有这个的成分。

当然有人可能说还有别的好多呢,这个要按照搜狐的搜索引擎分类了,如果搜狗的分类没有就不会显示。或者包含到其它的分类里面作为一个小类了。

看看,挺好玩的东西。其实仔细看看各个搜索引擎的产品,有时候发现有些不错的东西,都可以试试!

作者: 网路游侠,转载请注明!谢谢合作。
来自: 游侠的博客 http://www.youxia.org
 
 
 
Re:挺好玩的东西——搜狗网页搜索自动分类器
[ 2008-4-4 17:49:47 | By: 火车时刻表(游客) ]
 
我的www.cha138.com 分析出来的结果竟然是旅游,呵呵
 
 
 
Re:挺好玩的东西——搜狗网页搜索自动分类器
[ 2008-4-4 13:47:11 | By: 梦妮可可(游客) ]
 
澳门综合信息门户网站:
http://www.macauwindow.cn
http://www.mc268.com
蓝盾调查网站:
http://www.007ld.com
 
个人主页 | 引用 | 返回 | 删除 | 回复
 
 
Re:挺好玩的东西——搜狗网页搜索自动分类器
[ 2008-4-3 20:34:05 | By: zhangking ]
 
真的挺好玩……
 
 

发表评论:

    大名:
    密码: (游客无须输入密码)
    主页:
    标题:
    Welcome Einit.com!
 
 
 
Powered by Oblog.