个性化推荐兴趣扩展_基于兴趣网页的个性化词典的研究与设计

　　摘要：在基于用户浏览历史的个性化服务中，网页特征提取和兴趣建模通常是基于传统全局词典进行的，但是传统全局词典容易向网页特征里引入较多的噪声数据。因此有必要采用个性化词典替换传统全局词典。针对目前个性化词典的建立无法自动获取用户兴趣网页以及缺乏网页预处理的缺点，介绍了一种基于兴趣网页的个性化词典UPDBIWP，其特点是引入基于浏览行为量化分析的兴趣网页自动捕获技术和基于超链接的网页正文提取技术，使个性化词典的建立更加智能化和自动化。通过实验验证UPDBIWP对用户的兴趣点和兴趣偏好的描述更准确。
　　关键词：兴趣网页；超链接；个性化词典；网页特征提取；兴趣建模
　　中图分类号：TP393 文献标识码：A 文章编号：1009-3044(2012)29-6992-04
　　随着Internet的迅速发展，网络上的信息也不断膨胀，出现了所谓的信息爆炸。在这种情形下，用户往往无法轻松快速地找到所需的信息，因此专家和学者提出了Web检索的个性化服务思想。
　　提供Web检索的个性化服务，首先需要掌握每个用户特有的兴趣，即对用户的兴趣进行建模，形成针对某特定用户的兴趣描述文件。这样的描述文件在信息检索及推荐系统中，用于表征用户兴趣，是向用户提供个性化检索服务的依据。
　　在形成用户兴趣描述文件的过程中，大多数技术都是对用户浏览的兴趣网页内容进行挖掘，这不可避免的就需要提取网页内容的特征，形成特征向量，如文献[2-4]、文献[9-10]均认为可以基于传统全局词典(词量通常在10万以上)提取网页内容的特征，这样会使提取网页特征的时间开销较大，并且由于传统词典里面大量的词其实对于用户兴趣建模没有直接作用，如果这些词进入了网页特征向量里反而会形成噪声，影响网页内容的挖掘效果。文献[1]针对这一情况提出了建立用户的个性化词典，从词典中排除与用户兴趣无关的词，避免在提取网页特征时形成噪声数据。建立个性化词典主要依赖于用户的浏览历史，但是文献[1]并没有阐述如何搜集用户的兴趣网页，以及如何对用户的浏览历史进行预处理，因此本文针对搜集用户兴趣网页以及预处理过程，提出相应的解决方案，改进建立个性化词典的过程，改善个性化词典的准确率。
　　1 基于兴趣网页的个性化词典
　　1.1 个性化词典定义
　　个性化词典UPD（User Personalization Dictionary）由关键词词典（KeyDict）和扩展词词典（ExDict）两级构成，KeyDict={kt1,kt2,kt3...ktn}，ExDict={et1,et2,et3...etn}，n>0，ktn=(keytermn , weightn)，etn=(extermn , weightn) ，keytermn与extermn分别为关键词和扩展词，而对应的weightn则是它们在所有历史兴趣网页中的权值。关键词通常表示用户浏览兴趣，词的权值越大，表示在用户兴趣中的重要性越大。而扩展词用于描述用户在兴趣点上的兴趣偏好。
　　1.3 网页预处理
　　从互联网上捕获的兴趣网页，由于包含大量的HTML标记，超链接等噪音数据，对个性化词典的建立造成严重影响，因此需要在网页里尽可能去除这些噪音数据，保留网页正文，提高个性化词典的准确性。
　　由于HTML标记相对比较容易识别，而超链接由于有些是广告，有些又是相关信息，有些还是正文的组成部分，因此超链接的识别相对比较困难。本文提出并采用一种基于超链接的网页正文提取技术，其核心思想源于通过对成规模网页集的观察，发现网页里广告信息的超链接通常是大量连续地出现在网页文档中。
　　因此，本文采用的网页预处理的基本规则如下：
　　1）保留网页标题（HTML:TITLE），因为网页标题往往是对该页面主题内容的概括性描述。
　　2）以“”（本文开发的系统中首先过滤掉“”“”,取消对“　　3）通过“”标识识别并除去网页中所有的HTML标记（包括对不完整标签的异常处理），网页文档将转换为如下形式：
　　2 实验与分析
　　本文使用的实验数据来自于搜狗网提供的搜狐新闻网页，覆盖财经(bu)，娱乐(en)，健康(he)，旅游(tr)，房产(ho)共5个类，每个类300张网页，共1500张网页，然后从这5个类中分别抽取一定数量的网页作为用户的兴趣网页，组成测试集。本文使用的测试集共4个，测试集包含的兴趣点别和网页数量如表1所示：
　　3 结束语
　　本文在传统个性化词典的基础上引入用户兴趣网页自动提取BHO插件和基于超链接的网页正文提取算法，使得个性化词典的建立更加自动化，智能化，准确性也进一步提高。通过实验表明了基于兴趣网页的个性化词典比传统的个性化词典在实用性和精确性上都有较强的优势。在下一步的研究中，需要进一步研究更合适的权值计算公式用于生成个性化词典，以及如何动态的更新个性化词典，使得个性化词典能够随着用户兴趣的变迁而不断调整。
　　参考文献：
　　[1] 罗颖,朱征宇,李力沛,周智.Web检索模型上个性化词典的研究与实现[J].计算机应用研究,2009,10.
　　[2] 崔立新,张春华,赵春喜.Web个性化推入技术与展望[J].电脑知识与技术,2010,6(11):2608-2609.
　　[3] 袁柳,张龙波.个性化搜索中的用户特征模型研究[J].计算机工程与应用,2011,47(15):19-23
　　[4] 王文.个性化推荐算法研究[J].电脑知识与技术,2010,6(16):4561-4564.
　　[5] 韩立毛,鞠时光,羊晶璟.个性化搜索引擎中网页特征描述的研究[J].计算机工程与应用,2011,47(11):94-97.
　　[6] Zhu Zhengyu, Tian Yunyan, Yuan Kunfeng, et al.An improved Web documents claustering methord[J].Journal of Computational Information Systems, 2007, 3(3):1087-1094.
　　[7] 徐静秋,朱征宇,谭明红,等.基于二级向量描述的搜索引擎个性化服务模型[J].计算机科学,2007,34(11):89-93.
　　[8] 朱征宇,周智,罗颖,等.基于浏览行为量化分析的兴趣网页提取[J].重庆工学院学报,2009,23(7):79-84.
　　[9] 陈晓金,王兵.Ontology的构建及在个性化检索中的研究[J].兰州交通大学学报,2008,27(3):126-129.
　　[10] 宋毅,徐志明.个性化搜索中的用户兴趣模型研究[J].计算机技术与发展,2011,21(11):153-155.

推荐访问:词典个性化兴趣网页