发展部件技术分享 http://blog.sciencenet.cn/u/求新 研究方向:数据库、MIS,教育部教指委计算机分委会专家工作组成员

博文

首届”软件杯“第一题”聚焦搜索“呼吁发展部件技术

已有 4103 次阅读 2012-7-4 12:15 |个人分类:生活点滴|系统分类:观点评述|关键词:学者| 部件技术, 软件杯, 软件自适应技术, 数据维护

    二部一省举办的2012首届“软件杯”大赛预赛评分正在进行中。该赛事所选题均为企业急需解决的实用性问题,其中第一题“聚焦搜索引擎”赛题部分内容如下:
    **************************题目摘要*****************************
    随着各种B2C、C2C、B2B的网站的成长和各种测评网站的建设。足不出户的网络购物已然成为大家生活中的一部分。但是随之而来想要从各种网站中找到最好、最划算的商品也非常困难。所以提供一个高质量的在线商品搜索平台无疑会为网络购物带来更好的未来。虽然用户可以通过Google、百度、Yahoo等通用搜索引擎,在海量的网络数据中取得一些信息。但是通用性搜索引擎也存在着一定的局限性:   
定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
    聚焦爬虫的搜索和下载会只针对特定的信息和网站。需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。并会针对抓去的页面按照所需的信息进行分析、过滤,提取出有用的信息并建立相关索引。在后续的分析过程中得出的信息,将为后续的抓取过程给出反馈和指导。
    针对目前各大网络购物平台的数据,提供一个聚焦于出售商品的网络爬虫无疑会为网络用户的购物行为带来更友好的搜索和对比。最终让用户能用最快的时间找到最合适的商品。
    功能性需求
     1. 对网络上的各种商品建立统一数据模型
能够针对目前各种购物平台和测评网站给出的复杂信息,建立一套适用于各种不同类型商品的数据模型。如,笔记本电脑存在属性:品牌、CPU主频、内存、硬盘、电源、屏幕尺寸、操作系统、显卡、电池类型、重量等;服装存在属性:品牌、款式、尺码、颜色、面料、风格、季节等。对比笔记本和服装可以看出,不同类型的商品的属性数量和含义都各不相同,且存在较大的差异。
    考核标准:  
    • 建立统一的数据模型存储数据(必须完成):统一的数据模型是通过多张表能够描述各种类型商品的基本属性,而不需要针对每种商品建立不同的存储表。
    • 模型的可扩展性(可选):可以方便的在模型中添加商品属性,而不需要大量重构表结构。
    • 模型的存取性能(可选):在保证前两点的基础之上,提升该数据模型存取数据的速度。
    • 对网页和数据的分析过滤
    能够在指定的网页入口(如:http://www.taobao.comhttp://mobile.pconline.com.cn )中通过爬虫按照1中建立的模型分析商品的有效信息(基本属性),并保存相应数据信息。如:淘宝网针对某个商品的描述,除了基本属性外还包括了一些详细描述、商家信息、成交记录、付款方式等。我们需要剔除除了商品信息以外的部分,做到准确分析。
    通过用户输入搜索关键字,可以展示用户所搜索的商品的相关信息。
提供商品的横向、纵向关联信息展示(可选),如:搜索HP EliteBook 6930P笔记本电脑,可以将相似属性(与该商品相同的价格区间、品牌、配置等信息)进行扩展展示。要求展示方式新颖、直观。
******************************题目摘要完毕*********************************
    在该试题中,聚焦爬虫是基本程序,搜索网页中结构化数据并存入统一结构的数据库是必须解决的一个问题,其中,搜索网页中结构化数据也不难解决,成为瓶颈的最难问题是面对不同商品,属性个数、名称、类型、宽度皆不相同,根据用户需求,怎样针对任意一种商品生成强关联性的录入、维护、查询界面。实际上就是要求程序具有极强适应性,特别是需要以单记录表单形式构成的界面。只是表格式的界面相对容易设计,但是,如果一个商品有3、4拾个属性甚至更多,只采用表格式界面的数据维护程序将极不好用,甚至是可笑的。
    应用通用软部件技术可以快捷地轻而易举地完成该项任务,且具有程序数量少、规范标准易操作易学习易维护易扩展等优良特性。例如仅使用“单记录界面单表数据维护部件”、 “表格式界面单表数据维护部件”、“组合查询部件”、“文本查询部件”四个程序就能满足全系统所有数据表的数据录入、数据维护、数据查询的需求。
    随着计算机应用的深入,具有高度自适应性的程序设计意义越来越重要与明显。它已经不仅是提高软件设计正确率、提高软件设计效率、提高软件设计质量、实现程序的规范标准易操作易学习易维护易扩展等意义了。在某种程度上,已经成为下一代因特网、下一代WEB程序设计的基本要求,成为云计算中大数据量整合与分布式数据应用的关键问题,也是将拥有极大数据量的物联网系统设计必须解决的问题,对于计算机科学与技术的发展具有举足轻重的作用。
    但是,该项技术由于得不到国家科技部门的关注与支持,发展甚慢,制约了计算机科学与技术的发展。目前据我们所知,该项技术只有深圳太极等极个别公司掌握。虽然我们已公开发布“部件库最小系统”8年了,对基于JAVA的软部件技术研究的成果鉴定也有7年余了,在学术界却还没有成功研制的报道。我们要再次呼吁国家科技部门重视并支持该技术的研究与发展,快速发展软部件技术!

 


https://m.sciencenet.cn/blog-2551-588816.html

上一篇:2012蓝桥杯全国软件人才软件设计与创业大赛省级预赛获奖情况
下一篇:“中国软件杯”怎样保证学生们的知识产权受到尊重?

0

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-2 10:52

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部