数据挖掘助“纺织姑娘”沙里淘金


打开文本图片集

近年来,上海纺织行业正经历全方位的变革,产业模式由传统密集型向高科技、高附加值发展,行业业态也开始遵从市场导向,并逐步向工贸结合转变。因此,如何利用科技手段创新成为提高上海纺织业国际竞争力的关键。数据挖掘作为目前人工智能和数据库领域研究的热门技术,正帮助“纺织姑娘”们从海量数据中揭示隐含、未知且具有潜在价值的信息,从而更有效地在网络上“穿针引线”,助力纺织工业腾飞。

上海是中国纺织业的摇篮,但随着劳动力和经营成本的上涨,上海纺织业在国内面临严峻挑战。而在国际市场上,限于资本、品牌实力和市场控制力,上海纺织业也不占优势。“十二五”期间,上海将推进国民经济和社会信息化作为产业结构优化升级和实现工业化、现代化的关键环节,并正式确定将纺织行业列为运用信息技术提高传统产业自动化、智能化、网络化水平的试点行业。因此,加快纺织业信息化建设成为当务之急。在诸多信息化手段中,利用数据挖掘技术无疑是借鉴国际行业经验,提高纺织业发展水平的途径之一。

信息开放,引领个性化研究

在以技术、市场为主导的纺织业改革浪潮中,信息作为交流的媒介,其重要性不言而喻。通过计算机网络可以快速、广泛、准确地了解纺织业信息和动态,掌握国内外最新理论、材料和技术。随着信息技术的普及和互联网用户的增加,现已逐步形成了信息资源共享和数字化的体系架构,信息传递也朝着开放、互动、便捷、高速的方向发展。

网络环境下的纺织信息资源主要分为专业网站、网络化的光盘数据库、数字图书馆馆外资源等。其中,纺织专业网站数量庞大,已几乎涵盖所有纺织领域。目前国内外较有影响力的纺织网站有中国纺织网、中华纺织网、中国纺织商业网、全球纺织网、欧洲纺织协会、美国棉花协会、中日韩科技合作网等。

网络计算机光盘数据库为信息检索带来极大便利,使不同层次的用户可以迅速获取所需的专业信息。当下,WTA(World Textile Abstract)光盘数据库、TTD(Textile Technology Digest)光盘数据库、中国纺织文摘光盘数据库、中国化学化工文献数据库、东华大学纺织专题信息库等数据库较为知名,已达到信息整理、分析、研究的个性化和专业化水准。

网络环境下的纺织信息资源迅猛增长,满足了信息层次化需求。虽然网络能大量集成外部和内部的信息资源,达到信息柔性组织的目的,但在目前的网络环境下,信息工作也面临一些如检索、资源挖掘与开发、信息收费、知识产权等问题,如何更科学地挖掘数据成为关键。

网络采掘,潜在数据无所遁形

由于传统搜索引擎在网络信息采集、索引技术和处理能力等方面的缺陷,目前只能解决信息资源的定位问题,不能提供精准的个性化信息服务。网络挖掘技术恰是对这一缺陷的补充。数据挖掘沿用了Robot、全文检索等网络信息检索技术,同时综合运用人工智能、模式识别、神经网络领域等研究成果,能根据目标特征在网络上或者信息库中进行有目的的信息搜索,满足个性化的信息需求。

由于数据挖掘技术能自动从网络文档以及服务中发现和抽取信息,因此研发初始时挖掘技术主要针对大型数据库进行数据提取。随着信息资源的逐步扩大,数据挖掘工具的处理对象从数据库转向文本、图象、网络信息资源等非结构化的数据信息,隐蔽资源逐步成为挖掘对象。网络信息挖掘技术可以分为网络内容挖掘、网络日志挖掘和网络结构挖掘三种方式(见图1)。

图1 网络挖掘分类体系

网络内容挖掘是指对网络页面内容及后台交换数据库进行挖掘,从中抽取有用信息。其中包括对网络文本和多媒体文档(包括图像、声音、图片等媒体类型)的挖掘,目的在于对页面信息进行聚合、分类和关联分析。

网络结构挖掘是对网络页面超链接关系、文档内部结构、URL中的目录路径结构的挖掘。由于网络页面间的勾连关系,网络能够提供除文档内容之外的其他有用信息。利用这些信息,可对页面进行排序、分析并发现遗漏资源。

网络日志挖掘是对用户访问网络服务器时留下的访问记录进行信息挖掘,从中得出用户浏览行为模式等有价值的信息。

网络个性化信息提取是目前网络信息查询和研究的主要目标之一。上海纺织集团企业信息平台(见图2)综合采用网络挖掘技术。该信息平台根据集团内部专业技术人员及管理人员的特定需求,利用网络挖掘技术,有针对性地对“行业信息”、“竞争企业”、“纺织科技”、“关注产品”、“转口贸易”、“能源”、“政策”等相关信息进行自动抽取、分类、汇总、分析、过滤及推送,在较大程度上实现了将合适信息以合适方式提供给合适用户。

建设过程中,平台运用了多种网络挖掘方式,如运用网络日志挖掘技术对相关纺织技术人员的网络日志以及其访问内容进行分析,挖掘出用户行为与个性之间的关联,并以此自动获取用户个性特征。同时,获取用户兴趣及其变化趋势,从中归纳出用户集中关注的一些主题如抗菌纺织品、防护面料、汽车地毯等。在充分了解特定用户特性需求的基础上,利用网络内容挖掘、结构挖掘技术对分散的网络字眼、数据库、数字文献、目录与馆藏、文献传递、参考咨询、数据分析等进行采掘,从中获取基本信息元素,包括概念、概念间语义关系、知识元、知识元间的关联关系等,以此建立面向特定专业领域的信息体系。如对汽车地毯这一主题,信息平台运用网络挖掘技术,可集中自动推送汽车地毯的生产设备信息、产品生产竞争对手、行业投资风险分析及市场信息,便于专业人员浏览参考,减少了用户在信息使用过程中因信息过载而困扰,获得了一定效果。

图2 上海纺织集团企业信息平台

迫在眉睫,信息化带动纺织创新

当下,经济发展将纺织企业直接推向市场竞争的第一线,因此科技创新成为企业赖以生存的动力源泉。基层纺织企业信息化、信息来源网络化将是企业创新力的根本保证。虚拟信息服务平台作为全新的信息咨询服务模式,在纺织信息服务中将大有作为,成为跨越时空、地域、行业进行信息技术整合的支撑力量。所以,如何充分利用网络所具备的强大检索能力、打造数据挖掘专业平台是强化信息追踪能力、保持信息服务连续性的关键。

在浩繁的信息海洋中提升信息价值是平台建设的重要内容,而网络信息的广泛性提高了选题和信息提炼的难度,所以必须坚持长期有计划、有组织的收集、整理、分析和研究。上海纺织信息平台就芳砜纶纤维是否能转换为民用材料就进行过大量信息收集工作,是信息采集帮助企业发展的例证之一。作为近几年填补我国耐250°C等级合成纤维空白的芳砜纶纤维是上海纺织拥有独立知识产权的有机耐高温纤维,目前在国防军工和现代工业上有着重要的用途,是国内急需的高科技材料。但芳砜纶材料是否在民用产品领域中同样具有广阔前景成为疑问。在信息服务平台中,信息部门人员对民用防火产品市场进行了重点跟踪,发现由于现代城市娱乐场所和建筑飞速增长,房内的防火安全设置及市民防火用品需求激增,但目前市场上销售量较大的民用防火用品如防火毯主要以玻璃纤维和石棉材料为主,其尽管具有一定的阻燃性和耐高温性,但弱点是耐磨性和抗冲击性较低,而芳砜纶材料具有更高的熔点及很好的抵挡烧透性能,并具有优良的物理机械性能,耐磨性优秀。经过网站调研、用户体验挖掘等最终得出结论,芳砜纶在民用防火产品上具有很强的竞争力。至此,企业加大了该项目的投入,进一步拓展了项目的应用领域。

网络信息资源是一份宝贵财富,然而目前的通用网络搜索引擎尚不能做到一览无遗。网络信息挖掘和开发技术正努力弥补这一缺陷,从而最大限度地提取隐含、事先未知、潜在的有用信息。随着信息技术的不断发展,网络资源挖掘与开发将是平台未来工作发展的方向,纺织信息工作将更科学、全面地为产业服务。

推荐访问:沙里淘金 数据挖掘 姑娘 纺织