基于视觉布局信息的网页去噪算法

基于视觉布局信息的网页去噪算法

一、基于可视布局信息的网页噪音去除算法(论文文献综述)

杨本栋[1](2021)在《基于网页信息自动提取的分布式爬虫系统设计与实现》文中研究指明数据爆发式增长,大数据时代到来,互联网每天产生难以计数且各式各样的数据。这些数据蕴含的信息具有巨大的研究价值和商业价值。学者及企业希望获取知识类、资讯类、政策法规类等文章型网页中有价值的信息,不仅要求数据量大、格式规范统一、时效性强,还希望获取信息的成本低、效率高。现实中网页结构各异且都包含大量与主题无关的网页噪声,如何从互联网蕴含的海量信息中以较高的效率、极快的速度获取有价值的结构化信息是一个值得研究的课题。本文选题来源于企业项目,研究文章型网页的信息自动提取算法,设计实现了基于网页信息自动提取算法的分布式网络爬虫系统,提高了信息获取的效率,具体如下:(1)针对现有网页信息提取算法提取精度不足、提取信息缺失和上下文信息利用较少的问题,提出了一种基于视觉块一致性和序列标注的文章型网页元数据提取算法。根据文章型网页的视觉特征对网页进行分块预处理,将网页节点划分为多个一致性视觉块;利用统计特征定位网页主体区域,过滤掉大量噪音信息;选择文本、视觉和词典特征作为特征集进行特征提取,利用条件随机场模型进行序列标注,提取标题、正文、作者、来源、发布时间、图像和附件等信息。最后对算法进行了实验和对比分析。(2)设计实现了基于网页信息提取算法的分布式爬虫系统。本文分析了企业需求并对系统进行了总体设计,将系统分为数据采集层、数据解析层、数据存储层、节点接入层和系统管理层。针对现有分布式爬虫存在的问题,引入网页信息自动提取算法代替人工编写解析脚本,提出了一种无中心的基于动态反馈的任务调度策略,提高了系统可靠性和抓取效率。接下来本文对系统各模块进行了设计与实现。最后,本文对系统进行了性能和功能测试。

王煜辉[2](2021)在《热点话题发现及基于Voronoi的词云图的应用》文中指出微博由于其内容传播速度的即时性和传播范围的广泛性积累了大量的用户,成为了热点事件的舆论爆发地与传播地。对于微博的某个突发热点事件来说,在一段时间内会产生大量的社交媒体文本数据,并且这个突发热点事件往往会蕴含若干语义相关的子话题,挖掘出微博蕴含的各个子主题信息对于舆论的正确导向具有重要的意义。但是由于短文本的语义稀疏性问题,主题挖掘或文本聚类等文本挖掘算法的效果会受到一定程度的影响。此外,社交媒体文本挖掘的结果往往通过文本可视化技术呈现,以词云图为代表的传统文本可视化模型由于展示的词项散乱排布等问题,不能很好地展示文本数据蕴含的子主题信息。本论文的主要研究内容如下:1、本论文提出了基于语料集本身的文本特征自扩展算法,算法认为文档的某个词是由主题以某个概率抽样生成,继续这个抽样过程即可将若干虚拟词填充到原始文档中完成文本特征扩展,解决了社交媒体短文本的语义稀疏性问题进而提高文本聚类算法的效果,避免了传统文本特征扩展算法依赖外部数据源的问题。2、本论文提出了命名为VoronoiTopicCloud的文本可视化模型,将Voronoi图融入到词云图中,通过Voronoi将平面切分成若干个区域,并将语义相关的词项聚合到一起,解决了以词云图为代表的文本可视化模型因为其展示的词项散乱排布,周围没有上下文信息,因而无法很好地展示话题语义信息的问题。3、本论文设计与实现了微博热点话题挖掘系统,系统通过网络爬虫爬取微博并进行话题挖掘,使用基于语料集本身的文本特征自扩展算法解决短文本语义稀疏性问题,最后通过VoronoiTopicCloud文本可视化模型呈现结果,实现了微博热点话题舆情发现与舆情追踪。论文最后总结了整个研究工作,并阐述了论文未来的研究方向。

张贺凯[3](2021)在《互联网Web科技数据自动抽取算法研究》文中研究表明

班鑫[4](2019)在《基于论坛网页的信息抽取与情感分析研究》文中研究说明互联网技术的快速发展丰富了大众的发声渠道,论坛愈加成为聚集舆论舆情的窗口,以评论为代表的主观情绪表达不断以海量且分散的形式出现在其网页之中,基于此,从信息冗余、形式多样的论坛网页中精准挖掘出有价值信息用于舆情分析具有深刻的社会意义,这也是开展此研究的重要立足点。本文以论坛网页为研究对象,对论坛信息抽取算法与情感分析算法进行了研究,主要研究内容如下:(1)针对论坛网页中普遍存在大量噪音信息导致抽取准确率低的问题,本文先采用基于HTML标签的网页分块算法完成论坛网页分块,通过计算各文本块链接密度比识别出网页正文块,并有效去除论坛网页中广告、导航栏等噪音信息。随后本文引入标准值的概念,即将所识别的论坛网页中评论信息楼层数作为标准值。最后结合论坛网页中评论信息的位置结构具有相似性以及DOM树中深层次节点的相似度更能代表整体相似度的特点,本文提出基于深度加权的DOM子树相似度算法抽取评论信息,并将抽取到的评论信息数量与标准值进行比较,以提高抽取准确率。(2)针对基于传统神经网络的情感分析无法充分学习文本的语义信息,本文提出一种基于多种注意力机制的BiGRU(Bi-directional Gated Recurrent Unit)情感分类模型:BiGRU+Multi-attention。针对预处理后的Web文本,首先根据Word2vec模型将其文本向量化,继而在BiGRU模型上进行语义特征筛选,通过引入情感词注意力机制、程度词注意力机制以及否定词注意力机制,提取深层次情感特征,突出文本中对情感极性判别起关键作用的词语,从而弥补单一注意力机制的不足,并通过调整神经网络模型参数,得到分类模型的最优性能,最后使用公开数据集验证本文提出方法的可行性与有效性。实验结果表明,基于网页分块和深度加权DOM子树的Web信息抽取算法能够很好地解决论坛网页中存在大量噪声的问题,抽取准确率得到明显提升。同时基于多种注意力机制的BiGRU情感分类模型的F值达到了94.5%,相比基于BiGRU的情感分类模型提升4.5%,有效提高了情感分类准确率。

王一洲[5](2018)在《网页数据的自动化抽取技术》文中认为随着Web技术的迅猛发展,使得Web网页成为信息发布的主要载体也是人们获取信息的主要渠道之一,大量的数据以Web网页形式存储在互联网上,因为HTML编码风格各异,使得人们无法直接从Web网页中抽取出结构化数据,造成了资源的极大浪费。为了能够获取互联网中庞大的数据,人们提出了各种网页数据抽取方法。根据抽取目标的不同,可将网页数据抽取分为两种类型:(1)网页正文内容抽取,主要针对文章类型网页中的正文内容进行抽取。(2)网页结构化数据抽取,主要针对网页中存在的实例对象进行抽取。本文针对这两种不同的抽取目标分别提出了对应的抽取方法。针对网页正文抽取,因为Web网页中除了包含正文内容外,还包含导航条、广告、版权声明等与主题无关的噪音信息。这些庞大的噪音信息给网页正文抽取带来了巨大的挑战。因此,本文提出一种基于网页聚类的正文信息抽取方法,该方法主要有两个部分组成:第一,基于网页的结构特征对网页进行聚类;第二,面向相似网页集合的正文内容块的位置特征生成。采用该方法可以从多种类型的网页中抽取正文内容信息。针对网页结构化数据抽取,目前主要采用DOM树路径来作为抽取规则。然而,基于DOM路径的抽取规则使得在网页结构发生细微变化时无法准确定位抽取。因此,本文提出一种基于合并树的包装器半自动生成方法,该方法主要由三个部分组成:第一,合并树构建与抽象树的生成;第二,合并树中的节点定位与包装器生成;第三,目标网页的合并树重建与数据抽取。采用该方法使得在网页结构发生细微变化的情况下依然能够准确抽取出结构化数据。本文针对提出的这两种方法,分别实现了相应的原型系统并进行大量的实验,实验结果表明方法的可行性和有效性。

赵天南[6](2017)在《基于视觉的网页噪音识别与清除关键技术研究》文中指出二十一世纪人类迈入了高度信息化时代,互联网的不断发展促使其成为了最为重要的信息传递途径之一,成为人们最广泛的信息来源。网页中很多与主题内容不相关的内容,通常称之为网页噪音信息。网页噪音通常围绕于主题内容的四周,占用网页正常的显示空间,使得Web页面的主题内容很不清晰。这会影响用户在进行网页浏览时候对主题内容的查找速度,也会导致浏览器加载过多的无关内容而产生时间的延迟。由此便引申出对网页噪音清除的相关研究和技术开发。网页噪音清除技术致力于将网页中原本混乱的结构、赘余的内容、错乱的排版显示以及不相关的无用信息进行结构化、清晰化、条理化,并且去除无用的信息。因此,提高识别和清除Web页面噪音清除技术,使网页主体内容更为清晰明确已经成为人们日益关注的焦点,Web页面噪音的有效识别以及去除已然成为了Web挖掘中一个亟待解决的问题。本文主要介绍了Web信息挖掘中重要的一个方面——网页噪音清除的研究价值及意义,并阐述了目前已有的网页噪音识别与清除技术上的优点和缺点。根据目前商业网页的设计以DIV+CSS为主要布局,提出了一种新的网页分割模型DIVDOM模型。通过此模型,构建出基本DIV数据块,实现对整个Web网页的逻辑划分。论文中还研究了基于此模型的网页噪音清除算法,此算法根据Web网页噪音的布局规律,总结其特点,并制定出噪音的评判标准,通过设置不同的权重值来评判不同页面数据块的重要性,识别和清除噪音数据块,保留主题数据块,实现对网页的净化。为了保证在对网页噪音信息的去除过程中用户的视觉无感性,本文还提出基于寻找相似数据块的视觉无感网页噪音过滤算法。该方法主要依赖于构建的DIVDOM模型,当DIVDOM树中噪音数据块存在相似数据块或者相似节点时,去除噪音数据块是不会导致网页变形的。论文的最后是通过对各大主流的网站上进行实验测试,验证其效果及通用性。实验证明该方法具有良好的去除网页噪音效果,并保证网页的视觉无感,同时该算法也具有比较广泛的适用性。

梁建飞,吐尔根·依布拉音,田生伟,赛依旦·阿不力米提[7](2012)在《汉维主题网页自动获取技术的研究》文中提出为了获得大量用于机器翻译研究的汉维(维吾尔)文语料,提出一种从网页中自动获取主题信息的方法。考虑到有主题网页中主题信息分布相对集中、文本密度较高,并且这类网页中大量的噪音信息是由链接引入的,提出的算法首先将链接分为噪音链接和非噪音链接,并在源码中删除噪音链接的锚文本和非噪音链接的HTML标签,然后利用容器标签将源码划分为若干部分并删除文本长度和文本密度均小于各自阈值的源码块。针对汉维网页做了实验,实验结果表明,算法在设置合适的阈值的情况下良好率达到90%以上。

毛先领,何靖,闫宏飞[8](2010)在《网页去噪:研究综述》文中进行了进一步梳理互联网的快速发展已经使得网页数据成为目前各种应用与研究的重要数据源之一.网页数据包含各种内容,如广告、导航条、相关链接、正文等,然而对于不同的研究和应用来说,并非所有内容都是必需的,相反地,不相关的内容反而会影响研究和应用的效果和效率,所以网页去噪是一个基础问题,且是目前热点研究的问题.因此很有必要对网页去噪领域进行总结,以便更好地进行深入研究.首先说明了网页去噪的必要性,并对网页去噪进行了定义和分类,概述了多种网页去噪的方法和框架,然后对评估网页去噪算法所使用的数据集和方法进行了总结,最后讨论了该领域存在的问题和今后的研究方向.

何明贵[9](2010)在《可视化搜索引擎模型与方法研究》文中认为随着Web信息在数量上呈几何级增长,同时图片、声音、视频等多媒体信息资源也逐渐成为用户喜欢的资源,并呈上升趋势。传统搜索引擎需要提高搜索的准确度,并通过新的方式来呈现巨大的搜索结果集,以便让用户能更快更好的浏览与利用这些结果。另外,搜索引擎需要用新的模式来处理多媒体资源。这些要求促使搜索引擎向多元化发展,智能化、个性化、自动分类、自动聚类等成为这一阶段的基本特征。出现了一些相关技术,如元搜索引擎、聚类搜索引擎、垂直搜索引擎等。可视化方法在用户认知过程中具有其天生的优势,能帮助用户管理、分析、控制和理解大量信息。因此,搜索引擎的可视化,是搜索引擎多元化发展中的一个重要方面。当前对可视化搜索引擎的研究处于起步阶段,相关的研究主要是可视化检索技术的研究,包括检索式的可视化、搜索结果集的可视化显示等,只是涉及可视化搜索引擎相关的零散研究,没有系统的可视化搜索引擎的模型、整体架构的研究。本文研究了可视化搜索引擎的整体模型框架,并对一些重要、关键问题的实现方法和技术进行了讨论,并通过案例分析对这些方法和技术的应用进行了验证。本文共分6个主要部分:第一章为可视化搜索引擎基础理论与技术,这些理论与技术是后面各部分内容的基础,有的技术会频繁使用。主要讨论了搜索引擎基本理论和可视化理论。搜索引擎基本理论主要讨论了基本搜索模型,包括布尔模型、向量空间模型、概率模型、推理网络模型以及元搜索引擎模型等;搜索引擎排名算法,如PageRank算法和HITS算法;聚类算法以及改进的增量聚类算法等。信息可视化方面的基础理论主要介绍了相关概念、可视化的分类以及相关模型等。第二章主要研究了可视化搜索引擎的模型框架,是后面各章节内容的一个整体架构。首先分析了传统搜索引擎模型的不足之处,包括没有充分解析页面和Web资源的可视特征,巨大结果集的浏览增加了用户负担,以及缺乏一个好的交互环境来提高效率等。然后建立了可视化搜索引擎的模型框架,包括建立的原则、基本功能模块、工作流程、关键问题以及技术框架等。可视化搜索引擎模型框架建立的基本原则是以用户为中心、具有通用性、模块化以及具有较好的可扩展性。可视化搜索引擎从功能上来说包含了页面抓取模块、索引模块、检索模块以及用户接口模块等。本模型框架还包含可视化搜索引擎工作流程、可视化应用层次以及可视化对象分析等。可视化搜索引擎的关键问题包括Web资源的可视信息提取、可视化检索模型建立、可视化界面问题以及多种资源集成等问题。可视化的技术框架也是可视化搜索引擎模型框架的一个重要问题,主要包括可视化结构的应用和可视化实现技术等两个方面。第三章研究了可视化搜索引擎的资源索引。Web页面通过HTML代码进行描述,搜索引擎对页面的索引通常通过对代码的文本内容解析来实现。但事实上用户真正看到的是经过浏览器渲染后的可视页面,页面的可视内容才能真正体现页面创作者的意图。因此,搜索引擎要从页面的可视信息入手进行内容的索引,以获得更好的索引效果。在分析网页可视元素的基础上,重点研究了网页版面的可视特征,包括版面的结构、版面划分方法,特别是用可视化方法进行版面的划分,并计算其各个子版块的权重,为版块内的资源内容的提取提供一个重要影响因子。对版块内文本内容的索引是通过自动分词后,综合颜色、字体、大小、加粗等文本可视特性,并与版块权重因子结合,得到包含有可视特性的关键词倒排文档,从而实现可视化索引。对于图片、声音、视频等多媒体资源,则要结合资源内容,以视觉特征为基础进行索引。图片资源中人像的识别和音频资源中语音识别是最为关键的技术。第四章讨论了搜索引擎的可视化检索方法。信息可视化检索已经较多研究,本文重点是将这些研究与搜索引擎结合,主要研究了搜索引擎检索界面的可视化和搜索结果的可视化。检索界面的可视化包括检索式的可视化、基于示例的查询等,后者对于多媒体的检索是最为基本的功能。交互性是检索界面可视化的最重要部分。对于目录式搜索引擎来说,对层次目录数据的可视化也是一个重要方面。检索结果集的可视化由于具有了宏观信息和微观信息,能让用户发现更有价值的信息,其可视化的方法主要有基于聚类的方法、超链接法和语义内容法等。本章最后对三种重要的结果集属性的可视化进行了研究,包括聚类的可视化、关系的可视化、时间序列的可视化等。第五章研究了搜索引擎历史数据的可视化。搜索引擎中的历史数据主要包括两个方面:网页页面快照和搜索日志。通过对这些历史数据的挖掘,不但可以让用户获取更多的信息,还可以让搜索引擎改进自己的搜索方法,特别是排名算法。通过对页面快照的历史进行分析,可以让用户跟踪某页面的更新过程。本文用基于增量的方法实现了多个快照历史版本的存储,以及快照的全局可视化显示和局部可视化显示。搜索日志的挖掘主要研究了查询词频分析、地理搜索日志分析、会话分析等,并研究了其可视化挖掘的模型。第六章为案例分析。本文选取了Google和Wolfram|Alpha为研究案例,前者是最着名的搜索引擎,后者是2009年5月推出的一个较新的搜索引擎,二者具有不同的搜索模式,对二者的研究具有典型性。通过对Google的案例研究,得到的结论是在其搜索引擎中大量采用了各种可视化应用,并且其可视化应用研究正呈上升的趋势。Wolfram|Alpha以知识库和可视化模式库为基础,以直接回答的方式呈现搜索结果,而不是由用户自己去从结果集中搜索大量信息,虽然模式有很大变化,但也提供了很多的可视化模式对搜索结果进行可视化显示。可视化方法在搜索引擎中使用正越来越多,相关的研究也越来越多。可视化搜索引擎是各类技术与方法的集成,其功能与效果依赖于一些相关技术与方法,因此在对整体模型与框架研究的基础上,还需要对相关技术与方法的更深入研究,这正是下一步的工作。

陈竹敏[10](2008)在《面向垂直搜索引擎的主题爬行技术研究》文中指出主题爬行是获取World Wide Web中特定领域(主题)的网页的关键技术。随着Web的快速增长,以及网络带宽和各种资源的有限性,从中获取全面、准确和高质量的信息变的越发困难。传统(通用)搜索引擎技术呈现出了严重的局限性。(1)对某一查询返回的结果太多且相关性、质量不高。(2)不能满足不同背景、不同目的和不同时期的用户的需求。(3)在索引的全面性、更新的及时性上存在着很大的不足。垂直搜索引擎(Vertical Search Engine)被作为解决通用搜索引擎局限性的一种潜在方案,有着智能化、个性化、领域化的特点,从而成为当前学术界和产业界研究的热点。它利用主题爬行(Focused Crawling or Topical Crawling)技术来搜集面向领域(主题)的Web网页,并提供面向主题的检索服务。无疑,主题爬行技术作为垂直搜索引擎的基础与核心,它的性能对垂直搜索引擎的性能至关重要。此外,主题爬行技术还可用于Web的实时检索、个性化检索、数字图书馆等领域。因此,对主题爬行技术的研究具有重要的学术意义和广阔的应用前景。主题爬行基于这样一个重要的假设:与同一主题相关的网页趋向于互相链接,被称为Web上的主题局部性。主题爬虫每次从待爬行URLs队列中选择最有希望的链接进行爬行,其目标是保持在主题相关的网页的周围,而不偏离主题。因此,主题爬行在很大程度上能节省硬件和网络资源,提高检索结果的查准率和质量,保证爬行的时新性。但由于Web是一个高度开放、异构、分布式的信息空间,网页杂乱地散布在全球各个站点上,而且每天以极快的速度更新。相对于巨大、无序的Web信息空间,与某个主题相关的网页是非常有限的,仅仅是整个信息空间的一小部分。而一个理想的主题爬虫需要最大限度的爬行与预定主题最相关的网页,并最小限度的爬行不相关的网页。因此,主题爬行又是一个极富挑战性的研究课题。主题爬行的关键技术有:主题(用户需求)描述、面向主题爬行的网页分块、待爬行URLs优先级计算、主题爬行算法。研究主题爬行技术的目标是提供建立垂直搜索引擎的一般技术和通用算法,通过提高网页搜集的效率和质量来提高垂直搜索引擎的性能,降低垂直搜索引擎的构造和运行代价。本文以“山东省科技攻关计划项目一垂直检索系统的研究与开发”为依托,针对上述关键技术展开研究,主要贡献和创新点包括如下几点:(1)提出了一种基于分类法的上下文主题描述(CTD-T,Contextual TopicDescription based on Taxonomy)方法。CTD-T方法基于ODF(open Directory Project)来表示主题(用户需求)。对于ODP中的任一主题结点,给出其“上下文主题关键词集合(CTKW,ContextualTopic Key Words)”和“主题描述(TD,Topic Description)”的定义及表示方法。针对直接从ODP中获取CTKW会引入很多噪音结点的问题,提出了一种基于逆路径频率(IPF,Inverse Path Frequency)对CTKW进行去噪的方法。另外,在对CTKW进行向量表示时,提出了一种基于主题结点在ODP中的相对层次位置来计算其权重的方法。利用CTKW来计算已知信息(网页,锚文本等)与给定主题及其上下文主题的相关度,用来在线指导主题爬虫的爬行。利用TD来计算已爬行网页与给定主题的相关度,用来离线评价主题爬虫的性能。(2)提出了一种面向主题爬行的在线网页分块(OPS4FC,Online PageSegmentation for Focused Crawling)方法。指出一个网页中影响主题爬行算法性能的块主要有两种:文本块和链接块。链接块可以进一步被细分为相关链接块,导航链接块和噪音链接块。OPS4FC的主要目标是识别出网页中的主题文本和相关链接块。首先,将一个已爬行的网页解析成DOM(Document Object Model)树。其次,提出一种基于多特征的概率统计方法来识别出该网页中的所有文本块和链接块。然后,根据文本块之间的语义相关性关系来识别出整个网页的主题文本。最后,根据链接块中所有链接的锚文本集合与主题文本的语义相关性关系识别出该网页所有的相关链接块。实验从Web信息检索和主题爬行两个角度证明了OPS4FC方法具有很好的通用性。适用于对海量的,不同版面格式的网页的处理,能够有效的提取网页的主题文本内容和相关链接块,有效的去除网页中的噪音文本和噪音链接,从而能显着的提高Web检索和主题爬虫的性能。(3)提出一种多粒度的TCURLs优先级计算(PUMG,Prioritizing URLs inMulti-Granularities)方法。主题爬行的基本思想就是计算爬行队列中的待爬行URLs(TCURLs,ToCrawl URLs)的访问优先级,并每次选最有希望者进行爬行。因此,主题爬行的核心计算问题是:计算每个TCURL的访问优先级。PUMG以CTD-T和OPS4FC为基础,利用站点、网页内容、相关链接块、锚文本、URL地址和链接类型六种特征,从站点级、网页级、块级和链接级四种不同的粒度来计算一个TCURL的优先级。在PUMG中的子创新点如下:a)提出了以站点为粒度来计算该站点中的TCURLs优先级的方法。如果站点S1的相关网页数(相关度)大于站点S2的相关网页数(相关度),那么在动态的爬行过程中,S1中已爬行的相关网页总数(相关度总和)的增速比S2的快。因此,一个站点到目前为止已爬行的相关网页数(相关度总和)的增速可以用来衡量该站点的TCURLs的优先级。b)在基于网页粒度的TCURLs的优先级计算中,不是利用整个网页的内容,而是基于分块后的该网页的主题文本和所有相关链接块的锚文本集合。因为使用的是经过分块后的网页,有效的去除了其中的噪音,提高了优先级计算的准确性。c)针对当前网页中链接较多,且相关链接易于聚集成块的特点,提出了以链接块为粒度来计算该块中的TCURLs优先级的方法。在计算时,只利用网页的相关链接块,因此有效的过滤掉大量的噪音链接。此外,有些相关链接的锚文本较短,单纯依靠锚文本不能有效的发现它们,而以块为粒度很好的解决了这个问题。d)指出大部分网页的URLs地址包含了与网页内容相关联的一些语义标记(Token),并提出了基于一个TCURL地址的语义标记来计算其优先级的方法。首先,把中文URLs中的语义标记主要分成四种形式:完整英文、英文缩写、完整拼音和拼音的第一个字母。然后,经过半自动的统计分析,创建了一个主题-标记映射表(TTMT,Topic-Token Mapping Table)。对于一个给定主题,从TTMT中找到对应的四种形式的标记;对于一个给定URL,根据分隔符“/”和“.”将其分割成多个标记;然后通过两者标记的匹配情况,确定该URL的优先级。e)提出了基于链接类型来计算一个TCURL的优先级的方法。一个网页的出链指向的网页继承了该网页与主题的相关性。首先,利用一个TCURL与其父网页在Web站点中的相对位置将链接分成五种类型。然后,给出了五种启发式规则根据链接类型来推断该TCURL指向的网页与其父网页的主题间的关系,并确定一个合理的继承因子。利用父网页与指定主题的相关度乘以继承因子作为预测的该TCURL指向的网页与指定主题的相关度,从而作为该TCURL的优先级。(4)提出了一种基于多粒度优先级计算的自适应主题爬行(AFC-PUMG,Adaptive Focused Crawling based on PUMG)算法。AFC-PUMG从一些与预定主题相关的种子出发,利用OPS4FC对已爬行的网页进行分块,并抽取出网页中的待爬行URLs,然后利用PUMG计算每个URL的优先级,并按照其优先级顺序进行访问。AFC-PUMG给出了一个可变长度的路径探测深度(PED,Path Exploring Depth)函数,使TCURLs的PED随着其所在网页与给定主题的相关度的变化而变化。从而使AFC-PUMG可以更加灵活的控制探测的方向和深度,获取更多更相关的网页。此外,根据不同粒度的优先级计算之间的依赖关系,定义了它们计算的先后顺序,并用来改进AFC-PUMG算法的优先级计算过程,降低了算法的运行时间复杂度。(5)基于上述技术实现了一个主题爬行原型系统,从多个角度对本文的方法进行了实验分析。给出了原型系统的体系结构和具体的设计方案。我们在该原型系统中同时实现了宽度优先(Bread-First),最佳优先(Best-First),Shark-Search和本文的AFC-PUMG。进行了一系列的实验,实验针对多个不同的主题,在真实的Web环境上,从多个角度证明了本文提出的CTD-T、OPS4FC、PUMG和AFC-PUMG的有效性。在整体性能方面,将本文的AFC-PUMG算法与系统中实现的其它三个爬行算法进行了比较。大量的实验证明,AFC-PUMG在不增加时间复杂度的前提下,在收获率和信息量总和上明显优于其它三种算法。

二、基于可视布局信息的网页噪音去除算法(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、基于可视布局信息的网页噪音去除算法(论文提纲范文)

(1)基于网页信息自动提取的分布式爬虫系统设计与实现(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景及意义
    1.2 主要研究内容
    1.3 论文结构安排
第二章 相关技术综述
    2.1 网络爬虫技术
    2.2 常见网页结构分类
    2.3 网页信息提取技术
        2.3.1 基于模板的网页信息提取
        2.3.2 基于启发式规则的网页信息提取
        2.3.3 基于视觉分块的网页信息提取
        2.3.4 基于机器学习的网页信息提取
    2.4 分布式系统技术概述
        2.4.1 分布式数据存储
        2.4.2 分布式任务调度
        2.4.3 面向服务架构
    2.5 本章小结
第三章 文章型网页信息自动提取算法研究
    3.1 引言
    3.2 文章型网页分析
    3.3 基于视觉块一致性和序列标注的文章型网页元数据提取算法
        3.3.1 网页预处理
        3.3.2 网页分块与网页主体区域定位
        3.3.3 基于CRF的网页元数据抽取
    3.4 实验分析
        3.4.1 数据集及评价标准
        3.4.2 实验结果与分析
    3.5 本章小结
第四章 分布式爬虫系统的设计与实现
    4.1 引言
    4.2 系统需求分析
        4.2.1 功能需求
        4.2.2 非功能性需求
    4.3 系统总体设计
    4.4 系统模块设计与实现
        4.4.1 存储模块的设计与实现
        4.4.2 网页下载与任务调度模块的设计与实现
        4.4.3 网页信息提取模块的设计与实现
        4.4.4 网页去重模块的设计与实现
        4.4.5 节点管理模块的设计与实现
        4.4.6 爬虫管理模块的设计与实现
    4.5 系统测试
        4.5.1 功能测试
        4.5.2 性能测试
    4.6 本章小结
第五章 总结与展望
    5.1 论文工作总结
    5.2 下一步工作展望
参考文献
缩略语
致谢

(2)热点话题发现及基于Voronoi的词云图的应用(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 课题背景
    1.2 国内外研究现状
        1.2.1 文本特征扩展技术研究现状
        1.2.2 文本可视化技术研究现状
    1.3 论文研究内容与创新点
    1.4 论文组织与结构
第二章 相关技术介绍
    2.1 主题模型
    2.2 文本聚类算法
    2.3 文本可视化技术
    2.4 冯洛诺伊图
    2.5 本章小结
第三章 基于语料集本身的文本特征自扩展算法
    3.1 文本特征自扩展算法流程
        3.1.1 词和主题的共轭定义
        3.1.2 短文本特征自扩展
    3.2 文本特征自扩展算法实验验证
        3.2.1 构造文本聚类实验数据集
        3.2.2 对比实验
        3.2.3 实验结论
    3.3 本章小结
第四章 VoronoiTopicCloud文本可视化模型
    4.1 VoronoiTopicCloud需要解决的问题
    4.2 VoronoiTopicCloud的设计目标
    4.3 VoronoiTopicCloud的生成流程
    4.4 VoronoiTopicCloud使用示例
        4.4.1 基于Word Cloud的微博语料集可视化
        4.4.2 基于VoronoiTopicCloud的微博语料集可视化
    4.5 本章小结
第五章 微博热点话题挖掘系统的设计与实现
    5.1 系统需求分析
    5.2 系统概要设计
    5.3 系统详细设计与实现
        5.3.1 系统持久层设计
        5.3.2 系统消息中间件层设计
        5.3.3 数据源获取模块实现
        5.3.4 数据预处理模块实现
        5.3.5 数据挖掘模块实现
        5.3.6 可视化结果生成模块实现
        5.3.7 Web端管理模块实现
    5.4 系统功能展示
    5.5 系统测试
        5.5.1 功能测试
        5.5.2 性能测试
    5.6 本章小结
第六章 总结与展望
    6.1 论文总结
    6.2 未来展望
参考文献
致谢
攻读学位期间取得的研究成果

(4)基于论坛网页的信息抽取与情感分析研究(论文提纲范文)

摘要
ABSTRACT
第1章 绪论
    1.1 课题背景及意义
    1.2 研究现状
        1.2.1 Web信息抽取研究现状
        1.2.2 情感分析研究现状
    1.3 论文主要研究内容
    1.4 论文章节安排
第2章 相关理论与技术
    2.1 Web信息抽取相关概念
        2.1.1 HTML与 DOM
        2.1.2 Web信息抽取流程
    2.2 Web信息抽取技术研究
        2.2.1 基于包装器的Web信息抽取
        2.2.2 基于视觉分块的Web信息抽取
        2.2.3 基于DOM树的Web信息抽取
    2.3 深度学习相关技术
        2.3.1 词向量
        2.3.2 循环神经网络
    2.4 情感分析方法
        2.4.1 基于情感词典的情感分析
        2.4.2 基于机器学习的情感分析
        2.4.3 基于深度学习的情感分析
    2.5 本章总结
第3章 论坛网页的预处理及页面分块
    3.1 网页获取及预处理
        3.1.1 网页的获取
        3.1.2 网页的清洗
    3.2 Web页面分块
        3.2.1 HTML的结构分析
        3.2.2 HTML的 table分析
        3.2.3 HTML的 div分析
        3.2.4 基于HTML标签的页面分块算法
    3.3 实验数据集
        3.3.1 Web信息抽取实验数据集
        3.3.2 情感分析实验数据集
    3.4 本章小结
第4章 基于网页分块与DOM树的Web信息抽取
    4.1 基于DOM子树的相似度算法提取Web信息
        4.1.1 楼层标准值
        4.1.2 基于子树自由匹配的相似度度量
        4.1.3 评论信息抽取
    4.2 基于网页分块与深度加权DOM子树的相似度算法提取Web信息
        4.2.1 网页正文块的识别
        4.2.2 基于深度加权的DOM子树相似度度量
        4.2.3 基于网页分块与深度加权DOM子树的Web信息抽取
    4.3 基于DOM树的叶节点路径提取Web信息
        4.3.1 树路径与树路径相似度
        4.3.2 基于叶节点路径的Web信息抽取
    4.4 实验结果与分析
        4.4.1 评价指标
        4.4.2 实验结果与分析
    4.5 本章小结
第5章 基于多种Attention机制的情感分析
    5.1 模型流程
        5.1.1 文本预处理
        5.1.2 文本向量化表示
    5.2 基于BiGRU的情感分类
        5.2.1 GRU网络模型
        5.2.2 基于BiGRU的的情感分类模型
    5.3 基于多种Attention机制的BiGRU情感分类
        5.3.1 Attention模型原理
        5.3.2 引入多种Attention机制的BiGRU分类模型
    5.4 实验结果与分析
        5.4.1 评价指标
        5.4.2 实验结果与分析
    5.5 本章小结
第6章 总结和展望
    6.1 总结
    6.2 展望
参考文献
发表论文和参加科研情况说明
    发表学术论文
致谢

(5)网页数据的自动化抽取技术(论文提纲范文)

中文摘要
Abstract
第一章 绪论
    1.1 课题研究的背景与意义
    1.2 课题研究现状
    1.3 本文主要工作
    1.4 本文的组织结构
第二章 Web信息抽取相关技术
    2.1 HTML语言标准
    2.2 网页正文抽取技术
    2.3 网页结构化数据抽取技术
    2.4 本章小结
第三章 基于网页聚类的正文信息抽取
    3.1 方法概览
    3.2 网页相似度计算
    3.3 网页聚类
    3.4 面向相似网页的特征生成
    3.5 标题时间抽取
    3.6 本章小结
第四章 基于合并树的包装器生成
    4.1 方法概览
    4.2 DOM树合并与抽象技术
    4.3 包装器生成
    4.4 本章小结
第五章 系统实现与实验评估
    5.1 网页正文内容抽取系统
    5.2 网页正文内容抽取实验评估
    5.3 网页结构化数据抽取系统
    5.4 网页结构化数据抽取实验评估
    5.5 本章总结
总结与展望
    论文工作总结
    未来工作展望
参考文献
致谢
个人简历
在学期间的研究成果及发表的学术论文

(6)基于视觉的网页噪音识别与清除关键技术研究(论文提纲范文)

摘要
abstract
第1章 绪论
    1.1 论文研究背景
    1.2 论文研究的目的和意义和研究内容
    1.3 论文组织结构
第2章 相关理论基础及国内外研究现状
    2.1 DOM模型
        2.1.1 Web网页标记语言
        2.1.2 网页DOM树模型
    2.2 网页布局
        2.2.1 网页布局分类
        2.2.2 网页布局比较
    2.3 Web挖掘及网页噪音清除研究现状
    2.4 本章小结
第3章 基于改进VIPS的新型网页布局噪音识别算法
    3.1 引言
    3.2 基于视觉的VIPS算法
        3.2.1 VIPS算法原理及相关概念
        3.2.2 VIPS算法网页划分流程
    3.3 基于 DIV_DOM 模型的网页噪音识别算法
        3.3.1 DIV_DOM模型
        3.3.2 基于VIPS改进算法的网页噪音识别
    3.4 实验过程与结果分析
        3.4.1 实验环境及实验数据
        3.4.2 实验方法及结果分析
    3.5 本章小结
第4章 基于视觉无感的网页噪音清除算法
    4.1 引言
    4.2 基于视觉无感的网页噪音清除算法
        4.2.1 视觉无感相关定义
        4.2.2 基于视觉无感算法思想及具体流程
    4.3 实验过程与结果分析
        4.3.1 实验结果评估指标
        4.3.2 实验方法及结果分析
    4.4 本章小结
结论
参考文献
致谢

(7)汉维主题网页自动获取技术的研究(论文提纲范文)

0 引 言
    1) 相关工作
    2) 本文的贡献
1 主题信息自动获取算法
    1.1 算法基础
    1.2 算法描述
        1.2.1 源码的预处理
        1.2.2 源码的划分
        1.2.3 源码的去噪
        1.2.4 清除HTML标签
2 实验结果与评价
    2.1 算法实现
    2.2 实验结果与分析
3 结论与展望

(8)网页去噪:研究综述(论文提纲范文)

0 引 言
1 简 介
2 网页去噪的定义及分类
3 网页去噪的方法
    3.1 多模型网页去噪方法
        3.1.1 多模型网页去噪方法概述
        3.1.2 Shingle方法和SST方法
        3.1.3 多模型去噪方法的优缺点
        1) 优点:
        2) 缺点:
    3.2 单模型网页去噪方法
        3.2.1 基于启发式规则的网页去噪方法
        3.2.2 基于机器学习的网页去噪方法
4 网页去噪实验和方法
    4.1 采用数据集合
    4.2 采用实验方法
5 存在的问题和研究方向
6 结束语

(9)可视化搜索引擎模型与方法研究(论文提纲范文)

摘要
Abstract
0 引言
    0.1 选题意义
        0.1.1 搜索引擎多元化发展
        0.1.2 可视化的认知优势
        0.1.3 网络信息资源呈多媒体发展趋势
        0.1.4 可视化搜索引擎成为重要发展方向
    0.2 国内外研究现状
        0.2.1 搜索引擎模型相关研究
        0.2.2 WEB资源的可视化相关研究
        0.2.3 可视化检索相关研究
    0.3 研究内容、方法和创新之处
        0.3.1 研究内容
        0.3.2 研究方法
        0.3.3 本文的创新点
1 可视化搜索引擎基础理论与技术
    1.1 搜索引擎相关理论
        1.1.1 搜索引擎基本模型
        1.1.2 搜索引擎页面排名算法
        1.1.3 聚类算法
    1.2 信息可视化模型与方法
        1.2.1 信息可视化概念
        1.2.2 信息可视化分类
        1.2.3 信息可视化模型
    1.3 本章小节
2 可视化搜索引擎模型框架
    2.1 传统搜索引擎模型不足之处
        2.1.1 没有充分解析可视化信息
        2.1.2 结果集浏览困难
        2.1.3 缺乏交互环境
    2.2 可视化搜索引擎基本框架
        2.2.1 模型与框架建立的基本原则
        2.2.2 视化搜索引擎框架的建立
        2.2.3 可视化搜索引擎关键问题
    2.3 可视化技术框架
        2.3.1 常见可视化结构
        2.3.2 实现技术平台
        2.3.3 可视化工具包
    2.4 本章小结
3 基于可视化方法的资源索引
    3.1 基于可视化方法资源索引的意义
    3.2 网页中的可视元素
        3.2.1 颜色
        3.2.2 版面布局
        3.2.3 大小
        3.2.4 形状
        3.2.5 图符
        3.2.6 对齐方式
        3.2.7 其它可视化隐喻
    3.3 基于可视化方法的版面分析
        3.3.1 网页版面特点
        3.3.2 版面划分方法
        3.3.3 基于可视方法的版块权重
    3.4 基于可视化方法的资源索引
        3.4.1 文本信息资源索引
        3.4.2 图像信息资源索引
        3.4.3 音频信息资源索引
        3.4.4 视频信息资源索引
    3.5 本章小结
4 可视化检索方法
    4.1 信息检索可视化基本原理
        4.1.1 信息检索可视化特点
        4.1.2 可视化检索模式
        4.1.3 可视化检索模型建立过程
    4.2 检索界面可视化
        4.2.1 检索界面设计原则
        4.2.2 可视化检索界面基本结构
        4.2.3 检索式可视化
        4.2.4 交互式检索
    4.3 主题目录可视化
    4.4 检索结果集可视化浏览
        4.4.1 检索结果宏观与微观信息
        4.4.2 检索结果可视化基本方法
        4.4.3 检索结果常见属性可视化
    4.5 本章小结
5 搜索引擎历史数据可视化
    5.1 页面快照历史及其可视化
        5.1.1 Web页快照
        5.1.2 基于增量方法的多版本快照模型
        5.1.3 基于增量方法的多版本快照可视化实现
    5.2 用户搜索历史数据可视化
        5.2.1 搜索历史可视化
        5.2.2 用户行为模式挖掘
        5.2.3 挖掘的可视化模型
    5.3 本章小结
6 案例分析
    6.1 Google中的可视搜索技术
        6.1.1 搜索结果可视化--搜索百宝箱
        6.1.2 多媒体信息的可视化搜索
        6.1.3 移动可视化搜索
        6.1.4 Google地图搜索
        6.1.5 其它可视化功能
        6.1.6 Google可视化搜索小结
    6.2 Wolfram Alpha可视化搜索引擎中的模式识别分析
        6.2.1 直接回答式搜索
        6.2.2 巨大的内部知识库
        6.2.3 丰富可视化模式
    6.3 本章小结
7 总结与展望
    7.1 总结
    7.2 未来展望
参考文献
攻读博士学位期间科研情况
致谢

(10)面向垂直搜索引擎的主题爬行技术研究(论文提纲范文)

目录
摘要
ABSTRACT
第1章 绪论
    1.1 课题研究的背景和意义
    1.2 搜索引擎及发展
        1.2.1 搜索引擎的发展
        1.2.2 搜索引擎的基本原理
        1.2.3 搜索引擎的分类
        1.2.4 通用搜索引擎的局限性
        1.2.5 垂直搜索引擎
    1.3 主题爬行技术
        1.3.1 爬行技术简介
        1.3.2 主题爬行
    1.4 论文的主要研究内容与贡献
        1.4.1 基于分类法的上下文主题描述
        1.4.2 面向主题爬行的在线网页分块
        1.4.3 基于多粒度的待爬行URLs优先级计算
        1.4.4 自适应主题爬行算法
        1.4.5 基于原型系统的实验分析
    1.5 论文的组织结构
第2章 基于分类法的上下文主题描述
    2.1 概述
        2.1.1 主题描述方法
        2.1.2 主题描述方法的应用
        2.1.3 存在问题
    2.2 基于分类法的上下文主题描述
    2.3 主题向量表示
    2.4 本章小结
第3章 面向主题爬行的在线网页分块
    3.1 概述
        3.1.1 网页分块
        3.1.2 网页分块在信息检索中的应用
        3.1.3 网页分块在主题爬行中的应用
        3.1.4 存在问题
    3.2 面向主题爬行的在线网页分块
        3.2.1 文本块与链接块识别算法
        3.2.2 主题文本识别算法
        3.2.3 相关链接块识别算法
    3.3 实验分析
    3.4 本章小结
第4章 基于多粒度的待爬行URLs优先级计算
    4.1 概述
        4.1.1 相关工作
        4.1.2 存在问题
        4.1.3 主要贡献
    4.2 TCURLs优先级计算的规范化描述
    4.3 基于网页粒度的TCURLs优先级计算
    4.4 基于站点粒度的YCURLs优先级计算
    4.5 基于块粒度的TCURLs优先级计算
    4.6 基于链接粒度的TCURLs优先级计算
        4.6.1 基于锚文本的TCURLs优先级计算
        4.6.2 基于URL地址的TCURLs优先级计算
        4.6.3 基于链接类型的TCURLs优先级计算
    4.7 基于多粒度的TCURLs优先级计算
    4.8 本章小结
第5章 自适应主题爬行算法
    5.1 概述
        5.1.1 相关工作
        5.1.2 存在问题
    5.2 基于多粒度优先级计算的自适应主题爬行算法
        5.2.1 不同粒度优先级计算策略的先后顺序
        5.2.2 自适应路径探测深度
        5.2.3 自适应主题爬行算法
    5.3 本章小结
第6章 基于原型系统的实验分析
    6.1 主题爬行原型系统
    6.2 基准算法
        6.2.1 宽度优先算法
        6.2.2 最佳优先算法
        6.2.3 Fish-Search和Shark-Search算法
    6.3 评测指标
    6.4 主题和种子URLs
    6.5 参数设置
    6.6 实验结果分析
        6.6.1 总体性能
        6.6.2 基于分类法的上下文主题描述方法的性能
        6.6.3 在线网页分块方法的性能
        6.6.4 基于URL地址的优先级计算的性能
        6.6.5 单个粒度优先级计算的性能
        6.6.6 自适应路径探测深度的性能
        6.6.7 时间性能
    6.7 本章小结
第7章 总结与展望
    7.1 本文总结
    7.2 研究展望
参考文献
致谢
攻读学位期间发表的学术论文
在读期间参与科研项目情况
在读期间获奖情况
学位论文评阅及答辩情况表
外文论文

四、基于可视布局信息的网页噪音去除算法(论文参考文献)

  • [1]基于网页信息自动提取的分布式爬虫系统设计与实现[D]. 杨本栋. 北京邮电大学, 2021(01)
  • [2]热点话题发现及基于Voronoi的词云图的应用[D]. 王煜辉. 北京邮电大学, 2021(01)
  • [3]互联网Web科技数据自动抽取算法研究[D]. 张贺凯. 燕山大学, 2021
  • [4]基于论坛网页的信息抽取与情感分析研究[D]. 班鑫. 天津大学, 2019(01)
  • [5]网页数据的自动化抽取技术[D]. 王一洲. 福州大学, 2018(03)
  • [6]基于视觉的网页噪音识别与清除关键技术研究[D]. 赵天南. 哈尔滨工程大学, 2017(08)
  • [7]汉维主题网页自动获取技术的研究[J]. 梁建飞,吐尔根·依布拉音,田生伟,赛依旦·阿不力米提. 计算机应用与软件, 2012(01)
  • [8]网页去噪:研究综述[J]. 毛先领,何靖,闫宏飞. 计算机研究与发展, 2010(12)
  • [9]可视化搜索引擎模型与方法研究[D]. 何明贵. 武汉大学, 2010(05)
  • [10]面向垂直搜索引擎的主题爬行技术研究[D]. 陈竹敏. 山东大学, 2008(05)

标签:;  ;  ;  ;  ;  

基于视觉布局信息的网页去噪算法
下载Doc文档

猜你喜欢