一、文本分类中的特征选取算法(论文文献综述)
于凯[1](2021)在《决策树的集成选择及在不平衡文本分类中的应用》文中指出在机器学习与数据挖掘中,分类是一个重要的研究领域,而决策树是一种常用的分类模型。决策树是一种树形结构,存在不稳定性。集成学习是解决决策树稳定性的重要手段,集成可以整合多棵决策树,通过投票等方法将决策树的预测结果组合到一起,给出一个更稳定、准确的预测,提高泛化能力。但集成中往往会存在冗余成员,这些冗余成员可能会降低集成的预测性能。集成选择能去除冗余成员,提高集成的性能,减少存储空间和计算时间。由于集成的准确性和泛化能力在很大程度上依赖于成员分类器的性能及其多样性,因此选择一个精确多样的子集成能提高对未知样本的预测精度。文本分类是自然语言处理和文本信息挖掘的基本任务之一。决策树易于解释,广泛应用于文本分类问题。本文围绕决策树的集成选择及其在不平衡文本分类中的应用展开研究,提出了一种同时考虑决策树语义和结构的多样性度量方法,对最近提出的卡尔曼滤波集成方法(Kalman Filter-based Heuristic Ensemble,KFHE)进行分析和集成选择,应用决策树的集成选择对类别不平衡的文本进行分类。本文的主要研究内容包括以下几个方面:(1)提出了一种基于加权Jaccard距离(Weighted Jaccard Distance,WJD)的决策树集成选择方法,该方法能够从决策树的形态结构以及验证集上的分类结果来度量决策树的多样性。首先对WJD的性质进行分析,然后以WJD为距离度量方法,采用基于聚类的集成选择方法来选择多样性的决策树。在UCI数据集上的实验表明了WJD的有效性,WJD的剪枝结果具有明显优势。(2)KFHE是最近提出的一种决策树集成方法,本文对KFHE的性质进行了分析,给出3个定理并进行了证明,指出KFHE中存在冗余成员;为减少冗余成员进一步提高集成的性能,提出了一种基于有序选择的集成选择方法(Order-based Kalman Filter Selective Ensemble,OKFSE);实验结果表明OKFSE在含有噪声的数据集中有更好的预测性能和鲁棒性。(3)研究决策树的集成选择在不平衡文本分类中的应用,使用不同的决策树集成方法以及剪枝方法在类别不平衡的文本数据集中进行实验,并对实验结果进行分析总结。
彭博[2](2021)在《基于图卷积神经网络的文本分类方法研究》文中研究说明随着各种网络社交平台的兴起,文本作为这些平台的主要信息载体,数据量每天都在高速增长,如何正确处理这些海量的文本信息,即,将文本分类管理和应用,已经成为一项重要研究课题。近年来,文本分类的深度学习方法获得快速发展,可以快速准确的对大规模文本数据进行处理,具有广阔的应用前景。因此,本论文瞄准文本分类的深度学习方法,在下面两个方面取得研究进展:(1)提出基于改进的Cluster GCN的文本分类方法。首先针对文本分类过程中可能因为训练数据不足而造成的过拟合问题,本论文提出对邻接矩阵A采用Dropedge进行训练,达到了输入模型的数据在不影响原有特征的情况下得到不同的随机变形的目的,实现了数据增强的效果。然后针对文本分类中经典的GCN模型存在保存每个节点的嵌入到内存会导致内存消耗过大,对硬件条件要求过高的问题,将原本针对图分类的Cluster GCN应用到文本分类中,通过增加邻接矩阵的对角线权重,增强本身特征。进一步,通过对文本图即邻接矩阵A中的词和文档节点构造分区,使相同区内的文档和词节点之间的连接比不同区之间的连接更多。最后,在邻域搜索过程中只对相同区内的节点进行采样,达到降低内存消耗,提高了计算效率。(2)提出基于改进的Fast GCN的文本分类方法。首先针对One-hot编码只反映词是否出现,无法反映词的重要程度,也无法表示不同词之间的关系的缺点,采用Glove模型构建文本特征,使文本特征包含全局统计信息和局部上下文信息,提高了分类效果。然后针对文本分类中经典的GCN模型是直推式的,无法对新加入的文本数据进行分类,本论文将Fast GCN应用于文本分类,将GCN中原本的图卷积看作是一种概率测度下嵌入函数的积分变换,摆脱了对测试数据的依赖。最后采用Focal Loss来衡量简单易分类样本与难分类样本的损失分别对总损失的贡献程度,增加难分类样本损失的重要性,提高了最终分类效果。
闫娟[3](2021)在《基于图神经网络和外部特征融合的短文本分类算法研究》文中研究指明在数字化时代新趋势下,传媒通信等主要领域信息达到了极速的传播推广,掀起了社交网络的浪潮。用户在各大网络平台快速的收集翻阅信息,如社交网络微博、知乎论坛、以及豆瓣影评等。这类文本内容精简多样,但蕴含着用户的潜在需求、兴趣方向和行为意图等丰富的信息。如何处理短文本信息将其归纳整理提取有价值的知识为人们所用,一直深受研究者的关注。对比于长文本,短文本自身具有的特征过于稀疏,内容短少且对上下文语义具有较强的依赖性。针对以上问题,传统的机器学习模型等短文本分类方法无法得到令人满意的结果。近年来,借助于外部知识库来进行文本数据扩充成为研究热点,以及深度学习模型在自然语言处理(Natural Language Processing,NLP)领域获得了广泛应用如卷积神经网络(Convolutional Neural Network,CNN)、递归神经网络(Recurrent Neural Network,RNN)以及长短期记忆网络(Long-Short Term Memory,LSTM),它们能够对文本的顺序和位置进行优先考虑,对局部连续单词序列中的语义、语法信息具有非常好的捕获效果。但是忽略了非连续单词和语料句中长距离语义特征的全局依赖关系。目前,一种基于图的方式例如图嵌入或者图神经网络模型引起了广大研究者的关注,图神经网络能够直接处理丰富且复杂的结构化关系的任务,并且有效的完成对图中的全局单词语义特征信息的保留。图卷积神经网络(Graph Convolutional Network,GCN)在自然语言处理领域具有广泛的应用,同时也产生了新的文本图分类的方法。如何在短文本分类中有效地利用全局特征,丰富上下文语义信息成为重点研究问题。本文基于图神经网络的研究基础进行算法改进,主要研究工作以及贡献如下:(1)文本图的构建。我们通过将语料库中的单词作为节点,依据单词之间的共现关系添加边,完成文本图的构建。由于短文本语料特征稀疏,我们还引入外部知识库来丰富节点的信息,从而将文本数据转换为结构图的形式进行文本图分类。(2)扩展短文本语料特征。本文提出了基于图卷积神经网络(GCN)引入外部知识库Word Net对特征同义词进行提取的方法,并通过实验证明了采用知识库扩充特征信息能够有效改善短文本内容精简特征稀疏的问题。(3)基于BERT词向量的图卷积神经网络(GCN)算法的改进。本文提出了BERT+扩充文本+GCN的模型结构,算法思想是融合了外部知识的短文本通过预训练的BERT模型获取含上下文语义信息的特征向量并嵌入到构建的文本图中,使用能够对任意图进行处理的图卷积神经网络(GCN)实现文本转换为文档图的分类。然后通过实验验证了融合外部特征与使用词向量对文本图的节点特征进行扩充,能够有效提升图分类效果。最后与基线模型例如BERT模型和Transformer模型等对比分析,该模型使得短文本分类的准确率更佳,并对文本分类数据进行了可视化展示。(4)基于Bi-LSTM端到端模型的图卷积(GCN)算法的改进。本文提出了Bi-LSTM+扩充文本+GCN的模型结构,算法思想是在扩充文本的基础上利用Bi-LSTM优先考虑单词顺序之间的上下文语义特征结合图卷积神经网络(GCN)对长距离特征的依赖关系进行捕获。然后通过实验证明该模型在短文本分类中比Bi-LSTM和Text GCN等基线模型的准确率更高并且时间复杂度相对较低。最后对该模型的文本分类数据进行了可视化展示。
王敬[4](2021)在《文本分类中SVM核函数的探讨》文中研究说明SVM作为常用的分类算法之一,通过引入核技术,有效地解决了非线性分类问题。众所周知,不同核函数确定的非线性变换与特征空间也不同。因此,核函数是影响SVM分类性能的关键因素之一。但是,对于如何选择合适的核函数,目前并没有完整的理论基础来指导完成。因此,选择合适的核函数是进一步发展SVM的关键点。在SVM中较为常用的核函数有:线性核、多项式核、RBF核、Sigmoid核。其中,线性核、多项式核、Sigmoid核属于全局核函数,RBF核属于局部核函数。本文主要对以上核函数在文本分类中的表现进行探讨,主要工作如下:首先,本文对CHI、MI、TF-IDF在文本分类中的特征提取性能进行分析与实验,实验结果显示:相比于CHI与MI,TF-IDF的特征提取性能较好。其次,本文分别对四种常见核函数的文本分类性能进行实验分析,实验结果表明:当Sigmoid核函数的参数取值满足对称且半正定条件时,它的分类性能与RBF核的文本分类性能相差不大,并优于其他两种常用核函数,表现出较好的分类性能。最后,基于研究者提出的组合核思想,本文提出:由满足对称且半正定条件的Sigmoid核与RBF核构建的新组合核函数,实验结果显示:新组合核函数提高了SVM的文本分类性能。
陈文实[5](2021)在《基于主题特征的多标签文本分类方法研究》文中研究指明文本的自动分类是指按照预先定义的标签类别,通过一定的学习机制,在对带有类别标签的训练文本进行学习的基础上,给未知文本分配一个或多个类别标签的过程,然而随着电子文档信息量的急剧增长,文本内容的多样化,确定文本的单标签分类技术已经难以满足人们对文本分类的需求,多标签文本分类已经成为自然语言处理中重要的研究课题。本文拟进一步深化和拓展面向文本分类的学习方法的研究工作,重点从多标签文本分类的特征提取、多标签文本分类方法以及多标签文本分类结果的不确定性三个方面研究多标签文本分类问题。特征提取是多标签文本分类研究中一项基础性和关键性的工作。针对传统的文本特征提取方法在难以获得高质量的标注文本的情况下,无法有效地解决多标签文本分类问题,本文提出了一种将无监督学习和有监督学习相结合的深度主题特征提取模型,该模型融合了文档集中的全局信息特征和文档内部的上下文信息特征,将文档的全局特征表示与局部特征表示相结合,实现多标签文本分类的特征提取,有效地提高了多标签文本分类的性能。在多标签文本分类任务中,标签与标签之间不是相互独立的,通常具有较强的相关性,随着标签类别数目的增加,输出空间的大小通常会呈现指数增长,严重地影响着多标签文本分类的性能。针对多标签文本分类任务中的标签相关性问题,本文提出一种基于编码解码器与深度主题特征提取的多标签文本分类方法,该方法在编码解码器模型的基础上,编码器网络采用深度主题特征提取模型得到具有文本深层语义特征的语义编码向量,解码器网络将多标签文本分类的任务看作序列生成的过程,并引入了注意力机制,突出关键输入对输出的影响,有效改善了多标签文本分类的标签相关性的问题。深度学习模型在多标签文本分类任务中已经取得了十分优异的成绩,然而文本数据中的噪声和标签缺失、训练数据与测试数据间的分布差异等问题,使得多标签文本分类任务中存在普遍的不确定性。针对多标签文本分类任务中不确定性的问题,本文提出基于深度主题特征的多标签文本分类不确定性度量模型,从数据和模型两个方面建模多标签文本分类任务,能够给出多标签文本分类任务的不确定性度量,有效处理多标签文本分类的不确定性问题。
段丹丹[6](2020)在《文本分类中特征降维方法的研究与应用》文中提出随着信息化时代的到来,电子文本数量呈现高速增长的趋势,中文文本分类技术的需求与日俱增。在文本分类的过程中,文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题。对于此类问题,本文在主流的特征降维算法基础上进行改进,并将其应用于新闻文本领域中,主要工作如下:1.针对传统特征降维方法的不足,提出了一种基于CHI(Chi-square Statistics)和PCA(Principal Component Analysis)的混合特征降维方法(CHI-PCA)。该方法使用CHI方法初筛出类别特征词,之后使用PCA方法进行二次降维,进一步精简特征空间。经过与传统特征降维方法DF、IG、CHI和PCA方法的对比实验,结果显示,在不同特征维度下,所提方法在Softmax回归以及SVM分类器下的整体分类效果均优于对比方法,F1宏平均值最高提升了2.7%,在每个类别上的分类效果也是可观的,F1值最高可达97.2%。实验结果表明了CHI-PCA方法的有效性,在降低特征维度的同时,还提高了分类性能。2.针对短文本因受字数限制而在分类中存在的特征稀疏问题,提出了一种基于BERT(Bidirectional Encoder Representations from Transformers)模型的短文本分类算法。该算法使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,结合Softmax回归分类算法进行分类,改进了传统特征降维方法不能从语义层面上进行建模的缺点,且可以解决一词多义问题。通过与基于Text CNN模型的短文本分类算法的对比实验,结果显示本文算法在测试集上的整体F1值最高可达93%,高出基于Text CNN模型算法6%。实验结果表明了所提方法的有效性,提高了短文本的分类性能。3.针对中文文本分类技术在新闻领域的应用,提出了一种基于多模型融合的新闻文本分类算法。该算法基于以上研究,在学习阶段分别使用CHI-PCA方法结合SVM分类算法对新闻内容进行学习,以及使用BERT模型结合Softmax回归算法对新闻标题进行学习,随后在分类阶段将学习到的两个模型采用概率值最大的策略进行融合。通过在真实新闻语料库上的实验,结果显示模型融合后的分类效果优于融合前,表明了所提方法的有效性。
韩霜[7](2020)在《基于术语离散因子的特征选择算法在文本分类中的研究》文中提出随着社会的发展,如今到处充满着互联网“大数据”的气息,这就使得电子文本数据信息变得越来越多。对于这些大量的文本数据信息如何处理,并从中快速、准确地找到有用的信息是当前需要解决的问题。文本分类技术的出现可以解决这一问题,但是数据维度过高会使文本分类的效率降低。特征选择作为文本分类技术最关紧要的步骤,它可以降低特征空间的维度,并提高文本分类的精确率。因此,本论文主要是对文本分类中的特征选择算法进行研究。论文主要是对文本分类的详细过程以及相关的技术进行了阐述,其中主要包含文本预处理、文本表示模型、用于降低特征空间维度的特征选择算法、以及用于文本分类的分类算法和用于评估其分类性能的评价指标,并对每一个步骤中的方法和模型都依次进行了详细地介绍。对于数据维度过高的问题,论文深入地分析、研究了相关的特征选择算法,并根据术语的分布情况提出了两个特征选择算法。实验结果证明,这两个算法可以有效提高文本分类的精确性。(1)提出了一种基于术语正率的特征选择算法(MTFS)。根据分析比较常用的特征选择算法,可以发现大多数特征选择算法都没有综合地考虑过文档频率、词频和术语在类中及类间的分布问题。根据此发现本文所提出的MTFS算法综合考虑了术语的分布情况以及在类中存在高度稀疏术语的问题。在实验中采用几种经典的特征选择算法与其作对比,并在四个常见的数据集上分别进行了实验以及验证。根据实验的结果可以看出,MTFS算法相对于其他算法来说其效果是比较好的。(2)提出了一个特征选择算法是基于词频重要度的(TIFS)。通过对比之前的特征选择算法发现,很多算法都忽略了一个重要的因素,那就是词频。所谓词频,就是指特征词在数据集的文本中出现的次数。词频对于在文本分类中进行特征选择时是很重要。此算法充分考虑了词频对于特征选择算法的重要性,并引入了词频重要因子和类间聚集因子,来衡量特征选择算法的有效性。在实验阶段,主要采用NB分类器和SVM分类器在四种数据集上将TIFS算法和五种优秀的特征选择算法进行对比。依据实验结果表明,TIFS算法能够使得文本分类的性能得以提高,它是一个不错的并且有效的特征选择算法。
王爽[8](2020)在《基于机器学习的自动文本分类方法研究》文中提出中文文本文档的分类一直被认为是NLP和ML领域中的重要研究主题。数据库中原有数据会不断积累,中文文档的数量每天都在急剧增加。而现有中文文本分类技术大多缺乏比较全面的特征选取方法,或者说算法中的分类指标过于片面。因此,对此类中文文档分类算法进行方法改进是提高中文文本分类技术实用性和有效性的一种解决办法。本文以文本分类为依托,重点研究文本分类系统中的关键环节。具体从特征降维以及分类器算法环节等方面入手展开了研究:首先在特征降维环节中,根据卡方(CHI)统计算法中存在词项的出现频率与类别互相关问题以及互信息(MI)算法存在没有考虑到词项在文本中的出现频率,使得倾向于选择一些低频特征词的问题,通过同时引入了词项的词频因子与调节因子分别提出改进,形成了一种理论效果优于卡方统计和互信息的新算法即CHMI算法;目前TF-IDF权值计算方法常用于特征降维环节并对文本内容进行特征词选取。针对TF-IDF算法在计算中忽略了特征词的类间分布关系这一缺陷,本文提出了采用卡方统计进行算法结合并形成一种TF-CHI特征选取算法;XGBoost作为一种机器学习算法可用于解决多分类问题,使用XGBoost算法也可以得到更精确的分类结果。本文针对XGBoost算法在中文文本分类技术应用中存在的方法效率较低或者处理高维度特征词比较困难等问题,提出在分类流程中首先利用TF-IDF算法进行特征词的预先筛选。最后形成一种基于XGBoost算法并与TF-IDF算法相结合的TF-XGB改进的特征选取方法。最后在分类算法环节,基于支持向量机的算法结果常常出现学习能力与泛化能力之间的强弱矛盾。本文首先将核函数按照全局核函数以及局部核函数的角度进行分类研究,根据全局核函数普遍存在的一种弱学习能力而局部核函数普遍存在一种弱泛化能力的问题,通过实验验证提出了一种基于全局核和局部核的混合核函数,具体是一种采用线性核与高斯核进行线性组合的混合核函数。
赵博文[9](2020)在《基于朴素贝叶斯方法的文本分类算法研究》文中研究表明近些年来,信息技术发展迅猛,互联网用户步入了一个崭新的时代,海量数据也为用户带来了前所未有的体验。虽然用户可以检索更多的信息,满足更广泛的需求,但科技的进步往往伴随着一些新问题的衍生,大量的原始数据是杂乱无章的,这为用户带来了很大的不便,所以文本分类技术应运而生。通过文本分类技术可以根据文本中包含的特征词将文本自动分类,在信息检索、自然语言处理等领域得到了广泛的应用。目前,已经有很多方法应用于文本分类,比如朴素贝叶斯、KNN、决策树、SVM等等,但如何选择高效精准的方法使得文本分类达到更好的效果是当下亟待解决的问题。本文主要围绕朴素贝叶斯算法进行研究,并提出了两种改进朴素贝叶斯算法:一种是基于泊松分布的加权朴素贝叶斯文本分类算法,另一种是基于特征深度加权的朴素贝叶斯树文本分类算法。本文进行的主要工作如下:(1)介绍了文本分类的研究背景和发展现状,阐述了文本分类的定义,详细介绍了文本分类的具体流程以及几种经典分类器的算法原理和优缺点。(2)提出了一种基于泊松分布的加权朴素贝叶斯文本分类算法,改进朴素贝叶斯算法在文本分类中精度不足的问题。首先将泊松随机变量引入朴素贝叶斯的推导过程,然后通过信息增益率对文本特征词进行加权处理,削弱了属性独立性假设对分类准确率的影响。最后在两组经典数据集20-newsgroups和搜狗新闻数据集的实验表明,该方法与KNN、SVM等其它几种算法相比在准确率、召回率、F1值上得到了很大的改善,在保证执行效率的同时提升了分类精度。(3)提出了一种基于特征深度加权的朴素贝叶斯文本分类算法,进一步改进朴素贝叶斯算法的文本分类准确率。通过将决策树算法和朴素贝叶斯算法结合的混合模型,充分利用了朴素贝叶斯在小数据集上分类表现更好的特点,首先构建决策树对大数据集进行逐层筛选,然后在决策树的叶子节点上针对少量数据构建朴素贝叶斯模型,并对朴素贝叶斯算法进行基于特征出现在决策树中深度的加权处理,既保证了数据的完整性,同时削弱了属性独立性假设的影响。最后在20-newsgroups和搜狗新闻数据集上的实验结果表明,该方法相比朴素贝叶斯、决策树、SVM等几种其它算法大大提升了文本分类准确率,且执行时间和朴素贝叶斯、决策树相关算法保持同等水平,验证了该方法的有效性。
王仪斌[10](2020)在《基于深度学习的新闻文本分类与应用》文中研究指明新闻文本信息是我们生活中接触较广泛的一种文本类信息,也是人们了解社会发展的重要手段之一。一方面,人们在进行新闻文本信息浏览,寻找感兴趣的新闻类别时,可能会掺杂其他类,用文本分类技术正确划分新闻类别,可节省用户获取信息的时间;另一方面,互联网公司可对新闻文本进行类别的划分,把不同类别放在不同类别库,根据用户需要进行自动化推荐,节省人力物力,提高效率。深度学习方法在自然语言处理领域的应用越来越广泛。本文利用深度学习的强大优势,将其应用在新闻文本分类领域,具体内容包括:(1)梳理了文本分类的基本流程,分析比较常用的文本分类算法,包括传统机器学习和深度学习算法。(2)针对传统机器学习算法特征工程繁琐的问题,包括文本预处理,文本表示,特征选择等步骤,这极大地增加了分类的工作量;本文提出了基于注意力机制的Text CNN深度学习模型。首先,选取Text CNN作为基础分类模型。然后,卷积层使用多尺度卷积核,池化层使用2-max pooling代替max pooling,同时增加平均池化。最后,在池化层后加入注意力机制,对2-max pooling和平均池化这两种池化得到的深层特征文本进行特征精炼,给予两种池化后特征相应的权重分配,从而把注意力放在那些更能代表文本特征的信息中,提高分类效率。(3)针对Text CNN模型在分类中对上下文信息关注不足的问题。首先,选取LSTM作为新闻文本分类模型,LSTM模型可以通过隐藏层的状态信息来处理上下文特征信息。然后,再通过Attention-Text CNN和LSTM融合,在一定程度上集合两者优势,来构建融合Attention-Text CNN和LSTM的新闻分类模型。最后,在新闻文本数据集上,通过对比实验可以看出,融合模型准确率高于融合前的Attention-Text CNN、LSTM模型,最终达到97.81%。(4)设计并且实现一个WEB端的新闻分类系统,将融合模型嵌入到新闻分类系统中。系统通过多种方式文本输入,输入的新闻文本信息在Attention-Text CNN和LSTM的融合模型中实现分类,得到正确的分类结果,并对结果进行可视化展示,测试完成后,各模块的实现都符合系统设计的要求。
二、文本分类中的特征选取算法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、文本分类中的特征选取算法(论文提纲范文)
(1)决策树的集成选择及在不平衡文本分类中的应用(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究综述 |
1.3 本文研究内容 |
1.4 论文内容组织 |
2 决策树集成的生成和预测方法 |
2.1 决策树算法 |
2.2 Bagging算法 |
2.3 AdaBoost算法 |
2.4 KFHE算法 |
2.5 本章小结 |
3 基于加权Jaccard距离的决策树集成选择 |
3.1 决策树的多样性度量相关工作 |
3.2 决策树之间的加权Jaccard距离 |
3.3 加权Jaccard距离的性质 |
3.4 基于聚类的决策树集成选择 |
3.5 实验与分析 |
3.6 本章小结 |
4 基于有序的卡尔曼滤波集成选择方法 |
4.1 对KFHE的分析 |
4.2 基于有序的卡尔曼滤波集成选择 |
4.3 实验与分析 |
4.4 本章小结 |
5 决策树的集成选择在不平衡文本分类中的应用 |
5.1 文本分类 |
5.2 决策树集成选择在不平衡文本分类中的应用 |
5.3 实验 |
5.4 本章小结 |
6 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
攻读硕士期间发表的论文 |
附录一 表目录 |
附录二 图目录 |
(2)基于图卷积神经网络的文本分类方法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 研究意义 |
1.3 国内外研究现状 |
1.3.1 文本表示方法 |
1.3.2 传统文本分类方法 |
1.3.3 深度学习文本分类方法 |
1.4 主要工作 |
1.5 论文组织结构 |
第二章 相关理论介绍 |
2.1 引言 |
2.2 文本分类流程介绍 |
2.2.1 预处理 |
2.2.2 文本表示 |
2.2.3 特征提取 |
2.2.4 分类模型 |
2.3 文本分类中的神经网络模型 |
2.3.1 卷积神经网络 |
2.3.2 循环神经网络 |
2.3.3 快速文本分类器 |
2.3.4 分层注意力网络 |
2.3.5 图卷积神经网络 |
2.4 文本数据增强方法 |
2.4.1 简单数据增强方法 |
2.4.2 回译 |
2.5 数据倾斜 |
2.6 本章小结 |
第三章 基于改进的Cluster GCN的文本分类方法 |
3.1 文本特征的表示方法 |
3.2 邻接矩阵处理方法 |
3.3 聚合图卷积神经网络 |
3.4 实验 |
3.4.1 实验数据集 |
3.4.2 对比算法 |
3.4.3 参数设置 |
3.4.4 测试性能 |
3.4.5 消融实验 |
3.5 小结 |
第四章 基于改进的Fast GCN的文本分类方法 |
4.1 基于全局统计的文本表示方法 |
4.2 快速图卷积神经网络 |
4.3 实验 |
4.3.1 实验数据集 |
4.3.2 对比算法 |
4.3.3 参数设置 |
4.3.4 实验性能 |
4.3.5 消融实验 |
4.4 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
攻读硕士期间取得的科研成果 |
致谢 |
(3)基于图神经网络和外部特征融合的短文本分类算法研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 短文本分类研究现状 |
1.2.2 图神经网络研究现状 |
1.3 本文的主要工作 |
1.4 本文的组织结构 |
第2章 相关技术综述 |
2.1 文本预处理 |
2.1.1 去停用词 |
2.1.2 词性标注 |
2.1.3 外部知识库特征扩充 |
2.2 图神经网络综述 |
2.2.1 图结构 |
2.2.2 GCN图卷积神经网络 |
2.2.3 图神经网络的应用方向 |
2.3 短文本分类综述 |
2.3.1 传统的文本分类 |
2.3.2 基于深度学习的文本分类 |
2.3.3 基于图神经网络的文本分类 |
2.4 本章小结 |
第3章 基于图神经网络的文本分类建模 |
3.1 文本图的构建 |
3.1.1 文本与单词的图构建 |
3.1.2 顺序滑动窗口 |
3.1.3 特征节点扩充 |
3.2 基于文本图的分类模型 |
3.2.1 结合BERT的分类模型 |
3.2.2 基于Bi-LSTM改进的分类模型 |
3.3 本章小结 |
第4章 融合外部特征的短文本图分类算法研究 |
4.1 实验环境 |
4.2 实验数据集描述 |
4.3 模型性能评估指标 |
4.4 BERT模型+GCN分类结果 |
4.4.1 算法描述 |
4.4.2 实验过程 |
4.4.3 实验结果以及分析 |
4.5 BERT模型+扩充文本特征+GCN分类结果 |
4.5.1 短文本特征扩充 |
4.5.2 实验过程 |
4.5.3 实验结果以及分析 |
4.6 Bi-LSTM模型+扩充文本特征+GCN分类结果 |
4.6.1 算法描述 |
4.6.2 实验过程 |
4.6.3 实验结果以及分析 |
4.7 本章小结 |
第5章 实验结果对比分析 |
5.1 与其他基线模型对比 |
5.2 召回率比较 |
5.3 参数分析调节 |
5.4 文本数据可视化 |
5.5 本章小结 |
第6章 总结与展望 |
6.1 工作总结 |
6.2 工作展望 |
参考文献 |
作者简介及在学期间所取得的科研成果 |
致谢 |
(4)文本分类中SVM核函数的探讨(论文提纲范文)
中文摘要 |
Abstract |
第一章 绪论 |
1.1 背景意义 |
1.2 文献综述 |
1.3 研究内容 |
1.4 组织架构 |
第二章 相关理论基础 |
2.1 文本分类综述 |
2.2 文本分类蓝图 |
2.3 文本规范化处理 |
2.3.1 噪声清除 |
2.3.2 分词处理 |
2.3.3 停用词去除 |
2.3.4 文本向量化 |
2.4 特征选择 |
2.4.1 卡方统计量(CHI) |
2.4.2 互信息(MI) |
2.4.3 TF-IDF |
2.5 常用分类算法 |
2.5.1 朴素贝叶斯算法 |
2.5.2 支持向量机算法 |
2.6 分类性能评价指标 |
2.6.1 查准率 |
2.6.2 查全率 |
2.6.3 F值 |
第三章 核函数理论与研究 |
3.1 核函数 |
3.1.1 核函数理论 |
3.1.2 核函数性质 |
3.2 常用核函数 |
第四章 新的组合核函数理论与研究 |
4.1 核函数的分类 |
4.1.1 全局核函数 |
4.1.2 局部核函数 |
4.2 组合核函数 |
4.2.1 组合核函数的构建过程 |
4.2.2 组合核函数的参数优化 |
第五章 文本分类系统的实现与仿真分析 |
5.1 实验平台说明 |
5.1.1 硬件与软件情况 |
5.2 文本分类仿真系统的搭建 |
5.2.1 仿真实验数据集 |
5.2.2 文本规范化处理 |
5.2.3 特征选择 |
5.2.4 文本分类器的构造 |
5.3 实验结果分析 |
5.3.1 文本规范化处理结果 |
5.3.2 特征选择分类性能 |
5.3.3 单一核函数的分类性能 |
5.3.4 组合核函数的分类性能 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
(5)基于主题特征的多标签文本分类方法研究(论文提纲范文)
创新点摘要 |
摘要 |
ABSTRACT |
1 绪论 |
1.1 研究背景及意义 |
1.2 研究现状及进展 |
1.2.1 文本特征提取的研究现状 |
1.2.2 多标签文本分类的研究现状 |
1.2.3 贝叶斯神经网络与不确定性研究现状 |
1.3 研究目标和研究内容 |
1.3.1 研究目标 |
1.3.2 研究内容 |
1.4 论文组织结构 |
1.5 本章小结 |
2 相关的理论基础知识 |
2.1 机器学习概述 |
2.1.1 机器学习 |
2.1.2 深度学习 |
2.1.3 贝叶斯深度学习 |
2.2 文本特征提取 |
2.2.1 主题模型 |
2.2.2 循环神经网络 |
2.2.3 预训练模型BERT |
2.3 多标签文本分类 |
2.3.1 多标签文本分类技术 |
2.3.2 性能评价指标 |
2.4 本章小结 |
3 面向多标签文本分类的深度主题特征提取 |
3.1 问题的描述 |
3.2 深度主题特征提取模型 |
3.2.1 长短期记忆网络(LSTM) |
3.2.2 特征融合 |
3.2.3 模型的设计 |
3.3 实验 |
3.3.1 数据集的描述 |
3.3.2 实验对比方法 |
3.3.3 实验设置 |
3.3.4 实验结果和分析 |
3.4 本章小结 |
4 基于编码解码器与深度主题特征提取的多标签文本分类 |
4.1 问题的描述 |
4.2 基于编码解码器与深度主题特征提取的多标签文本分类模型 |
4.2.1 编码解码器网络 |
4.2.2 注意力机制 |
4.2.3 模型的设计 |
4.3 实验 |
4.3.1 数据集的描述 |
4.3.2 实验对比方法 |
4.3.3 实验设置 |
4.3.4 实验结果和分析 |
4.4 本章小结 |
5 基于深度主题特征的多标签文本分类不确定性研究 |
5.1 问题的描述 |
5.2 贝叶斯神经网络与不确定性 |
5.2.1 贝叶斯神经网络 |
5.2.2 不确定性 |
5.3 面向多标签文本分类的不确定性度量模型 |
5.3.1 偶然不确定性的度量 |
5.3.2 认知不确定性的度量 |
5.3.3 模型的设计 |
5.4 实验 |
5.4.1 数据集的描述 |
5.4.2 不确定性度量 |
5.4.3 实验对比方法 |
5.4.4 实验设置 |
5.4.5 实验结果和分析 |
5.5 本章小结 |
6 结论与展望 |
6.1 结论 |
6.2 展望 |
参考文献 |
作者简历及攻读博士学位期间的科研成果 |
致谢 |
(6)文本分类中特征降维方法的研究与应用(论文提纲范文)
摘要 |
abstract |
专业术语注释表 |
第一章 绪论 |
1.1 选题的背景与意义 |
1.2 国内外研究现状 |
1.3 研究内容与创新点 |
1.4 论文的组织结构 |
第二章 文本分类理论概述 |
2.1 文本分类定义 |
2.2 文本分类流程 |
2.3 短文本分类理论概述 |
2.4 新闻文本分类理论概述 |
2.5 本章小结 |
第三章 基于CHI-PCA的混合特征降维方法 |
3.1 基于CHI-PCA的混合特征降维方法 |
3.1.1 文本预处理 |
3.1.2 特征初选子集 |
3.1.3 特征再选子集 |
3.1.4 混合特征降维方法 |
3.2 实验分析 |
3.2.1 实验数据 |
3.2.2 实验过程与结果分析 |
3.3 本章小结 |
第四章 基于BERT的短文本分类算法 |
4.1 基于BERT的短文本分类算法 |
4.1.1 短文本预处理 |
4.1.2 BERT模型 |
4.1.3 短文本向量化 |
4.1.4 基于BERT的分类算法 |
4.2 实验分析 |
4.2.1 实验数据 |
4.2.2 实验过程 |
4.2.3 实验结果 |
4.3 本章小结 |
第五章 基于多模型融合的新闻文本分类算法 |
5.1 基于多模型融合的文本分类算法 |
5.1.1 学习阶段 |
5.1.2 分类阶段 |
5.2 实验分析 |
5.2.1 实验数据 |
5.2.2 实验过程与结果分析 |
5.3 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
附录1 程序清单 |
附录2 攻读硕士学位期间撰写的论文 |
致谢 |
(7)基于术语离散因子的特征选择算法在文本分类中的研究(论文提纲范文)
摘要 |
Abstract |
1 引言 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 论文内容及组织结构 |
1.3.1 论文研究内容 |
1.3.2 论文组织结构 |
2 相关理论知识 |
2.1 文本分类介绍 |
2.2 文本预处理 |
2.2.1 去除格式标记 |
2.2.2 去停用词 |
2.2.3 英文词干提取和词形还原 |
2.2.4 中文分词处理 |
2.3 文本表示模型 |
2.3.1 布尔模型 |
2.3.2 向量空间模型 |
2.3.3 概率模型 |
2.3.4 图空间模型 |
2.4 特征选择 |
2.5 分类算法 |
2.5.1 支持向量机算法 |
2.5.2 朴素贝叶斯算法 |
2.5.3 K近邻算法 |
2.5.4 Rocchio算法 |
2.6 评价指标 |
2.7 本章小结 |
3 基于术语正率的特征选择算法 |
3.1 MTFS算法 |
3.1.1 算法思想 |
3.1.2 算法步骤 |
3.2 实验设置 |
3.3 实验结果分析 |
3.3.1 20Newsgroups数据集 |
3.3.2 WebKB数据集 |
3.3.3 K1a数据集 |
3.3.4 K1b数据集 |
3.3.5 结果分析 |
3.4 本章小结 |
4 基于词频重要度的特征选择算法 |
4.1 TIFS算法 |
4.1.1 算法研究动机 |
4.1.2 算法实现 |
4.2 实验设置 |
4.3 实验结果与分析 |
4.3.1 Reuters-21578 数据集 |
4.3.2 20Newsgroups数据集 |
4.3.3 WAP数据集 |
4.3.4 RE1数据集 |
4.3.5 结果分析 |
4.4 本章小结 |
5 总结与展望 |
5.1 工作总结 |
5.2 工作展望 |
致谢 |
参考文献 |
攻读硕士学位期间主要研究成果 |
(8)基于机器学习的自动文本分类方法研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究工作的背景与意义 |
1.2 文本分类方法的研究现状 |
1.2.1 文本分类国外发展现状 |
1.2.2 文本分类国内发展现状 |
1.3 本论文的结构安排 |
第二章 文本分类基础 |
2.1 文本分类综述 |
2.1.1 文本分类的定义 |
2.1.2 文本分类的处理环节 |
2.2 文本数据预处理 |
2.2.1 文本标记的处理 |
2.2.2 文本分词的处理 |
2.2.3 去除停用词 |
2.3 文本表示 |
2.4 特征降维 |
2.4.1 常见的特征选取算法 |
2.4.2 常见的权值计算算法 |
2.5 常见文本分类算法 |
2.5.1 朴素贝叶斯算法 |
2.5.2 K近邻算法 |
2.5.3 决策树算法 |
2.5.4 支持向量机 |
2.5.5 卷积神经网络 |
2.6 本章小结 |
第三章 改进的特征选取方法 |
3.1 特征选取方法概述 |
3.2 CHI、MI的改进策略 |
3.2.1 卡方统计算法的改进 |
3.2.2 互信息算法的改进 |
3.2.3 改进的卡方-互信息统计算法 |
3.3 TF-IDF权值算法的改进策略 |
3.4 极端梯度提升算法的改进策略 |
3.5 实验与结果分析 |
3.5.1 实验评价标准 |
3.5.2 传统机器学习算法实验 |
3.5.3 改进的特征选取方法实验 |
3.6 本章小结 |
第四章 改进的支持向量机分类算法 |
4.1 支持向量机概述 |
4.2 核函数 |
4.2.1 全局核函数 |
4.2.2 局部核函数 |
4.3 核函数的改进 |
4.3.1 常用核函数 |
4.3.2 混合核函数的提出 |
4.4 实验与结果分析 |
4.4.1 混合核函数分类能力验证 |
4.4.2 混合核函数泛化能力验证 |
4.5 本章小结 |
第五章 全文总结 |
5.1 论文工作总结 |
5.2 存在的问题与展望 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
(9)基于朴素贝叶斯方法的文本分类算法研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 文本分类研究历史及现状 |
1.3 论文组织结构和主要内容 |
第2章 文本分类流程及相关分类模型 |
2.1 文本分类的流程 |
2.2 文本预处理 |
2.3 文本表示 |
2.4 特征处理 |
2.5 文本分类算法 |
2.5.1 K近邻 |
2.5.2 支持向量机 |
2.5.3 决策树 |
2.6 朴素贝叶斯相关模型 |
2.6.1 伯努利朴素贝叶斯算法 |
2.6.2 多项式朴素贝叶斯算法 |
2.6.3 补集朴素贝叶斯算法 |
2.6.4 朴素贝叶斯文本分类流程 |
2.6.5 两种朴素贝叶斯改进模型 |
2.7 本章小结 |
第3章 基于泊松分布的加权朴素贝叶斯文本分类算法 |
3.1 引言 |
3.2 朴素贝叶斯算法推导过程 |
3.3 改进朴素贝叶斯文本分类算法 |
3.3.1 引入泊松分布 |
3.3.2 信息增益率加权 |
3.3.3 改进算法步骤及描述 |
3.4 实验分析 |
3.4.1 数据集 |
3.4.2 分类性能评估 |
3.4.3 实验步骤和结果 |
3.5 本章小结 |
第4章 基于特征深度加权的朴素贝叶斯树文本分类算法 |
4.1 朴素贝叶斯模型 |
4.2 朴素贝叶斯树模型 |
4.3 改进朴素贝叶斯树文本分类算法 |
4.3.1 朴素贝叶斯树基本问题解决方法 |
4.3.2 叶子节点上朴素贝叶斯模型的构建 |
4.3.3 改进算法步骤及描述 |
4.4 实验分析 |
4.4.1 数据集和性能指标 |
4.4.2 实验步骤和结果 |
4.5 本章小结 |
第5章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
致谢 |
附录A 在校期间发表的学术论文与研究成果 |
(10)基于深度学习的新闻文本分类与应用(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 文本分类研究现状 |
1.2.2 深度学习研究现状 |
1.3 研究内容 |
1.4 论文组织结构 |
1.5 本章小结 |
2 相关技术介绍 |
2.1 文本分类关键技术 |
2.1.1 文本预处理 |
2.1.2 文本表示 |
2.1.3 特征选择 |
2.1.4 分类算法 |
2.2 深度学习关键技术 |
2.2.1 卷积神经网络 |
2.2.2 循环神经网络 |
2.2.3 评价标准 |
2.2.4 深度学习框架 |
2.3 本章小结 |
3 基于注意力机制的CNN新闻文本分类模型 |
3.1 基于注意力机制的CNN新闻文本分类模型 |
3.1.1 注意力机制 |
3.1.2 算法框架 |
3.2 实验与分析 |
3.2.1 实验环境与数据集 |
3.2.2 实验设计及实现 |
3.2.3 实验结果及分析 |
3.3 本章小结 |
4 融合Attention-Text CNN和LSTM的新闻文本分类模型 |
4.1 融合Attention-Text CNN和LSTM的新闻文本分类模型 |
4.1.1 模型融合 |
4.1.2 算法框架 |
4.2 实验与分析 |
4.2.1 实验环境与数据集 |
4.2.2 实验设计及实现 |
4.2.3 实验结果及分析 |
4.3 本章小结 |
5 新闻文本分类系统设计与实现 |
5.1 需求分析 |
5.2 概要设计 |
5.3 详细设计 |
5.3.1 爬虫模块 |
5.3.2 文件上传模块 |
5.3.3 分类模块 |
5.4 新闻文本分类系统实现 |
5.4.1 系统开发环境 |
5.4.2 爬虫模块实现 |
5.4.3 文件上传模块实现 |
5.4.4 分类模块实现 |
5.5 本章小结 |
6 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
四、文本分类中的特征选取算法(论文参考文献)
- [1]决策树的集成选择及在不平衡文本分类中的应用[D]. 于凯. 烟台大学, 2021(09)
- [2]基于图卷积神经网络的文本分类方法研究[D]. 彭博. 广西师范大学, 2021(09)
- [3]基于图神经网络和外部特征融合的短文本分类算法研究[D]. 闫娟. 吉林大学, 2021(01)
- [4]文本分类中SVM核函数的探讨[D]. 王敬. 兰州大学, 2021(02)
- [5]基于主题特征的多标签文本分类方法研究[D]. 陈文实. 大连海事大学, 2021(04)
- [6]文本分类中特征降维方法的研究与应用[D]. 段丹丹. 南京邮电大学, 2020(02)
- [7]基于术语离散因子的特征选择算法在文本分类中的研究[D]. 韩霜. 西安理工大学, 2020(01)
- [8]基于机器学习的自动文本分类方法研究[D]. 王爽. 电子科技大学, 2020(07)
- [9]基于朴素贝叶斯方法的文本分类算法研究[D]. 赵博文. 湘潭大学, 2020(02)
- [10]基于深度学习的新闻文本分类与应用[D]. 王仪斌. 重庆师范大学, 2020(05)