统计和数据挖掘_火龙果改写

一、统计学与数据挖掘（论文文献综述）

于珺^[1]（2020）在《基于数据挖掘技术研究庄礼兴教授调神针法临床应用规律》文中指出目的:现代,心理健康问题造成的疾病负担在世界疾病负担中占据了很大一部分,社会高速发展的进程中,新的精神心理问题也不断产生。心理不健康状态人群包含相当数量的心身疾病或身心疾病患者,涉及人群广泛,但现有治疗方法相对局限于药物治疗范畴,治疗方法的有限性呼吁人们加强相关研究。除药物治疗外,针灸调神成为国内治疗心身疾病以及身心疾病的一项重要手段,近年来,针灸调神也逐渐成为中医学界临床、理论研究的一大热点。庄礼兴教授在靳三针疗法治神思想的基础上提出的调神针法,经过多年临床实践对神志病、心身疾病及身心疾病有良好的疗效。本文旨在借助数据挖掘方法,通过对庄礼兴教授门诊病历的分析,探索调神针法的病种、临床用穴等方面的规律,以期为临床工作者使用调神针法提供参考。方法:通过拍照、笔记的方式收集庄礼兴教授门诊接受针灸治疗患者的病历,根据纳入、排除标准对所有病历进行初步筛选。将符合纳入标准的门诊病历信息录入计算机,构建原始资料数据库,原始数据库内容包括:患者一般信息、诊断、症状、体征、辅助检查、针灸处方等信息。对数据进行规范化处理,并将所有病历按照未使用调神针法、调神为主、调神为辅分类并标记调神针法使用情况。根据下一步数据挖掘所需的数据类型将规范化处理之后的原始数据库划分为附有调神针法使用情况的一般信息数据库、诊断数据库、症状-体征-辅助检查数据库、针灸处方数据库。对纳入本研究的病历的数据挖掘步骤如下:（1）使用SPSS Statistics对患者一般信息、是否使用调神针法、调神主辅情况、中西医诊断、症状、体征、辅助检查、既往史、针灸处方等进行频数分析,以了解纳入病历的整体情况,并初步观察调神针法临床使用的整体情况。（2）使用SPSS Statistics对针刺取穴进行聚类分析,观察取穴的大致分组情况,并进一步观察调神为主、调神为辅病历针刺取穴的分组情况。（3）使用SPSS Modeler制作针刺取穴的网状图以观察取穴之间的相关情况,并对中西医诊断、针灸处方、症状、体征、辅助检查等与调神针法使用情况及针刺取穴进行关联规则分析,进一步观察这些要素之间的具体相关程度。中西医诊断与调神针法使用情况的频数分析、关联规则分析结果有助于观察诊断对调神针法使用情况的影响;针刺取穴的频数分析、网状图及关联规则分析结果,有助于观察针刺取穴在调神为主、为辅病历中的使用规律。（4）使用SPSS Statistics对症状、体征、辅助检查与是否使用调神针法、调神为主或调神为辅进行决策树分析,以观察影响调神针法使用情况的具有较明显分辨力的因素。（5）在对症状的频数分析基础上,使用SPSS Statistics对频数高的前28个症状进行因子分析,观察具有代表性的症状公因子,总结每个症状公因子可能涉及的脏腑、经络,并据此探讨症状公因子提示的病机。结果:从频数分析可知,符合纳入标准的病历共527例,使用调神针法的病历共221例,占病历总体的41.9%。调神为主或调神为辅病历在性别上的分布没有明显区别,但在不同年龄段中性别上的分布存在差异;调神病历数量在各月和各节气中也有涨落变化,但影响因素尚不明确。诊断方面,病历总体共涉及117个西医诊断,调神病历涉及其中69个,全部病历均为调神病历的西医诊断有失眠、运动障碍、癫痫、小儿抽动障碍等共48个,调神和非调神病历兼有的西医诊断有颈椎病、腰痛、颈痛、特发性面神经麻痹等共21个;病历总体共涉及中医诊断45个,调神病历涉及的中医诊断共37个;所有病历都为调神病历的中医诊断有不寐、颤证、郁证、痫证等共20个,调神和非调神病历兼有的西医诊断有腰痹、项痹、痹症、面瘫病等共17个。现病史方面,主诉持续时间为12个月时调神针法的病历数量更多;症状、体征方面,失眠、头晕、头痛等共34个症状或体征在调神病历中的频数较高,失眠、纳差、入睡困难在调神为主的病历中出现频数较高;舌象和脉象在是否使用调神针法和调神为主或为辅病历中没有表现明显的倾向。针灸处方方面,调神病历中以毫针针刺为主要治疗方法,还包括穴位埋线、耳穴、皮肤针等治疗方法;全部取穴中,四神针、印堂、神庭等调神为主的取穴和头部督脉排针表现出较高频次,是调神主要使用的取穴;其他毫针针刺取穴中督脉腧穴使用频数最高。配合使用耳穴疗法的病历约占调神病历整体的43.4%,使用频数较高的耳穴为肝、交感、心、缘中、肾、神门、皮质下。可见并非所有就诊患者都有使用调神针法的必要性,且调神为主与调神为辅病历在一般信息、诊断、现病史等方面各有特点,调神针法以毫针针刺为主要治疗方法,酌情配合其他方法。调神病历的97个取穴可聚类为3个大类:C1包含取穴较复杂,可大致分为治疗面瘫病等面部疾病的取穴、百会和后顶以及其他77个取穴;C2包含百劳、颈阿是、头部督脉排针、晕听区、风池,是治疗以颈肩部经气不利为主要病机的疾病常用的取穴;C3包含申脉、照海、神庭、印堂、三阴交、四关、四神针,是调神为主病历的主要取穴。可见,调神为主的取穴与头部督脉排针在系统聚类分析中分属于不同类。从关联规则分析可知西医诊断为癫痫、运动障碍、失眠的病历和中医诊断为痫证、郁证、颤证、不寐的病历必然使用调神针法;西医诊断为围绝经期综合征、疲劳综合征、抑郁症、帕金森病、儿童抽动障碍、癫痫、运动障碍和中医诊断为瘈疭、痫证、郁证的病历必然使用调神为主的取穴;症状与取穴方面,调神为主的取穴与痴呆、耳聋、耳鸣、腹痛、关节痛等12个症状存在一定相关性,与痴呆、关节痛、面痛、心悸的相关程度较高;头部督脉排针与痴呆、颈痛、失眠、头痛、心悸、足痛症状存在一定相关性。调神针法取穴之间的网状图表明调神为主的取穴之间联系紧密度高,而头部督脉排针与调神为主取穴的联系程度低,这与系统聚类结果一致,取穴之间的关联规则分析也表明,调神为主的取穴与头部督脉排针同时使用的可能性小,两组取穴的配穴情况区别明显。结合调神病历取穴的频数分析和多阶关联规则分析可知,调神为主的取穴中四神针、印堂、神庭是最核心的取穴,三阴交、四关、申脉、照海是较常用的配穴,神门、内关、百会、素髎、水沟均是较少使用的配穴,头部督脉排针在调神为辅的病历中发挥调神的作用。从对症状、体征、辅助检查、既往史的决策树分析可知,影响是否使用调神针法的节点有:头晕、入睡困难、头痛、纳差、上肢震颤、颈痛、耳鸣,共形成9条决策树路线;影响使用调神为主或为辅取穴的节点有:查体、辅检阳性、入睡困难、瞤目频繁、头痛,共形成5条决策树路线;区别使用调神为辅或不使用调神针法的主要节点有:头晕、神疲、耳鸣、头痛、言语不利、面痛、大便溏、有相关既往史,共形成9条决策树路线。多数决策树路线具有参考价值,但决策树总体拟合度还有提升空间。从对症状的因子分析可见,28个症状可提取为15个公因子,公因子提示调神病历中具有共性的病机在脏腑方面与心（脑）、肝、胆、脾、肾有关,在经络方面主要与督脉、太阳经、少阳经有关。结论:调神针法可划分为调神为主的治疗思路和调神为辅的治疗思路。调神为主的治疗思路主要适用于神志病及心身疾病的治疗,调神为辅的治疗思路适用于身心疾病的治疗。调神为主与调神为辅的治疗思路用穴有区别:调神为主治疗思路用穴以四神针、神庭、印堂为核心取穴,以三阴交、四关、申脉、照海、内关、神门、百会、素髎、水沟为加减取穴;调神为辅治疗思路的用穴中,头部督脉排针是主要起到调神作用的取穴,配合治疗躯体原发病的其他取穴使用。

陈泽慧^[2]（2020）在《慢性萎缩性胃炎癌前病变证候要素数据挖掘及益气化瘀解毒法的干预机制研究》文中研究说明慢性萎缩性胃炎是以胃黏膜固有腺体减少并常伴肠上皮化生、异型增生为病理特点的常见消化系统疾病,在非干预条件下历经胃癌前病变过程可存在胃癌发生的风险趋势,因此对慢性萎缩性胃炎及胃癌前病变的早期诊断、干预可阻断其向胃癌发展,对于胃癌的防控具有积极作用。多项研究表明,中医药在辨证论治慢性萎缩性胃炎及胃癌前病变方面具有良好疗效,围绕本病进行的证候学相关深入研究有助于挖掘关键病机、确立临床治疗的核心靶点,从而为治则治法的提出奠定临床理论基础。经团队长期临床及实验研究总结,认为胃癌前病变的病机为本虚标实,本虚以气虚为主,标实为毒瘀互结,由此提出以益气化瘀解毒法为治疗胃癌前病变的基本治则,并在临床观察及动物实验中证实该法可逆转胃癌前病变的有效性。本研究主要分为临床研究与实验研究两部分,临床研究基于横断面收集慢性萎缩性胃炎患者相关信息建立数据库,运用数据挖掘方法探究慢性萎缩性胃炎证候要素分布、证候要素间关联、四诊信息间组合等隐匿规律,并提取关键证候要素后,从临床症状程度、病理征象及心理-社会功能等多方面评价其在本病中的重要作用,为本病核心治疗原则的确立提供理论基础。实验研究基于前期临床观察与动物实验,进一步验证以益气化瘀解毒法为组方的消痞颗粒对胃癌前病变大鼠的一般情况、宏观表征及胃黏膜病理改变的干预情况,并在分子水平上探讨其逆转胃癌前病变基因蛋白信号通路轴的作用机制。第一部分临床研究目的:基于数据挖掘探讨慢性萎缩性胃炎证候要素相关规律,深入研究关键证候要素在本病中的影响作用。方法:临床采集慢性萎缩性胃炎患者中医四诊信息、胃镜及病理检查报告,构建慢性萎缩性胃炎数据库;采用因子分析、对应分析、隐结构模型、关联规则算法、类神经网络建模的数据挖掘方法分析慢性萎缩性胃炎证候要素分布情况、证候要素间关联性、慢性萎缩性胃炎核心症状以及重要病理改变与证候要素间相关性,并提取关键证候要素。根据关键证候要素的有无将慢性萎缩性胃炎患者进行分组,探究关键证候要素在临床症状程度、病理征象及心理-社会功能等方面的影响作用,确立本病核心病机及治则治法。结果:1.基于数据挖掘的慢性萎缩性胃炎证候要素分布规律研究（1）因子分析的证候要素提取显示,慢性萎缩性胃炎证候要素包括气虚、湿、热、血瘀、气滞、阴虚、阳虚,证候要素分布由多至少依次为湿>气滞>热>血瘀>气虚>阴虚>阳虚（P<0.05）。（2）对应分析显示,两两证候要素中,气虚与气滞、气虚与阳虚、湿与热、血瘀与气滞、血瘀与阳虚、气滞与阳虚的关联性较高。（3）关联规则分析显示,将出现频率为10%以上的59个四诊信息条目通过Apriori算法得到的慢性萎缩性胃炎核心四诊信息包括胃刺痛、口臭、纳差、咽部异物感等共12个,涵盖证候要素血瘀、热、湿、气滞、阳虚与气虚。（4）隐结构模型分析的证候要素提取显示,慢性萎缩性胃炎证候要素包括气虚、湿、热、血瘀、气滞、阳虚。（5）类神经网络分析预测证候要素湿、血瘀、气虚对重要病理改变异型增生的影响较大。2.慢性萎缩性胃炎重要证候要素湿与血瘀的影响探讨（1）在胃黏膜病理情况分布上,证候要素湿对Hp感染呈正相关（P<0.05）;证候要素血瘀对异型增生呈正相关（P<0.05）。（2）在胃黏膜病理积分分布上,四分组各组间Hp积分、病理总积分存在统计学差异（P<0.05）。（3）在症状积分分布上,四分组各组间主要症状积分、症状总积分存在统计学差异（P<0.05）。（4）在慢性胃炎PRO量表积分分布上,四分组各组间生理领域积分、PRO总积分存在统计学差异（P<0.05）;各组间在独立性领域、心理领域、社会环境领域以及生活质量评分方面无统计学差异（P>0.05）。（5）四分组各组间不同病程阶段病例分布存在显着统计学差异（P<0.05）,从萎缩阶段到异型增生阶段纯瘀组患病例数呈上升趋势,纯湿组患病例数呈下降趋势,非湿非瘀组与湿加瘀组患病例数基本持平,但组别与病程阶段不存在相关性（P>0.05）。（6）异型增生积分对于证候要素湿的预测影响较大,异型增生程度较轻,则湿存在的可能性较大;异型增生积分、肠化积分与活动性积分对于证候要素血瘀的预测影响较大,异型增生程度较重且肠化程度相对较轻,则血瘀存在的可能性较大。结论:慢性萎缩性胃炎证候要素主要为气虚、湿、热、血瘀、气滞、阴虚、阳虚,其中气虚是贯穿整个病程的基本证候要素,湿与血瘀对病情程度及进展有重要作用;针对气虚为本,毒瘀致变的核心病机所提出益气化瘀解毒法体现了对慢性萎缩性胃炎及胃癌前病变关键证候要素靶点的囊括,为其临床逆转胃癌前病变、预防胃癌的有效性提供了证候学依据。第二部分实验研究目的:建立胃癌前病变大鼠实验模型,探讨益气化瘀解毒法对该模型大鼠一般情况、宏观表征及胃黏膜病理变化的干预情况,进一步探讨益气化瘀解毒法对胃癌前病变大鼠miR-21-PTEN-PI3K/AKT信号通路的影响。方法:70只SPF级健康雄性Wistar大鼠随机分为空白组10只,模型组60只。空白组给予SPF级动物标准饮食喂养,持续至实验结束。造模组采用以200μg/mL的N-甲基-N’-硝基-N-亚硝基胍（MNNG）溶液灌胃,每只5 mL/kg 1次/d为主,配合自由饮用0.05%氨水溶液及食含0.03%雷尼替丁的颗粒状饲料,三种因素联合建立胃癌前病变大鼠模型。44周末造模成功后将造模组剩余的41只大鼠根据体重因素按照计算机生成随机数字法分为三组,均给予SPF级动物标准饮食喂养。模型组予生理盐水3mL/kg灌胃,1次/d;维酶素组予维酶素悬浊液2mL/kg（即维酶素0.3g/kg）灌胃,1次/d;消痞颗粒组予消痞颗粒混悬液3mL/kg（含生药9g/kg）灌胃,1次/d。治疗持续时间12周后,所有实验大鼠于第56周末处死。造模阶段和干预阶段均观察大鼠一般情况、宏观表征情况。干预阶段结束后采用普通HE染色观察各组大鼠胃黏膜病理情况,同时选用RT-PCR对各组大鼠miR-21、PTEN基因进行检测,采用ELISA法对各组大鼠AKT、PI3K蛋白表达进行检测。结果:1.益气化瘀解毒法对PLGC大鼠干预的作用（1）在造模阶段,模型组大鼠一般情况与表征明显差于空白组;在干预阶段,消痞颗粒组与维酶素组大鼠宏观表征均优于模型组,尤以消痞颗粒组明显,模型组宏观表征改善不明显。（2）在造模阶段,模型组大鼠于实验第34周出现胃黏膜萎缩,于实验第38周出现趋于异型增生改变,于实验第44周出现异型增生。在干预阶段,各组间大鼠的胃黏膜厚度、黏膜肌层厚度、比值间均具有统计学差异（P<0.05）。胃黏膜改变程度在不同组别上的具有统计学差异性（P<0.05）。模型组大鼠胃黏膜持续萎缩,伴有异型增生,消痞颗粒组大鼠的病理变化情况明显优于模型组（P<0.05）,主要体现在改善慢性炎症及异型增生方面;维酶素组病理改变情况较模型组无统计学差异（P>0.05）。（3）干预后各组大鼠的表征积分与病理总积分呈较强的正相关（P<0.05）。2.益气化瘀解毒法对PLGC大鼠miR-21-PTEN-PI3K/AKT信号通路轴的效应机制（1）各组miR-21、PTEN基因、AKT蛋白、PI3K蛋白表达均存在统计学差异（P<0.05）。各组miR-21表达比较,模型组表达最高,其次是维酶素组,消痞颗粒组表达最低;各组PTEN基因表达比较,消痞颗粒组表达最高,其次是空白组,模型组表达最低;各组AKT、PI3K蛋白表达比较,模型组表达最高,其次是维酶素组,空白组表达最低。（2）miR-21与PTEN基因表达呈负相关（P<0.05）,与PI3K、AKT蛋白表达呈正相关（P<0.05）;PTEN基因表达与PI3K蛋白表达呈负相关（P<0.05）;PI3K与AKT蛋白表达呈正相关（P<0.05）。（3）采用多重线性回归分析结果提示大鼠病理总积分与PI3K蛋白表达具有较强相关性。结论:以益气化瘀解毒法组方的消痞颗粒可有效改善胃癌前病变大鼠的一般情况、宏观表征,逆转胃癌前病变病理变化,阻断胃癌发生;并且通过抑制miR-21异常表达来调控PTEN基因,从而对PI3K/AKT信号通路进行干预来逆转胃癌前病变的发生,可能是其防治胃癌的有效作用机制之一。

唐丹丹^[3]（2020）在《数据挖掘技术在新疆艾滋病预测与控制模型中的应用研究》文中认为目的:为了探讨数据挖掘技术在新疆艾滋病预测与控制中的应用,利用数据挖掘技术预测新疆艾滋病的流行趋势、监测HIV治疗与疾病进展、识别高危人群、分析高危行为等,为新疆艾滋病的防控提供参考依据。方法:1)以2004-2016年新疆HIV月发病率样本数据为研究对象,分别建立了单一ARIMA模型和组合ARIMAGARCH模型,对2004-2016年的新疆HIV月发病率数据进行拟合,评价模型预测效能,对新疆HIV月发病率进行1年的短期预测。2)以2007年1月-2015年12月期间的506例在新疆接受抗病毒治疗的儿童艾滋病患者的纵向随访数据作为研究对象,对其基线数据特征、不同治疗时间点,不同分组特征的抗病毒治疗情况进行统计分析,了解研究对象抗病毒治疗的基线情况、免疫学效果、病毒学效果以及生长发育状况。采用广义估计模型分别对免疫学指标（CD4细胞计数）和生长发育指标（HAZ、WAZ）建立单因素和多因素的预测模型,找出影响新疆儿童艾滋病患者抗病毒治疗免疫学和生长发育的关键指标,评价治疗效果。3)以乌鲁木齐市2009-2015年3组高危人群（注射吸毒者、男男性行为者、女性性工作者）的哨点监测报告数据为研究对象,数据内容包括人口学特征、性行为和血清学检测结果。然后以年龄、婚姻状况、教育程度等变量作为输入变量,是否感染HIV作为输出变量,建立三个数据集的四个预测模型。使用混淆矩阵、准确率、灵敏度、特异度、精确率、召回率和ROC曲线下面积AUC等指标来评估模型分类性能,并分析预测变量的重要性。结果:1)预测了2017年1-12月新疆HIV的月发病率,结果显示新疆2017年1-12月的HIV月发病率呈现出逐月下降的趋势,组合模型ARIMA-GARCH修正了ARIMA模型的ARCH效应,预测精度高于单一ARIMA模型,并且能够较好的对新疆HIV月发病率进行短期预测。2)506例新疆儿童艾滋病患者的基线数据特征结果显示,其中男童258例（50.99%）,平均年龄7.62岁,年龄分布以>5岁为主,感染途径以母婴传播为主,临床分期主要以I期,II期为主。治疗前CD4细胞个数异常率为58.89%,病毒载量异常率为51.28%。初始治疗方案以AZT+3TC+NVP/EFV为主。不同随访时间治疗情况主要结果显示:随着治疗时长的增加,治疗后的CD4细胞计数、血小板、血红蛋白、总胆固醇、甘油三脂、谷草转氨酶、谷丙转氨酶、身高、体重、HAZ和WAZ是随着治疗的时长增加而增加的;病毒载量、白细胞、总淋巴细胞和临床表现及机会性感染是随着治疗时长的增加而递减的;血糖,血肌酐和血尿素氮随着治疗时长的增加呈现出波动变化的趋势。其中治疗时长为1年时CD4细胞计数平均增长177个/μL,与治疗前相比增加了47.58%。病毒载量从治疗前的平均病毒载量106500拷贝/ml下降到治疗时长为1年时的25拷贝/m,远低于病毒载量检测的最低下限指标50拷贝/ml。不同分组特征CD4细胞计数主要结果显示:治疗前后不同年龄段、不同开始ART年龄、不同基线CD4细胞计数分组、不同HAZ值分组以及不同初始治疗方案这几个分组的CD4细胞计数差异均有统计学意义（P<0.05）。治疗后与治疗前相比CD4细胞计数均有增加,其中年龄分组≤5岁组平均增长高于>5岁年龄组;开始ART年龄分组≤5岁组平均增长高于开始ART年龄>5岁组;治疗前后不同基线CD4细胞计数分组中CD4细胞计数≥500组在治疗后平均增长最多;初始治疗方案分组中含ABC方案组平均增长最多。不同分组特征治疗前后HAZ值主要结果显示:性别、年龄、基线CD4细胞计数、初始治疗方案,WHO临床分期以及复方新诺明使用情况这几个组的HAZ值,差异均有统计学意义（P<0.05）。治疗后与治疗前相比HAZ值均有增加,其中女童组治疗后HAZ值平均增长高于男童组;>5岁年龄组治疗后的HAZ值平均增长高于≤5岁组;WHO临床分期III/IV期组的HAZ值平均增长高于I/II期组;复方新诺明使用组HAZ值平均增长高于不使用组。不同分组特征治疗前后WAZ值主要结果显示:性别、确诊到开始ART的间隔时间、基线CD4细胞计数、WHO临床分期和复方新诺明使用情况这几个分组的WAZ值,差异均有统计学意义（P<0.05）。其中女童组治疗后WAZ值增长高于男童组;确诊到开始ART的间隔时间≤6个月组治疗后WAZ值平均增长大于>6个月组;处于WHO临床分期III/IV期组的WAZ增长高于I/II期组;复方新诺明使用组WAZ值平均增长高于不使用组。CD4细胞计数多因素GEE模型结果显示:影响新疆儿童艾滋病患者免疫学效果的关键指标是治疗时长（年）和基线CD4细胞计数水平。HAZ值和WAZ值多因素GEE模型结果显示:影响新疆儿童艾滋病患者生长发育状况的关键指标是治疗时长（年）、年龄、开始ART年龄以及WHO临床分期。3)实验结果表明:随机森林算法得到了最优预测结果,对MSM数据集的诊断准确率为94.4821%,FSW数据集的诊断准确率为97.5136%,IDU数据集的诊断准确率为94.6375%。其次是k近邻算法,对MSM数据集的诊断准确率为91.5258%,对FSW数据集的诊断准确率为96.3083%,对IDU数据集的诊断准确率为90.8287%。再次是支持向量机,对三个数据集的诊断准确率分别为94.0182%,98.0369%和91.3571%。决策树算法是四种算法中预测结果最差的,对MSM数据集的诊断准确率为79.1761%,对FSW数据集的诊断准确率为87.0283%,对IDU的诊断准确率为74.3879%。随机森林模型自变量的重要性得分表明,在乌鲁木齐市三个高危人群中,年龄是识别HIV感染最重要的影响因素。结论:第一部分研究建立的ARIMA-GARCH联合模型能够较好的拟合预测新疆HIV的月发病率数据,消除样本数据序列的ARCH效应,修正了ARIMA模型的不足,也较好地保留了新疆HIV月发病率预测的数据趋势。第二部分研究建立的广义估计模型找出了影响新疆儿童艾滋病患者免疫学和生长发育的主要危险因素,克服了其他方法对数据要求严格、无法分析多个不同时间点不同测量指标相关性的缺陷,能够较好地对新疆儿童艾滋病患者的治疗随访数据进行统计分析与推断。第三部分建立的高危人群HIV易感者的识别模型可以根据某些重要属性准确地识别疾病。三部分的研究均表明数据挖掘技术作为一种辅助疾病筛查和诊断的新方法,可以帮助医务人员从大量的信息中快速筛查和诊断艾滋病,监测HIV治疗与疾病进展、识别高危人群,为艾滋病的防控提供新的技术和方法。

陈志芳^[4]（2019）在《大数据背景下心理因素的统计识别与测度研究 ——基于行为经济学研究框架的视角》文中认为上个世纪70年代发展起来的行为经济学将行为人的心理因素及其相关心理学规律纳入经济学的研究,不仅很好地解释了主流经济学的一些“异象”,而且也大大拓展了经济学的研究视域。以噪声交易理论、前景理论、心理账户为代表的行为经济理论,主要通过心理因素来描述个体的行为选择,探求经济现象背后的作用机理,特别是探求现象背后人的行为及其对现象的作用机理与影响;同时,对不确定条件下行为人的决策展开研究,以增强经济学的解释能力。然而,由于行为人心理因素识别的障碍,致使其所涉变量的测度与样本数据的获取极其困难,理论结论难以提供相应的经验证据,这种状识一方面制约了行为经济学本身的发展,另一方面却极大的限制了行为经济学的现实应用价值。为了克服这一障碍,行为经济学家借鉴物理学或工程实验的思想与方法,构建出一套能获取单因素（包括心理因素）作用效应的科学方法,即实验经济学。实验经济学的出现不仅在一定程度上克服了行为经济学研究中心理因素样本数据获取的局限,而且通过对实验数据的观察与计算,经济学家同时也发现一系列行为人经济选择过程中的未解之谜,进一步推进了行为经济学研究的深入与发展。可是,利用实验经济学方法解决样本数据的获取也存在一些明显的不足,其中主要体现在:（1）实验设计要求高,现实的环境条件往往不易获得满足;（2）实验成本过高,实验过程控制困难;（3）实验结果（数据）可能存在较大的偏差,所获数据并不能真实反映研究对象的心理因素,就像证券投资交易中实盘交易与模拟交易那样,实验样本实质上并不能真实地反映对照样本的心理因素。大数据时代的来临为我们克服实验经济学中的上述缺陷带来了希望与机遇,大数据以其海量、完整、多样化、复杂可变的数据结构为我们提供了行为人的选择路径与结果,尤其是它提供的音频、视频、活动轨迹以及经济选择特点等能反映行为人心理因素的非结构数据为我们将其结构化造创了条件,一旦非结构数据结构化成为可能,统计学便在行为经济学的研究中就有了更大的用武之地。因此,在大数据时代,利用大数据带来的契机,构建大数据下的行为经济统计分析体系与架构对于推进行为经济学的研究与发展就具有特殊重要的意义,实现这一目标的基础在于要率先解决行为经济学中心理因素的识别与测度。众所周知,统计分析之所以能被应用于对经济问题的研究得益于它有一套科学完善的估计与推断技术,而能实现统计估计与推断的前提在于有相应的样本数据,如果说统计学的进步与发展是统计估计与推断技术的创新,倒不如说是对样本数据的适应性研究,传统的统计分析之所以在行为经济学研究中缺乏建树,并不是因为估计与推断技术的缺乏,而是无法获取能与之相匹配的样本数据（主要是心理因素数据）。对统计学研究而言,大数据时代的到来,不仅彻底改变了数据的经济内涵,而且更重要的是它带来的样本数据（结构性数据）可得性的变革,当原先不可得的行为人心理因素数据变得易得时,即便是现有的统计分析方法与技术毫无进展,统计分析的价值也会获得显着提升。本文在这种思想指导下,试图系统探讨大数据时代背景下如何获取与行为经济研究相关的心理因素结构性样本数据,并将其应用于行为经济学研究。本文在对相关研究进行系统梳理的基础上,依照行为经济学研究中所涉及心理因素的属性与内涵,密切结合数据挖掘技术与心理因素生理化的研究思路,并充分利用生理特质所提供的结构性数据特点,实现对行为经济学研究中主要心理因素的统计识别与测度,并将其纳入现有的统计分析框架,应用于居民或投资者消费决策或股价预测的研究。本文主要研究了以下几个方面的内容。1.大数据时代带给统计分析的改变。大数据时代,互联网所引爆的信息革命,层出不穷的各类低成本记录与存储设备的广泛应用,正在颠覆传统的统计数据内涵,当统计分析赖以生存的数据基础发生重大变化时,它会给统计分析和统计学科带来什么?本部分试图从分析范式、分析工具、分析方法和分析结果四个方面去寻求答案。2.大数据时代的行为经济学研究。统计分析作为实证研究的工具,实证分析又是检验经济理论的有效手段,在大数据背景下,当统计与统计分析发生重大变革时,它又会给经济理论带来什么?本部分内容试图依据统计分析的变革来论述经济行为人经济选择数据与生理特征数据的易得性,并通过对生理与心理因素相互关系的考察来论证心理因素数据的替代与转换,阐述大数据背景下统计分析与行为经济学的融合,这种融合将使行为经济学的研究可能跨越实验经济学。3.大数据背景下行为经济统计分析的实现路径。大数据背景下,实现统计分析与行为经济学的融合的路径有两条,一是开发与大数据数据特征相一致的统计分析模型,另一是将非结构性数据结构化,并将其纳入现有的统计分析体系。本文以专业分工创造效率为前提,综合经济可行与技术可行两个方面对统计学适应大数据时代的路径选择进行了论证,其论证结论为本文的后续研究奠定了理论基础。4.大数据背景下心理因素特征变量的提取与测度。基于行为经济学研究框架的视角,通过对行为经济学中基本理论（噪声交易理论、前景理论和心理账户理论）所涉及心理因素的分析,本文对应提取了如下心理因素特征变量:情绪、偏好、注意力和安全感;并通过对这些心理因素特征变量经济的内涵与特点的考察,探讨了大数据背景下这些心理特征变量的统计识别与测度,从而化解了行为经济学实证分析的样本数据障碍。5.作为对大数据背景下行为经济统计分析的应用,本文最后选择了两个与行为人心理因素密切相关的经济问题进行了研究,一个是基于网购的消费者人格识别与消费决策分析,另一个是基于网络评论数的投资者关注对股价的预测。两个实证分析案例表明,大数据背景下心理因素的识别与测度不仅可行,而且与之相关的行为经济统计分析有效。经过梳理、分析、论证与实证研究,本文得到如下基本结论:（1）大数据时代将跨越行为经济学研究中心理因素样本数据的可得性障碍,统计学,特别是数据挖掘技术将引导经济学研究范式转向数据驱动型的研究;（2）大数据时代的到来,使得统计学家有可能将诸如音频、视频乃至实时的行动轨迹等非结构性数据纳入统计分析范畴,形成更具包容性的统计分析方法与技术,这种更具包容性的统计分析方法与技术不仅能提升统计分析判断的有效性与可靠性,而且还能极大扩展它的应用范围;（3）大数据背景下,统计学家构建行为经济统计分析的路径有两条,一是开发适用于多数据结构的统计分析模型,另一则是寻求更广泛的数据来源和探寻将非结构性数据转换成结构性数据的相关方法与技术,并将其纳入传统统计分析体系。相比较而言,后者更为现实与经济;（4）行为经济学中的心理因素可以通过特征提取的方式将其转化为心理特征变量,这些变量主要包括情绪、偏好、注意力、安全感,大数据背景下,它们不仅可以识别,而且是可测的;（5）利用行为经济统计分析不仅能实现对消费者人格（投资者关注度）识别和分类,而且运用它能更准确预测消费者行为选择和证券市场股价的变动。本文的创新主要有如下四点:一是根据大数据时代的数据特点,提出了行为经济统计分析的实现路径,即适合更多数据类型的模型选择路径与非结构性数据结构化的路径;二是基于两账户心理决策模型和两状态马尔科夫链理论,从经济分析的角度论证了数据转换路径较模型选择路径的优势;三是系统分析了主要心理因素,情绪、偏好、注意力、安全感的统计识别与测度;四是从理论上构建了基于大五人格的消费决策模型和基于投资者关注的股价变化过程,并利用实证分析的方法验证了大数据背景下行为经济统计分析的可行性与有效性。

丁国勇^[5]（2019）在《高校学生学业表现数据建模研究 ——基于A大学教育数据的分析》文中研究表明高校教育数据挖掘是对高等学校大规模全样本教育数据的挖掘和分析的技术手段,具有能够辅助高校决策能力、管理效率和教学效果提升的高校治理价值。基于教育数据挖掘的技术手段,构建高校学生学业表现的数据模型,挖掘和利用高校教育数据的价值,有助于丰富学生发展理论和完善高校学生管理和学业支持体系。高校学生学业表现的研究具有可靠的实证研究的理论基础。本研究吸收了国内外关于高校学生学业表现的理论框架包括戴维·拉文的学业表现影响因素分析框架、阿斯廷的学生投入理论与I-E-O模型、乔治·库的学生投入理论与大学生成功要素模型,以及NSSE、CCSS、NCSS等调查研究方案的成果,构建出学校环境、社会及人口统计特征、学生个人特征、学生投入等四维度的高校学生学业表现影响因素分析框架。基于这个分析框架,对个案高校学生学业表现进行系统化的数据分析和数据挖掘,以揭示个案高校教育数据系统所存在的问题以及个案高校学生学业表现上所存在的问题。本研究采取个案研究的方法,重点在于揭示个案高校学生学业表现的独特情况和问题,但通过个案的分析,也有助于认识和分析具有普遍意义的高校学生学业表现的共同问题。本研究构建了整合型教育数据系统,采集教学管理信息系统数据以及学生学业表现的关联数据,进行数据的清洗、存储;运用描述性统计方法、方差分析方法分析学生学业表现的特征及差异性;分别从教学管理信息系统数据、整合型教育数据系统中的客观数据、整合型教育数据系统中的全部数据三种数据来源,从社会及人口统计特征、个人特征、学生投入等三个维度,运用多元线性回归、二元逻辑回归等传统统计方法构建回归模型,贝叶斯网络、决策树、人工神经网络、支持向量机等教育数据挖掘方法构建分类模型,并比较各模型有效性,提出高校学生学业表现预测模型的部署模式。研究结果显示,从社会及人口统计特征维度,学生学业表现存在性别差异、地区差异、民族差异。父母教育水平的不同不会带来学生学业表现的差异。从个人特征维度,学生学业表现也存在着科类差异;高考成绩与学生学业表现间存在一定的正相关;人格、学业自我效能、心理状态、体质测试、心理预警状态、学生干部和党员身份与学生学业表现都存在相关性。从学生投入维度,参加学术讲座、志愿服务、社团和利用图书馆资源与学生学业表现之间都存在着显着的正相关。就读体验与学生学业表现存在负相关。学业目标与学生学业表现呈正相关。通过对所构建的回归、分类共27个数据模型的比较发现,基于整合型教育系统中全部数据构建的模型最为有效。多元线性回归模型最高可解释学生学业表现65.4%的变异量;社会及人口统计特征维度变量的解释力约在13%到18%之间,个人特征维度变量的解释力在7%到20%之间,学生投入维度变量的解释力在10%到17%之间。二元逻辑回归模型最高预测正确率为69%。应用贝叶斯网络、决策树、人工神经网络、支持向量机等教育数据挖掘算法建立的12个分类模型,在运行时间、预测正确率、灵敏度等方面都存在差异。相对而言,贝叶斯网络分类模型和支持向量机分类模型的预测有效性要高于决策树分类模型和人工神经网络分类模型,贝叶斯网络分类模型的稳定性要高于支持向量机分类模型。通过自变量精简减少了 10个自变量,且未明显降低模型有效性。

庞建平^[6]（2018）在《数据挖掘中概率论与数理统计的应用分析》文中进行了进一步梳理数据挖掘是在海量的数据中归纳、总结、分析数据的内在规律,概率论与数理统计在数据挖掘中的应用,提高了数据挖掘的精度与效率,通过对概率论、数理统计与数据挖掘的关系,分析了统计学在数据挖掘中的具体应用,并结合具体的算法探究了统计学在数据挖掘中的具体运用。

商梦娇^[7]（2018）在《大数据时代的贝叶斯估计方法研究》文中认为随着信息和科学技术的飞速发展以及海量数据的产生,传统的手工处理和分析数据的统计方法已不能满足现实的需求.特别是在大数据时代的今天,数据的数量巨大、结构复杂,传统的处理方法已不能高效的作用于这些数据.在大数据时代的今天,拥有数据并合理有效地处理数据,对于一个企业、政府,甚至是整个国家来说都是至关重要的,所以对处理海量数据的研究越来越受到重视.经过几十年的研究,大数据分析已发展成为最重要的数据处理和分析理论,而且已经有了十分广泛的应用.本文主要介绍了在大数据大发展的时代背景下有关贝叶斯估计的方法研究,主要内容有:大数据的起源、大数据的特点以及大数据的类型,数据挖掘的发展史以及它的功能,数据挖掘的特点以及数据挖掘与机器学习、数据仓库、统计学以及智能决策等领域之间的关系;贝叶斯分类和朴素贝叶斯分类的概念以及应用;有关决策论和统计决策论的定义、定理;线性判别函数和二次判别函数的相关概念及理论;贝叶斯网络的基本概念、贝叶斯网络的构建,以及K2爬山算法和SEM算法,并且对K2爬山算法做出了改进,提出了自己的想法.

牟洪民^[8]（2017）在《统计学方法在数据挖掘中的应用探讨》文中研究表明随着社会经济的不断发展和科学技术的不断革新,统计学方法在社会生活中得到广泛应用。与此同时,统计学方法也变得日趋繁多。数据挖掘是一门新兴技术,把数据库与人工智能联合起来,从而对数据进行分析整合,寻找到有价值的信息数据。继而为社会生活更好地服务。

刘磊^[9]（2017）在《大数据分析的经济价值评价与过度挖掘风险研究》文中进行了进一步梳理信息是正确决策的基础,信息的数量和质量以及处理信息的技术直接影响其作为决策基石的功能发挥。信息时代下互联网技术的飞快发展以及由此引发的生产力变革,人们能够记录、存储和传递的信息越来越多,而当信息变得可记录、存储和便于传递时,信息即变为现代意义上的数据,如今,一个以海量、易变、传送及时、形式多样为特征的信息爆炸时代真正来临,形成现今被人们称之为的“大数据时代”。大数据时代的来临正在改变着传统的数据分析方法、思维及其范式,给统计学的发展带来了一次全新的思维盛宴,为统计人的自我价值实现及其价值创造提供了一个千载难逢的机遇,具体体现在:（1）一方面是数据范围的扩展,即样本数据扩展到总体数据,另一方面是数据类型的扩展,即从结构性数据扩展到半结构性数据和非结构性数据。传统的、成熟的数据分析处理技术基本都是针对结构性数据的,面对大数据时代的新情况,现有的分析技术显然力不从心,如何将半结构性数据和非结构性数据转换成结构性数据或者创造新的方法与技术,使之适应大数据分析不仅需要新的方法与技术,而且更需要新的思维;（2）—方面海量数据,尤其是没有统一结构和一致性表述方式的海量数据如何纳入统计学研究范围,并开创性地探寻相应的统计方法与技术需要统计新思维与智慧,另一方面数据流的统计分析是一个全新的课题,如何让统计学也流动起来显然不是现有统计思想、方法与技术所能解决的,它需要全新统计学工具;（3）大数据产业化或统计产品市场化将彻底改变统计人在实践中的依附性,统计人的价值创造将变得更加直接与显形化,实现这一目标不仅需要统计新思维,而且更需要我们的自信与努力。然而,我们也必须认识到,大数据时代所带来的这些变化在凸显现有数据分析在数据中挖掘有效信息不足的同时,大数据分析所带来的数据挖掘过度的问题同样不容忽视。大数据概念自2012年被提出以来,立刻引起了世界各国全社会极大的关注,众多的学者及实践工作者都投身于这一领域的研究与相关产品的开发、应用,形成了一系列相关的研究文献和大数据产品。然而,大数据分析以及大数据产业化作为一个全新的领域,其各方面的研究不仅有待进一步深入,而且还有很多研究空白等待大家去填补,本文在对大数据相关基本概念及其发展现状进行系统梳理的基础上,通过对大数据概念的界定,从统计学的视角,并结合信息科学、信息经济学和工程技术分析方法阐述了信息与大数据的关系、大数据的特点、大数据的时代特征与挑战,以及传统统计学与大数据分析的差别、联系和影响,探讨了大数据分析的价值创造过程及其度量,同时从数据安全与转换、模型设定及其构造和人为因素等方面讨论了大数据分析可能存在的技术风险、道德风险和决策风险,并在风险因素分析的基础上,依据相应的风险管理理论提出了大数据分析过程中各类风险的防范措施。最后,以次贷危机事件为案例,利用历史分析法说明了信用评级过程中大数据分析及应用的风险。全文由导论,信息、结构性数据和大数据,大数据的经济价值,大数据背景下的数据挖掘风险,数据过度挖掘风险防范的措施,案例分析——以次贷危机中的信用评级为例和结论与展望七章构成,主要研究内容包括:1.大数据的经济价值及过度挖掘风险。在大数据时代,数据的公共产品或准公共产品性质将越来越明显,在充分论证数据分析与使用过程中外部性特征的前提下,数据的价值由私人价值与社会价值两部分组成,无论是私人价值还是社会价值,其价值大小的体现取决于数据分析的深度与广度,而当数据分析方法滥用或将统计结论视为确定性结论来处理时便存在过度挖掘风险。2.数据过度挖掘的原因剖析。对数据过度挖掘将使信息安全性面临重大的挑战,信息安全问题包括两个层面的内容,一是利用更先进的技术手段和模型去揭示违背社会基本规则的客观状况,它属于真实信息揭示,但这类信息的揭示会影响社会正常的运行;二是揭示与事实不一致的信息,通称为噪声信息,其中这个层面的过度挖掘又包括主观与非主观的噪声信息制造。显然,不同表现形式的过度挖掘其背后存在着不同的原因与动机,对其原因的剖析是防范数据过度挖掘风险的基础。3.模型与技术分析的复杂化与过度挖掘风险。崇尚科学是人类社会的基本理念,然而在现实中,崇尚科学却演化成为追求模型与技术分析的复杂化,复杂的模型与技术分析需要更高层面的抽象,从而更可能导致技术分析前提与现实不一致、样本数据不具有代表性、模型设定错误等问题,在一定程度上使得技术分析成为噪声信息制造的帮凶,由此引发过度挖掘风险。4.机会主义动机与过度挖掘风险。信息市场也是一个不完全市场结构,这为具有良好声誉的信息提供者获取超额利润创造了机会,在特定背景下,机会主义动机就会演化成道德风险,尤其是当他利用专门分析技术和模型,通过有意识的或刻意的技术处理去挖掘出满足自己需要的信息时,道德风险也就转化成过度挖掘风险。5.过度挖掘与决策风险。现有层级制度安排决定了分析人员与决策者的分离,分析师与决策者的利益并非始终是一致的,分析师与决策者往往具有知识非对称性的特点,理性的分析师在自身利益最大化的驱使下,极易诱发追求模型与技术分析的复杂化,无论是分析师刻意用复杂的模型去论证决策者的想法,还是为了标新立异,其间均存在过度挖掘风险,当决策者以分析师的结论为依据做出决策时,过度挖掘风险则转变成决策风险。经过梳理、分析、论证与研究,论文得到如下基本结论:一、大数据的数据就是信息,只不过大数据被赋予了更多的与变革相关的含义在内,它是集数据（所有类型数据）采集、处理、转换、存储、传递、分析、算法和应用,乃至产品化和产业化的全过程,这种全过程不仅使传统的数据分析得以变革,而且甚至会改变我们的工作属性与生活方式。大数据具有信息的所有属性,数据价值就等同于信息价值。统计学与大数据科学有着技术上的关联和思想上的共鸣,大数据在社会经济现象与相关规律的挖掘上功能更强。从技术角度看,大数据科学是植根于信息科学的一门学科,所以,要应用好大数据关键在于信息科学技术的完善和进步,而单纯依靠统计学显然是无法支撑大数据发展的。二、大数据是对信息资源的开发、传送及其应用的全过程,这就决定了大数据的经济价值便是信息开发到应用全过程的价值增值,信息的很多独特特性为信息价值评价增加了难度。而当我们将信息的价值区分为狭义价值与广义价值时,则可分别对其进行评价与度量,就狭义的信息价值评价而言,信息价值度量只是针对某一特定的、具体决策的私人评价,其实质并未解释全部的信息价值,只是对特定决策项目的信息价值的实现。为此,我们提出了广义的信息价值评价方法,认为信息价值应该由私人价值和净外部经济价值两部分共同构成。此外,通过数据的组合分解,大数据更便于发现复杂数据集间的相互关系,从而更好地发现规律并实现价值。三、数据分析的关键是从纷繁复杂的数据中发现新信息,进而提升对事物的了解,做出科学合理的决策。大数据使得人们可利用的信息数量大大增长,但不确定性依旧存在,风险依旧存在,对于数据分析而言,这类风险有两类:数据挖掘过度和数据挖掘不足。所谓数据挖掘不足就是指没能从数据中挖掘出有价值的信息,或者说数据集本身客观存在有价值的联系或规律,但却没能得到揭示。而数据挖掘过度就是指从数据中挖掘出不真实的信息或伪信息,其中也包括真实信息被坏人利用的情况。数据挖掘不足可能会造成机会损失,数据挖掘过度则可能导致错误判断的直接损失。导致数据过度挖掘的因素很多,其中非结构性数据到结构性数据无法实现等价转换是很多风险的源头。四、次贷危机让人们关注评级机构的工作失误,更开始反思评级工作的客观和公正性。通过对评级机构具体评级工作的梳理发现,评级的方法和程序看上去逻辑严密,定量分析准确,事实上,具体的工作中有大量非结构性数据的使用,这就导致了具体评级要素、分析权重等关键信息无法公开,直接造成整个评级过程缺乏透明度和客观性,进而导致评级结果缺乏公信力。这是非结构性数据过度挖掘的典型案例。

王耀文^[10]（2015）在《统计学方法在数据挖掘中的应用探究》文中进行了进一步梳理随着我国经济发展水平的不断提高,各行各业得到了显着发展,数据统计学方法也变得日趋多样,数据挖掘是建立在数据库与人工智能基础上发展起来的一种高新技术,其功能是从众多的数据当中挖掘到最有价值的信息,进而实现对数据资源的高效利用。聚类分析能够被当成一种数据分析工具,能真实反映出数据分布情况,本文主要对统计学在数据挖掘中的应用进行了探讨,从而表现统计学在数据挖掘应用中的重要性。

二、统计学与数据挖掘（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、统计学与数据挖掘（论文提纲范文）

（1）基于数据挖掘技术研究庄礼兴教授调神针法临床应用规律（论文提纲范文）

摘要

Abstract

引言

第一章综述

第一节现代精神心理问题概况

第二节 “调神”“治神”相关针法研究概述

一、各家“调神”“治神”针法概况

二、“调神”“治神”相关针法的临床研究

三、“调神”“治神”相关针法作用机制研究

第三节 “调神”“治神”相关中医理论研究

第二章庄礼兴教授调神针法简介

第一节调神针法简介

第二节调神针法研究现状

一、庄礼兴教授调神针法经验总结

二、庄礼兴教授调神针法的临床疗效研究

第三章庄礼兴教授调神针法临床用穴规律的数据挖掘

第一节数据及研究方法

一、数据来源

二、统计分析方法

第二节数据分析结果

一、频数分析

二、系统聚类分析

三、关联规则

四、决策树分析

五、因子分析

第三节讨论

一、数据挖掘结果讨论

二、调神针法使用路径

三、调神针法的“调神”思想源流

四、数据挖掘与名家经验总结

五、创新点与展望

结语

参考文献

在校期间发表论文情况

致谢

附件1：统计学处理合格证明

（2）慢性萎缩性胃炎癌前病变证候要素数据挖掘及益气化瘀解毒法的干预机制研究（论文提纲范文）

摘要

ABSTRACT

符号说明

第一部分文献综述

综述一: 慢性萎缩性胃炎证候学研究相关进展

1. 基于相关文献的CAG证候学研究

2. 基于临床采集的CAG证候学研究

3. 基于部分重要证素的相关研究

4. CAG证候学与胃镜黏膜征象相关研究

5. 基于病理特征的CAG证候学演变规律研究

6. CAG证候学与幽门螺旋杆菌（Helicobacter pylori，Hp)感染相关研究

7. CAG证候与其他客观指标相关研究

8. 讨论

参考文献

综述二: 胃癌及胃癌前病变中小分子RNA研究进展

1. miRNA的产生与结构特点

2. miRNA的生物学功能

3. miRNA失调在胃癌中的作用

4. 靶向miRNA的胃癌及胃癌前病变治疗进展

5. miRNA与胃癌预后相关性

6. 讨论

参考文献

第二部分临床研究

研究一基于数据挖掘的慢性萎缩性胃炎证候要素分布规律研究

前言

资料与方法

1. 研究对象

2. 诊断标准

3. 纳入、排除与剔除标准

4. 临床观察表建立

5. 调查方法与质量控制

6. 统计学处理与数据分析

结果

1. 一般病例资料

2. 四诊信息分布

3. 基于因子分析的证候要素提取

4. 证候要素分布

5. 证候要素间相关性分布

6. 四诊信息关联规则分析

7. 慢性萎缩性胃炎证候要素隐结构分析

8. 重要病理改变与证候要素影响相关性

讨论

1. 数据挖掘方法在慢性萎缩性胃炎证候要素研究中的应用

2. 无监督数据挖掘的慢性萎缩性胃炎证候要素结果探析

3. 小结

参考文献

研究二慢性萎缩性胃炎重要证候要素湿与血瘀的影响探讨

前言

资料与方法

1. 研究对象

2. 诊断标准

3. 纳入、排除与剔除标准

4. 分组方法

5. 观察指标

6. 调查方法与质量控制

7. 统计学处理与数据分析

8. 临床研究流程图

结果

1. 研究对象基本特征

2. 各组病理情况分布

3. 各组胃黏膜病理积分分布

4. 各组症状积分分布

5. 各组慢性胃炎PRO量表积分分布

6. 慢性萎缩性胃炎不同阶段证候要素湿与血瘀出现情况

7. 病理因素对慢性萎缩性胃炎湿与血瘀证候要素成立判断

讨论

1. CAG证候要素研究思路与相关量表设计的思考

2. 证候要素湿与血瘀对临床症状表现程度的影响

3. 证候要素湿与血瘀对生活质量评价的影响

4. 证候要素湿与血瘀对病理征象的影响

5. 益气化瘀解毒法治疗慢性萎缩性胃炎癌前病变的应用效验基础

6. 小结

参考文献

第三部分实验研究

实验一益气化瘀解毒法对PLGC大鼠干预作用

前言

材料和方法

1. 实验动物

2. 实验药物及配置

3. 实验仪器

4. 造模方法

5. PLGC大鼠模型判定

6. 分组及给药

7. 标本处置

8. 观察指标及方法

9. 统计学方法

结果

1. 大鼠体重变化

2. 大鼠表征变化

3. 大鼠死亡情况

4. 大鼠胃黏膜组织大体情况

5. 大鼠胃黏膜组织病理情况

6. 大鼠表征与胃黏膜病理改变相关性

讨论

1. PLGC大鼠模型建立探讨

2. 益气化瘀解毒法对PLGC大鼠的干预作用

3. 小结

参考文献

实验二益气化瘀解毒法对PLGC大鼠miR-21-PTEN-PI3K/AKT信号通路轴的效应机制

前言

材料和方法

1. 实验动物

2. 实验动物造模及分组

3. 实验试剂及配置

4. 引物设计合成

5. 实验仪器

6. 实验方法

7. 数据处理

8. 统计学分析

结果

1. 各组大鼠miR-21的表达情况

2. 各组大鼠PTEN基因的表达情况

3. 各组大鼠PI3K蛋白的表达情况

4. 各组大鼠AKT蛋白的表达情况

5. miR-21、PTEN基因与PI3K/AKT通路蛋白表达相关性

6. 大鼠病理情况与miR-21、PTEN基因、PI3K/AKT通路蛋白表达相关性

讨论

1. 益气化瘀解毒法对miR-21的干预作用

2. 益气化瘀解毒法对PTEN基因的干预作用

3. 益气化瘀解毒法对PI3K/AKT信号通路的干预作用

4. 益气化瘀解毒法对miR-21-PTEN-PI3K/AKT信号通路轴的干预作用机制

5. 小结

参考文献

结语

附录

附录一临床观察表

附录二慢性胃炎PRO量表

（3）数据挖掘技术在新疆艾滋病预测与控制模型中的应用研究（论文提纲范文）

摘要

ABSTRACT

前言

第一部分时序数据挖掘ARIMA-GARCH模型在新疆HIV发病趋势预测中的应用

1 内容与方法

1.1 研究对象

1.2 研究方法

1.3 质量控制

1.4 统计方法

2 结果

3 讨论

4 小结

第二部分纵向数据挖掘GEE模型在新疆儿童艾滋病抗病毒治疗效果预测中的应用

1 内容与方法

1.1 研究对象

1.2 研究方法

1.3 质量控制

1.4 统计方法

2 结果

3 讨论

4 小结

第三部分横截面数据挖掘机器学习模型在乌鲁木齐三大高危人群HIV感染预测中的应用

1 内容与方法

1.1 研究对象

1.2 研究方法

1.3 质量控制

1.4 统计方法

2 结果

3 讨论

4 小结

结论

致谢

参考文献

附录

综述

参考文献

攻读博士学位期间获得的学术成果

个人简历

导师评阅表

（4）大数据背景下心理因素的统计识别与测度研究 ——基于行为经济学研究框架的视角（论文提纲范文）

内容摘要

ABSTRACT

第1章导论

1.1 研究背景及意义

1.1.1 研究背景

1.1.2 研究意义

1.2 主要研究内容

1.3 研究思路与方法

1.3.1 研究思路

1.3.2 研究方法

1.4 分析框架及结构

1.5 创新与不足

1.5.1 创新工作

1.5.2 不足之处

第2章文献综述

2.1 大数据时代带来的变革

2.1.1 大数据时代及其特点

2.1.2 大数据时代带给科学研究的变革

2.1.3 大数据时代带给经济实践的变革

2.2 大数据时代与统计学

2.2.1 大数据与统计学

2.2.2 大数据时代统计学的发展

2.3 大数据背景下心理因素识别

2.3.1 心理因素识别方法

2.3.2 统计识别方法

2.4 大数据背景下的心理因素统计测度与应用

2.5 简要评述

第3章大数据背景下心理因素统计识别与测度——基于行为经济学实证研究的思考

3.1 行为经济学实证研究中的基础性障碍

3.1.1 行为经济学与心理因素

3.1.2 心理因素在行为经济学的应用实例

3.1.3 传统行为经济学实证研究中的障碍

3.2 实验经济学与样本数据

3.2.1 实验经济学与行为经济学实证研究

3.2.2 对实验经济学获取样本数据的简要评价

3.3 大数据背景下心理因素统计识别途径

3.3.1 行为选择结果识别

3.3.2 图像与音视频数据识别

3.3.3 智能移动终端识别

3.3.4 活动轨迹识别

3.4 大数据背景下心理因素统计测度

3.4.1 来自于结构性数据的直接测度

3.4.2 非结构性数据向结构性数据转换的间接测度

3.5 大数据背景下行为统计分析路径选择

3.5.1 模型选择路径的经济分析

3.5.2 数据转换路径的经济分析

3.5.3 两条路径的比较与选择

第4章大数据背景下的心理因素特征变量提取与统计测度

4.1 情绪的特征提取与统计测度

4.1.1 情绪的内涵

4.1.2 情绪的特征提取

4.1.3 统计测度——情绪指数

4.2 偏好的特征提取与统计测度

4.2.1 偏好的内涵

4.2.2 偏好的特征提取

4.2.3 统计测度——边际替代率与排序

4.3 注意力的特征提取与统计测度

4.3.1 注意力的内涵

4.3.2 注意力的特征提取

4.3.3 统计测度——关注度指数

4.4 安全感的特征提取与统计测度

4.4.1 安全感的内涵

4.4.2 安全感的特征提取

4.4.3 统计测度——安全感指数

第5章心理因素统计识别与测度的实证分析——基于消费者人格识别与消费决策的实证研究

5.1 研究背景

5.2 消费决策过程分析

5.2.1 经典经济学中消费者决策过程

5.2.2 基于心理账户的消费者决策过程

5.2.3 在心理账户理论中加入值函数的消费者决策过程

5.3 消费者人格识别与消费决策

5.3.1 基于计划和随心两种人格的消费决策

5.3.2 基于大五人格的消费决策过程

5.4 基于网购数据的消费者人格识别与消费决策分析

5.4.1 样本与指标的选择

5.4.2 消费者人格与消费选择的统计分析

5.4.3 基于网购数据的消费者人格识别与消费决策的实证分析

5.5 本章小结

第6章心理因素统计识别与测度的应用研究——基于股吧评论数的投资者关注度对股价的预测

6.1 研究背景

6.2 大数据背景下的投资者关注度

6.2.1 基于互联网数据的投资者关注度研究股价的文献综述

6.2.2 大数据背景下投资者关注度量化指标选择

6.2.3 投资者关注度的研究假设

6.3 股价变化过程分析

6.3.1 市场有效性

6.3.2 股价变化过程

6.3.3 基于投资者有限关注的噪声交易模型

6.4 基于股吧评论数的投资者关注对股价的预测

6.4.1 样本与指标的选取

6.4.2 投资者关注与股票价格运行的统计分析

6.4.3 基于股吧评论数的投资者关注度对股价预测的实证分析

6.5 本章小结

第7章研究结论与展望

7.1 研究结论

7.2 研究展望

附录

参考文献

在学期间发表的学术论文与研究成果参考文献

后记

（5）高校学生学业表现数据建模研究 ——基于A大学教育数据的分析（论文提纲范文）

摘要

Abstract

绪论

一、问题提出及研究意义

(一) 问题提出

(二) 研究意义

二、国内外研究现状及趋势

(一) 关于学生学业表现的研究

(二) 关于教育数据挖掘的研究

(三) 关于教学管理信息系统的研究

三、研究目标与概念界定

(一) 研究目标

(二) 概念界定

四、研究方法与技术路线

(一) 研究方法

(二) 技术路线

第一章高校学生学业表现的理论支撑与现实问题

第一节高校学生学业表现的研究模型

一、戴维·拉文的学业表现影响因素分析框架

二、亚历山大·阿斯廷的I-E-0模型与学生投入理论

三、乔治·库的大学生成功要素模型与NSSE调查

四、清华大学的中国大学生学习与发展调查(CCSS)

五、厦门大学的国家大学生学习情况调查(NCSS)

第二节影响高校学生学业表现的因素分析

一、社会及人口统计特征对学业表现的影响

二、学校环境对高校学生学业表现的影响

三、个人特征对高校学生学业表现的影响

四、学生投入对学业表现的影响

第三节高校学生学业表现的现实问题

一、高等教育扩张中学生群体的多样化与学业严重分化问题

二、高校学生的学业投入不足与学业困惑问题

三、高校对大学生学业的教学和管理支持体系构建的问题

第二章高校学生学业表现的研究设计

第一节高校学生学业表现的影响因素与研究框架

一、高校学生学业表现的影响因素

二、高校学生学业表现的研究框架

第二节高校学生学业表现的建模流程与数据理解

一、高校学生学业表现的建模流程

二、高校学生学业表现的数据理解

第三节高校学生学业表现的研究方法与研究工具

一、高校学生学业表现的研究方法

二、高校学生学业表现的研究工具

第三章 A大学学生学业表现的数据准备

第一节 A大学教学管理信息系统中的数据

一、A大学教学管理信息系统的历史与发展

二、A大学教学管理信息系统的结构与功能

三、A大学教学管理信息系统的数据及特征

第二节 A大学学生学业表现的关联数据

一、A大学学生学业表现相关管理信息系统数据

二、A大学学生学业表现问卷调查数据

第三节 A大学整合型教育数据系统的构建

一、整合型教育数据系统的概念与结构

二、整合型教育数据系统的设计与实施

第四节 A大学学生学业表现的数据采集与处理

一、A大学学生学业表现的数据采集

二、A大学学生学业表现的数据处理

第四章 A大学学生学业表现的现状分析

第一节 A大学学生学业表现的总体特征

一、A大学学生基本特征分析

二、A大学学生学业表现的统计特征

三、A大学学生学业表现的划分

第二节 A大学学生学业表现的差异分析

一、基于社会及人口统计特征的学业表现差异分析

二、基于个人特征的学业表现差异分析

三、基于学生投入的学业表现差异分析

第三节 A大学学生学业表现的趋势分析

一、A大学学生学业表现的总体趋势

二、A大学不同群体学生学业表现的变化趋势比较

三、A大学特殊群体的学业表现变化趋势分析

第五章 A大学学生学业表现的数据建模

第一节 A大学学生学业表现的回归模型

一、A大学学生学业表现回归模型的数据预处理

二、A大学学生学业表现的多元线性回归模型

三、A大学学生学业表现的二元逻辑回归模型

四、A大学学生学业表现回归模型的有效性比较

第二节 A大学学生学业表现的分类模型

一、A大学学生学业表现分类模型的数据预处理

二、A大学学生学业表现的贝叶斯网络分类模型

三、A大学学生学业表现的决策树分类模型

四、A大学学生学业表现的人工神经网络分类模型

五、A大学学生学业表现的支持向量机分类模型

六、A大学学生学业表现分类模型的有效性比较

第三节 A大学学生学业表现数据模型的优化与部署

一、A大学学生学业表现数据模型的优化

二、A大学学生学业表现数据模型的部署

第六章研究结论与研究反思

第一节研究讨论

一、高校学生学业表现的差异性、相关性及变化趋势

二、高校学生学业表现的数据模型及有效性

第二节管理对策

一、完善高校学生学业支持体系

二、提升高校教育数据挖掘能力

第三节研究的可能创新之处及不足

一、研究的可能创新之处

二、研究的不足

参考文献

在读期间研究成果

后记

（6）数据挖掘中概率论与数理统计的应用分析（论文提纲范文）

0 引言

1 统计学与数据挖掘的关系

2 统计学在数据挖掘中的应用

2.1 概率分析网 (PLN)

2.2 贝叶斯网络在数据挖掘中的运用

2.3 概率进化算法 (PMEA) 在数据挖掘中的应用

3 数据挖掘为数理统计与概率论提供了新的研究方向

4 结语

（7）大数据时代的贝叶斯估计方法研究（论文提纲范文）

摘要

Abstract

1 绪论

1.1 选题依据

1.2 研究背景

1.3 研究意义

1.4 本文章节安排

2 预备知识

2.1 大数据概述

2.2 贝叶斯分类与朴素贝叶斯分类

3 决策论与统计决策论

3.1 决策与风险

3.2 统计决策

4 线性判别函数和二次判别函数

5 贝叶斯网络

5.1 基本概念

5.2 K2算法

总结与展望

参考文献

致谢

硕士阶段的主要成果

（8）统计学方法在数据挖掘中的应用探讨（论文提纲范文）

一、数据挖掘的概述

(一) 数据挖掘的含义

(二) 数据挖掘的现状

1、数据数量大

2、数据维数大

3、多学科交叉

二、统计学与数据挖掘的关系

(一) 数据挖掘来源于统计学

(二) 统计学和数据挖掘两者相辅相成

三、统计学方法在数据挖掘中的应用

(一) 在数据挖掘中使用陈述问题和阐明假设的统计方法

(二) 需要用到统计方法中的数据收集

(三) 数据预处理中应用到统计分析方法

(四) 在对数据进行解释和得出结论中也会用到统计分析

四、结束语

（9）大数据分析的经济价值评价与过度挖掘风险研究（论文提纲范文）

内容摘要

Abstract

第1章导论

1.1 选题背景及意义

1.1.1 选题背景

1.1.2 研究意义

1.2 大数据发展概览

1.2.1 大数据的技术支持

1.2.2 大数据的应用

1.2.3 大数据政策

1.3 研究思路、框架结构和方法

1.3.1 研究思路与框架结构

1.3.2 研究方法

1.4 主要内容、创新与不足

1.4.1 主要内容

1.4.2 创新工作

1.4.3 不足之处

第2章信息、结构性数据和大数据

2.1 信息

2.1.1 信息的定义

2.1.2 信息的分类

2.1.3 信息的属性

2.1.4 信息和大数据

2.2 数据与统计学

2.2.1 结构性数据、非结构性数据和半结构性数据

2.2.2 基于结构性数据的统计学

2.2.3 统计学和大数据

2.3 大数据的时代背景

2.3.1 信息传递——从马背到互联网

2.3.2 产品传递——从集市到电商

2.3.3 资本传递——从亲情到众筹

2.3.4 人力资本——从体力到脑力

2.4 大数据与统计学的未来

2.4.1 大数据和统计学的区别和联系

2.4.2 大数据与统计学的未来

2.4.3 大数据时代的统计思维

2.5 大数据时代的挑战

2.5.1 数据转换和数据融合

2.5.2 数据存储和数据清洗

2.5.3 数据错误识别

2.5.4 数据安全

2.5.5 能耗问题

2.5.6 法律法规的健全

第3章大数据的经济价值

3.1 信息的度量

3.2 大数据经济价值的度量方法

3.3 广义和狭义的信息价值评价

3.3.1 狭义的信息价值评价

3.3.2 广义的信息价值评价

3.4 大数据经济价值的新创造

3.5 从贝叶斯分析到大数据

3.5.1 贝叶斯分析

3.5.2 贝叶斯公式

3.5.3 贝叶斯分析的信息扩展价值

3.6 大数据价值增值案例——精准扶贫

第4章大数据背景下的数据挖掘风险

4.1 数据挖掘不足和数据挖掘过度

4.1.1 数据挖掘不足

4.1.2 数据挖掘过度

4.2 数据过度挖掘的影响因素

4.2.1 数据

4.2.2 模型

4.2.3 组织结构

4.3 数据过度挖掘的风险

4.3.1 大数据背景下的数据转换风险

4.3.2 大数据背景下的统计推断风险

4.3.3 大数据背景下的统计设定风险

4.3.4 道德风险

4.4 过渡挖掘风险的度量探讨

第5章数据过度挖掘风险防范措施

5.1 技术风险防范

5.1.1 数据风险防范

5.1.2 模型风险防范

5.1.3 应用风险防范

5.2 道德风险防范

5.2.1 激励和监督机制

5.2.2 信誉机制

5.3 决策风险防范

第6章案例分析——以次贷危机中的信用评级为例

6.1 信用评级概述

6.1.1 信用评级的历史发展

6.1.2 信用评级的流程和方法

6.2 主权信用评级

6.2.1 主权信用评级的特殊性和影响

6.2.2 主权信用评级的具体说明

6.3 主权信用评级使用的数据信息

6.3.1 主权信用评级使用的数据来源

6.3.2 主权信用评级做出调整的经验信息

6.3.3 影响主权信用评级的其他非结构性数据因素

6.4 主权信用评级的质疑

6.4.1 主权信用评级的质疑分析

6.4.2 中国的主权信用评级质疑

第7章结论与展望

7.1 研究结论

7.2 研究展望

参考文献

后记

四、统计学与数据挖掘（论文参考文献）

[1]基于数据挖掘技术研究庄礼兴教授调神针法临床应用规律[D]. 于珺. 广州中医药大学, 2020(06)
[2]慢性萎缩性胃炎癌前病变证候要素数据挖掘及益气化瘀解毒法的干预机制研究[D]. 陈泽慧. 北京中医药大学, 2020(05)
[3]数据挖掘技术在新疆艾滋病预测与控制模型中的应用研究[D]. 唐丹丹. 新疆医科大学, 2020(07)
[4]大数据背景下心理因素的统计识别与测度研究 ——基于行为经济学研究框架的视角[D]. 陈志芳. 天津财经大学, 2019(07)
[5]高校学生学业表现数据建模研究 ——基于A大学教育数据的分析[D]. 丁国勇. 南京师范大学, 2019(04)
[6]数据挖掘中概率论与数理统计的应用分析[J]. 庞建平. 技术与市场, 2018(11)
[7]大数据时代的贝叶斯估计方法研究[D]. 商梦娇. 山东科技大学, 2018(03)
[8]统计学方法在数据挖掘中的应用探讨[J]. 牟洪民. 中国民商, 2017(12)
[9]大数据分析的经济价值评价与过度挖掘风险研究[D]. 刘磊. 天津财经大学, 2017(05)
[10]统计学方法在数据挖掘中的应用探究[J]. 王耀文. 商, 2015(28)

标签：数据挖掘论文; 统计学论文; 行为经济学论文; 数据挖掘算法论文; 预测模型论文;

统计和数据挖掘

一、统计学与数据挖掘（论文文献综述）

二、统计学与数据挖掘（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

写法范例：

（2）本文研究方法

三、统计学与数据挖掘（论文提纲范文）

（1）基于数据挖掘技术研究庄礼兴教授调神针法临床应用规律（论文提纲范文）

（2）慢性萎缩性胃炎癌前病变证候要素数据挖掘及益气化瘀解毒法的干预机制研究（论文提纲范文）

（3）数据挖掘技术在新疆艾滋病预测与控制模型中的应用研究（论文提纲范文）

（4）大数据背景下心理因素的统计识别与测度研究 ——基于行为经济学研究框架的视角（论文提纲范文）

（5）高校学生学业表现数据建模研究 ——基于A大学教育数据的分析（论文提纲范文）

（6）数据挖掘中概率论与数理统计的应用分析（论文提纲范文）

（7）大数据时代的贝叶斯估计方法研究（论文提纲范文）

（8）统计学方法在数据挖掘中的应用探讨（论文提纲范文）

（9）大数据分析的经济价值评价与过度挖掘风险研究（论文提纲范文）

四、统计学与数据挖掘（论文参考文献）

猜你喜欢