基于 MindSpore 框架与 Atlas200 开发板的计算机视觉实验系统设计(5月12日之前交付)
¥1600
需要与甲方沟通,要有实验步骤
在线健康社区重大慢病患者负面评论倾向的关键影响因素分析(已接单)
¥2000
情报科学
Information Science
ISSN 1007-7634,CN 22-1264/G2
《情报科学》网络首发论文
题目: 在线健康社区重大慢病患者负面评论倾向的关键影响因素分析
作者: 王辉,王晓玉,顾东晓,杨雪洁,张公让
网络首发日期: 2024-01-29
引用格式: 王辉,王晓玉,顾东晓,杨雪洁,张公让.在线健康社区重大慢病患者负面
评论倾向的关键影响因素分析[J/OL].情报科学.
https://link.cnki.net/urlid/22.1264.g2.20240129.0942.010
网络首发:在编辑部工作流程中,稿件从录用到出版要经历录用定稿、排版定稿、整期汇编定稿等阶
段。录用定稿指内容已经确定,且通过同行评议、主编终审同意刊用的稿件。排版定稿指录用定稿按照期
刊特定版式(包括网络呈现版式)排版后的稿件,可暂不确定出版年、卷、期和页码。整期汇编定稿指出
版年、卷、期、页码均已确定的印刷或数字出版的整期汇编稿件。录用定稿网络首发稿件内容必须符合《出
版管理条例》和《期刊出版管理规定》的有关规定;学术研究成果具有创新性、科学性和先进性,符合编
辑部对刊文的录用要求,不存在学术不端行为及其他侵权行为;稿件内容应基本符合国家有关书刊编辑、
出版的技术标准,正确使用和统一规范语言文字、符号、数字、外文字母、法定计量单位及地图标注等。
为确保录用定稿网络首发的严肃性,录用定稿一经发布,不得修改论文题目、作者、机构名称和学术内容,
只可基于编辑规范进行少量文字的修改。
出版确认:纸质期刊编辑部通过与《中国学术期刊(光盘版)》电子杂志社有限公司签约,在《中国
学术期刊(网络版)》出版传播平台上创办与纸质期刊内容一致的网络版,以单篇或整期出版形式,在印刷
出版之前刊发论文的录用定稿、排版定稿、整期汇编定稿。因为《中国学术期刊(网络版)》是国家新闻出
版广电总局批准的网络连续型出版物(ISSN 2096-4188,CN 11-6037/Z),所以签约期刊的网络版上网络首
发论文视为正式出版。
网络首发时间:2024-01-29 21:34:52
网络首发地址:https://link.cnki.net/urlid/22.1264.g2.20240129.0942.010
在线健康社区重大慢病患者负面评论倾向的关键影响因素分析
王辉 1,王晓玉 2,顾东晓 1,3,杨雪洁 1,张公让 1
(1.合肥工业大学 管理学院,安徽 合肥 230009;2. 安徽中医药大学第一附属医院,安徽
合肥 230031,3.合肥工业大学数据科学与智慧社会治理教育部哲学社会科学实验室,安徽
合肥 230009)
摘 要:【目的/意义】基于在线健康社区中患者生成文本进行情报分析,挖掘
出影响重大慢病患者评论负面倾向的关键因素,为有针对性地提高重大慢病患者
的满意度、改善重大慢病线上线下医疗服务水平、缓解医患矛盾提供重要参考。
【方法/过程】基于好大夫在线健康社区中重大慢病患者评论数据,构建基础词
典并采用 SOPMI 算法扩充情感词典的情感分析方法,通过 BERTopic 方法对重
大慢病患者负面评论进行主题特征分析。【结果/结论】影响重大慢病患者评论负
面倾向的关键维度为:医疗服务的治疗效果、医患交流质量、医生专业技能、医
生品德和个人特质以及医患交互的常态化关系维护等,并结合关键维度提出了相
应对策与建议。【创新/局限】将文本挖掘技术引入到在线医疗领域,基于重大慢
病患者评论分类后的负面评论数据,采用深度学习模型挖掘影响患者满意度的关
键因素。为重大慢病患者评论负面倾向的关键影响因素识别提供了数据科学的研
究范式。
关键词:重大慢病管理;负面评论;文本分析;智慧医疗;关键维度
基金项目:国家自然科学基金面上项目,医防融合的疾病多渠道协同防治与智能管理模式研
究(72271082);国家自然科学基金面上项目,基于多模态医养大数据深度聚合的动态主动
服务模式研究(72071063);安徽省重点研究与开发项目,医防协同的公共卫生监测预警大
数据智能服务系统研发与应用(No.2022i01020003);安徽省科技创新战略与软科学研究项
目,医防融合的公共卫生与重大疾病预防预警机制研究(202206f01050040)
作者简介:王辉(1998-),男,安徽六安人,硕士研究生,主要从事大数据分析研究;王晓
玉(1979-),女,安徽淮北人,博士,主要从事医药情报学研究,为本文通讯作者,邮箱:
xywang0551@163.com;顾东晓(1980-),男,安徽淮南人,教授,博士,主要从事健康信息
学研究;杨雪洁(1994-),女,山东潍坊人,博士研究生,主要从事健康信息学研究;
张公让(1966-),男,安徽蚌埠人,副教授,博士,主要从事智能决策研究
1
2
0 引言
近年来由于我国互联网医疗规范化水平持续提升,互联网医疗领域相关监管
政策框架日益完善,据中国互联网络信息中心(CNNIC)在京发布第 51 次《中
国互联网络发展状况统计报告》显示,互联网医疗成为 2022 年用户规模增长最
快的应用。截至 2022 年 12 月,我国互联网医疗用户规模达 3.63 亿,较 2021 年
12 月增长 6466 万,占网民整体的 34.0% [1]。我国在线健康社区众多,平台与平
台之间、医生与医生之间的服务质量差距较大,用户对医生和平台的服务评价褒
贬不一,患者与医生、平台间的矛盾日益凸显。在医疗行业中,正面临着成本上
升和患者需求增加这两个重要挑战。其中,提高医疗质量和控制费用是该行业主
要面临的难题[2]。换句话说,患者对医疗质量的要求不断提高,对医疗效果也有
着更高的期望[3]。重大慢病特指国家指明的心脑血管疾病、癌症、慢性呼吸系统
疾病、糖尿病四类[4]。重大慢病患者由于病程时间长、治愈率低且有研究表明,
随着慢病病程延长,患者的抑郁概率呈现上升趋势[5],所以当重大慢病患者对医
疗服务质量不满意时,气愤、沮丧等消极情绪会进一步使病情恶化,最终以负面
评论的形式展现出来,因而提升医疗服务质量对于重大慢病患者的身心健康具有
重要意义。
(1)负面在线评论研究
在线评论以定量评分和定性文本内容的混合形式,在学术界和商业研究中一
直受到高度关注,已有研究证明了它可以改变消费者态度[6],影响购买频率[7-8]和
组织声誉[9]。负面评论作为用户在购买后表达对不满意体验的抱怨和感受的渠道,
有助于挖掘消费者的观点,进而改善平台服务,提升服务质量[10-11]。已经被广泛
证明,负面评论被认为对其他消费者更有帮助[12]和更有说服力[13],负面评论对平
台和消费者的影响是深远的[14-15]。此外,与正面评论不同,负面评论在情感表达
上具有更强的性质作用[16-17],审视程度[18]和质疑态度[19]会影响其可帮助程度,这
表明通过负面评论监测并挖掘消费者的情感特征的必要性。有研究证明负面评论
与消费者购买转化率[20]、产品认知度[21]、用户偏好[22]和消费者态度[23]之间的密
切联系,这表明负面评论可以更有效地理解用户的态度倾向动机。一些学者通过
分析消费者负面评论的数量、质量和情感强度来深入研究消费者行为。蔡淑琴等
学者研究发现,感知有用性随着负面评论的强度而减弱[24]。王阳等发现负面评论
3
信息中的消极色彩、负面情绪越强烈,那么消费者愿意购买某服务或产品的意愿
就会越低[25]。
(2)重大慢病患者负面评论研究
在线健康社区中的患者在接受相应的医疗服务后,可以结合自身实际体验在
医疗平台上发布诊后评论,评论内容包括意见、体验信息和评估信息[26]。评论的
性质主要由正面、中性、负面三类构成。余佳琪等通过构建主题情感混合模型,
引入时间变量揭示糖尿病患者在不同阶段的主题与情感演化历程。该研究发现在
患病初期,负面评论多涉及疾病的起因、症状、诊断的结果,病程中期负面评论
多与药物价格、药效相关,后期则涉及并发症、副作用、心理情绪[27];Imbergamo
及其团队在分析了 6402 条在线医生负面评论后发现,患者对慢性病手术医生不
满意主要源于临床态度、不良医疗结果以及医生的技术熟练程度等方面的因素
[28]。Burkle 和 Keegan 的研究通过对医院患者调查报告的实证分析,探讨了患者
就医时的访问频率、留言频率,以及这些留言中正面和负面评论的影响,还研究
了评论的性质,以及医生的医疗事故记录对患者选择医生的影响[29]。
(3)在线健康社区中患者评论的情感分析研究
情感分析又称意见挖掘,主要是通过对主观性用户生成文本进行挖掘与分析,
提取主要的观点要素,识别情感倾向,从中获取有价值的信息[30]。部分学者针对
在线健康社区中的患者评论进行情感分析。周欢等[31]在在线健康社区采集了患
者的评论数据,使用文本分析技术获取评论的主题分布和情感分布信息。进而评
估评论的有用性,协助社区管理员和用户辨别虚假信息;叶艳等[32]通基于 LDA
和 BiLSTM 主题情感识别模型,分析在线健康社区的患者评论数据,研究在线
健康社区的服务质量及其主题情感。
(4)在线健康社区患者满意度的影响因素挖掘研究
一些学者使用在线健康社区中的患者评论通过不同的模型方法探究满意度
的影响因素。姜劲等通过 Tobit 模型,研究了患者的择医行为与在线医疗评论和
线下面对面就诊的关系,进而发现医生采取线上线下问诊方式的结合会促使患者
积极评论医生 [33]。Xu 等通过采用关联挖掘算法和情感分析技术建立模型,通过
提取在线医疗评论的内容特征,识别所挖掘的主题中包括:医生的专业性、医生
服务时长、患者的等待时间等对医疗服务质量有影响的因素,以及与患者择医时
所重点关注的因素之间的关联特征[34]。叶艳等构建了循证决策视角下的患者健
康主题分析模型,通过使用 LDA 主题模型、问卷调查法和层次分析法对在线患
者评论进行主题特征分析[35]。Wan 等对在线健康社区中的医疗评论进行内容的
提取与分析,研究影响患者在线健康社区的择医行为的因素以及这些因素对医生
的就诊数量的作用机制[36]。盛姝等采用用户识别和主题聚类算法挖掘用户群体
需求特征,构建在线健康社区中的用户画像[37]。
目前关于在线医疗患者评论的研究较少有针对重大慢病进行情感分析,针对
某类疾病负面评论主题的研究也较为少见;情感分析方法上多采用基础词典及扩
充情感词典的方法,重大慢病领域中有其特定的且没有录入上述词典中的情感词
汇,仅采用前述方法或将出现漏判、误判的情况,补充一个特定领域的情感词典
是情感分析有效且准确的基础;过往研究在主题挖掘方法上多采用基于词袋的方
法例如 LDA、NMF、LSA 等,会忽略词之间的关系,无法更好地处理文本语序、
词义以及位置信息。为了解决上述问题,本文采用 SOPMI 算法对没有录入情感
词典的情感词汇扩充一个重大慢病领域词典的情感分析方法,以丰富和完善重大
慢病患者领域的词典。同时考虑到上下文敏感性以及句子和段落之间、词与词之
间的关系,采用 BERTopic[38]深度学习模型,进而挖掘负面评论中影响病患者决
策和满意度的关键因素,对改进线上线下医疗服务水平、缓解医患矛盾有着重要
意义。
1 分析框架及方法构建
1.1 基于 BERTopic 的重大慢病关键影响因素识别分析框架
本文爬取了在线健康社区中重大慢病类别下的高血压和冠心病、糖尿病的患
者生成文本,采用 SOPMI 算法扩充情感词典的情感分析方法,并通过构建
BERTopic 深度学习模型对重大慢病患者负面评论进行主题挖掘和分析。本文的
研究框架如图 1 所示。
4
5
图 1 基于 BERTopic 的重大慢病关键影响因素识别分析框架
Figure 1 Analytics framework for negative reviews from patients with major chronic diseases
1.2 重大慢病患者评论情感分析
本文采用基于情感词典和机器学习 SOPMI 算法的混合方法对经过预处理的
重大慢病患者评论数据进行情感分析。基础情感词典未较全面覆盖重大慢病领域
相关词汇,因而在情感分析时会由于词典中未收集相关词汇而导致情感漏判、误
判的情况。机器学习 SOPMI 算法通过比对与情感词密切相关的其他词汇并对其
情感倾向及极性进行判断,能够涉及词语间的联系及不同词汇间的共现概率,提
高情感分析的准确度和适用性。研究采用该方法对未进入基础情感词典的情感词
扩充一个重大慢病患者在线评论的领域词典,进一步丰富重大慢病患者领域的情
感词词典。最后通过情感得分算法设计对重大慢病患者评论做出区分并提取包含
负面倾向的评论语句。
1.2.1 三大基础词典的构建及分值赋予
基础情感词典。本文以知网 Hownet 情感词典和清华大学李军中文褒贬义
词典作为基础情感词典。因研究重点针对负面评论进行挖掘和分析,在基础词典
的构建上合并添加了台湾大学 NSTUD 情感词典。本文所构建的基础情感词典
概况如表 1 所示。此外,对积极评价词汇赋分值为 1,消极词汇赋分值为-1。
表 1 重大慢病患者基础情感词典汇总表
Table 1 Summary table of basic dictionaries for chronic disease patients
Hownet Tinghua NTUSD 重大慢病患者基础词典 分值赋予
正面情感词典 4566 5569 2812 12947 1
负面情感词典 4370 4471 8278 17119 -1
6
程度副词词典。程度副词用来修饰形容词和副词,在某一条患者评论中出现
会使该条语句的情感倾向强度发生改变。本文采用知网 Hownet 中文程度副词词
语集,同时划分了不同程度进而赋予了不同的权值,结果如表 2 所示。
表 2 程度副词词典及对应权值赋予
Table 2 Degree adverb dictionary and corresponding weight assignment
程度副词(部分) 程度等级 权值赋予
极度、非常、绝对、完全、倍加 最 2.0
过于、特别、尤其、强、精湛 很 1.5
更加、越发、还、益、较 较 1.25
略微、有点、蛮、些许、一些 稍 0.75
丝毫、相对、半点、轻度、弱 欠 0.5
否定词词典。否定词可以修改患者评论中的情感极性,评论中出现单个否定
词则该句是否定意思,双个否定词则表示肯定。这里定义遇到一个否定词则该句
情感得分乘-1。本文通过采用 CSDN 网站收录的否定词典以及整理相关文献资料
确认所采用的否定词典如表 3。考虑到句中同时包含程度副词和否定词则该句的
情感极性会受到二者先后顺序的影响而改变的情况,本文根据程度副词和否定词
的顺序作不同赋值,若否定词在前,顺序分值记为 1,若程度副词在前,顺序分
值记为 2。
表 3 否定词典及对应分值赋予
Table 3 Negative dictionary and corresponding weight assignment
否定词(部分) 权值赋予
不、没有、不能、不行、不可以、无、不会、
不可能、白白、一点都不、绝非、不可、未能、
尚未、毫无、没有、不及、从未、从没
×(-1)n
n 为否定词出现的次数
1.2.2 基于 SOPMI 算法的重大慢病患者领域词典扩充
点间互信息算法 PMI 主要通过判断两个词语之间的语义相似度来判断词间
关系。相似度越高,词语之间的关联程度越高,表示两个词语的关系越亲密。PMI
如式(1)所示。
???(word1, word 2
) = log ?( word 1,word 2)
?(word1)?(????2)
(1)
本文所采用的 SOPMI 算法选用情感极性显著的若干个积极、消极情感词作
为算法的积极基准词和消极基准词,分别用 Pwords(Pw) 和 Nwords(Nw)代表。
通过采用 TF-IDF 对重大慢病患者评论中的动词、形容词、名词进行排序并提取
7
靠前的词作为靶向词与基准词作比对并去重,将剩余的词作为需要进行判断极性
的未知极性词语 Word(W),将 Word 分别与 Pwords、Nwords 进行点间互信息计
算,根据二者之差判别 Word 的情感极性。SOPMI 的计算如式(2)所示。
?????(?)
= ???(??, ?) − ???(??, ?)
= ∑??∈?????? ? ??(??, ?) − ∑??∈?????? ? ??(??, ?)
(2)
通过式 2.1 和 2.2 计算 SOPIM 值,若 SOPMI>0 则计入正面情感词词典,
相应的分值仍赋予 1;反之计入负面情感词词典,相应分值赋予-1;SOPMI 值=
0 的 Words(W)不作考虑。重大慢病患者在线评论领域词典示例如表 4 所示。
表 4 重大慢病患者在线评论领域词典示例
Table 4 Example of an online review domain dictionary for chronic disease patients
负面词汇 负面评价 SOPMI 值 正面词汇 正面评价 SOPMI 值
医术低劣 -15.33241 救死扶伤 17.62584
医识狭窄 -16.24712 手到病除 12.36547
草率 -6.97632 扁鹊在世 21.57982
庸医 -23.12568 华佗 5.48941
败德辱行 -13.45894 对症下药 9.65471
1.2.3 情感得分算法设计
在完成情感词词典(融合基础情感词典与重大慢病患者评论领域词典)、程
度副词词典、否定词词典的构建之后,按照上述词典各类词的分值赋予,逐个计
算患者评论中每条分句的情感得分,计算公式如式 3。
?(?) = ?(?) ∗ ?(?) ∗ (−1)
?
∗ ? (3)
F(a)为某一评论分句的情感总分; q(a)为某一评论分句中情感词累加分值;
c(a) 为程度副词的累加分值;(−1)
?为否定词的权值,其中 n 为该分句中否定词
出现的次数;某一评论分句中同时包含程度副词和否定词时,定义 t 为顺序权值;
1.3 主题建模方法构建
在线评论挖掘是一种在大量非结构化评论文本中寻找有价值信息与知识的
过程[39]。主题模型是最通用的评论挖掘方法之一,采用生成概率模型从文档集合
中找到潜藏的主题[40]。BERTopic 是一种基于文本的无监督主题模型,用于主题
挖掘的算法,它结合了 BERT 和聚类技术[41]。
1.3.1 使用 BERT 提取文档嵌入词向量
在挖掘重大慢病患者负面文本的过程中,首先使用 BERT 嵌入词向量,这些
8
嵌入具有上下文敏感性并保留了句子和段落之间的关系。进而将负面文本表示为
一个连续的向量空间中的点或向量。
1.3.2 使用 UMAP 进行词向量降维
UMAP 是一种非线性降维技术,该算法最早由 Mclnnes 等人提出[42]。通过
将高维重大慢病患者评论数据嵌入到低维空间中,得到低维词向量,并在保留原
始数据的局部结构的同时尽可能减小全局误差。
(1)通过构建一个 k-近邻图(KNN graph)来表示高维数据,对每个负面评
论数据点找到其最近的几个数据点,并计算它们之间的距离。UMAP 采用联合概
率的形式来建立高维样本之间的相似度关系。对于某一个点 m 的 K 个近邻点 n
有:
?(?,?) = ?

?(??,??)−??
?? (4)
当所有负面评论数据点计算完成后,为了保证任意两个数据点概率的一致性,
引入表达式[43]? = ? + ?
? − ?∇?
?。式中 A 为所有?(?,?)组成的加权邻接矩阵;∇
为矩阵的 Hadamard 乘积;B 为加权邻接矩阵。
(2)在完成高维数据表示后,UMAP 使用曲线族 1
1+?⋅?(2?) 来建模低维距离
概率。构建低维度下的概率函数为:
?(?,?) = (1 + ?(?? − ??
)
2?
)
−1
(5)
式 2.5 中,(?? − ??
) 为低维度负面评论任意数据点??与??间的距离;s 和
t 为超参数。为了让经过降维的负面评论数据集尽可能接近原数据集,需要通过
优化?(?,?)和?(?,?)之间的交叉熵损失来实现。交叉熵 Loss 函数[43]为:
??(?, ?) = ∑ ∑ [???(?)log (
?
??
?
,
,
?
?
(
(
?
?
)
)
) + (1 − ???(?))log (
1
1


?
???
??
(
(
?
?
)
)
)] ? ? (6)
1.3.3 HDBSCAN 算法对低维词向量进行聚类
为探索影响重大慢病患者做出负面评论不同类别的因素,采用 HDBSCAN
密度聚类算法进行降维后的数据分类,将同类别的样本尽可能地聚集在一起,使
彼此相似度更高。
HDBSCAN 是由 Campello 等[44]提出的一种密度聚类算法,通过寻找高密度
区域并将其与相邻的低密度区域分开来执行聚类。对于给定的重大慢病患者负面
评论数据集,基于 HDBSCAN 算法采用较小的半径 epsilon 以内的邻居数来计算
每个数据点的密度值。然后基于密度值,用算法标记每个数据点为“核心点”。
根据密度连接的概念,从最小生成树的集合中右侧删除连续增长的边缘,形成一
个由连通组件和孤立点组成的森林。最后通过分配每个连通组件和全部孤立点明
确的标签,并将这些组件转换为簇,即可得到患者负面评论的影响因素类别的初
步结果。
1.3.4 c-TF-IDF 主题词提取与优化
c-TF-IDF 是一种针对代码片段的文本表示方法,它基于 TF-IDF 改进而来。
c-TF-IDF 的计算方式和 TF-IDF 类似,但在计算代码片段中某个词的 TF 时,使
用了不同的公式,具体如下:
??(?) = log(1 + ??) (7)
???(?) = ??? (
1+
?
??
) (8)
? − ?? − ???(?) = ??(?) ∗ ???(?) (9)
其中??是代码段中某词 w 的频率;其中 N 是代码段总数,??是包含某词 w
的代码段数量;
1.3.5 使用 MMR Coherence 对主题词进行筛选
MMR Coherence 是一种评估文本相关性的方法,假设最佳文本既与查询相
关,又尽可能不同于已选择的文本。在对重大慢病患者负面评论主题的每一步筛
选中,MMR Coherence 会计算每个候选文本与查询和已选择文本之间的相关性,
并为每个文本分配一个分数,选择具有最高分数的文本作为下一个选择进而完成
每轮的筛选。
2 数据处理与分析结果
2.1 数据采集与预处理工作
好大夫在线平台是国内最早的在线健康社区,该平台有来自全国各地数以万
计的医生为患者提供专业的咨询与医疗服务。当前,国内外学者主要选择好大夫
在线、丁香园等大型在线健康医疗社区以及部分垂直病症医疗网站,探究其用户
行为规律与影响因素[45]。研究抓取了 2022 年 12 月-2023 年 1 月慢性病类别下的
高血压、糖尿病、冠心病三种慢性疾病的患者评论文本。其中高血压 70283 条评
论;糖尿病 94872 条评论;冠心病 89464 条评论,共计 254619 条评论数据。在
对重大慢病患者评论进行分析时,考虑到患者评论的自由度较高,文本数据会存
9
10
在一些噪音,噪音包括标点符号、特殊符号、信息冗余或信息量较少的评论、无
效评论、停用词以及无法表达患者情感的代词等,本文对数据进行了一系列预处
理步骤,包括去除停用词、删除无用的标点符号、去除重复评论和无效评论等,
同时对数据进行了分词以及词性标注。最后剩余 193746 条有效数据。图 2 为数
据处理前后的比较。
图 2 数据预处理前后对比
Figure 2 Comparison before and after data preprocessing
2.2 重大慢病患者评论情感分析
每条重大慢病患者评论由若干个分句组成,将所包含的分句分值求和即可得
到该条评论总得分。若情感总分为正数即判定为正面评论,为负数则判定为负面
评论,总分为零则为中性评论。研究采用前文构建的基础情感词典和重大慢病患
者扩充后的领域词典,通过设计 DictClassifier 分值函数,计算出 193746 条重大
慢病患者评论的情感得分,得分区间位于[-32,43],定义情感得分的绝对值为 A。
若 0<A<10,则该条评论的情感倾向程度低;若 10≤A<15 则该条评论具有较
强的情感倾向;若 A≥15 则该条评论具有强烈的情感倾向。实验结果分析如表 5
所示。
2.2.1 情感分析结果展示
表 5 重大慢病患者评论情感分类展示
Table 5 Display of emotional classification for chronic disease patients' comments
评论情感类型 倾向程度 数量(条) 占比 总计
正面评论
一般满意 57688 32.98%
174874 满意 72007 41.18%
非常满意 45179 25.84%
中性评论 无区分 7.03% 13624
负面评论
一般不满 746 14.21%
5248 不满 1165 22.20%
非常不满 3337 63.59%
分析表 5,正面评论占据总评论数据的绝大部分,数据量有 174874 条,占
总评论数据比例达到了 90.30%。其中非常满意的患者占比约 25.84%,满意和一
般满意的患者占比约为 74.16%;中性评论 13624 条,占总评论数据比例约为
7.03%。负面评论和中性评论共计 18872 条,占总评论数据的 9.7%。可见大部分
重大慢病患者对在线医疗和线下面诊服务持比较满意的态度,但中性评论和负面
评论仍占据一定的比例,中性评论包含着负面语句和建设性意见语句,也是探究
影响重大慢病患者医疗服务满意度因素的重要数据。值得注意的是负面评论中,
非常不满的患者占比达到 63.59%,情感倾向尤为强烈。
2.2.2 提取包含负面倾向的评论语句
考虑到中性评论的计算过程中存在负值即存在负面情感词,同时包含一定的
建设性评价语句,研究将上述情感总分处于[-32,0]区间内的中性评论中的负面语
句、建设性语句和负面评论一并取出,采用 BERTopic 主题挖掘模型对影响重大
慢病患者做出负面评论的因素进行深入研究。
2.3 BERTopic 主题建模结果分析
2.3.1 重大慢病患者负面评论的主题聚类分析
与重大慢病患者负面评论相关的每个主题都由若干个与该主题高度相关的
词汇组成。重大慢病患者负面评论主题聚类图 3 将处理过的负面文本关键词数据
以柱状图的形式呈现出来,同时显示与每个主题相关联的文档数量。
图 3 负面评论主题聚类条形图
Figure 3 Negative comment topic clustering bar chart
首先横向比较图 3 中八个主题集合,Topic 1 和 Topic 2 中的“忘记、很差、
不耐烦、不尊重”等词更加倾向于态度的细分衡量,是患者做出负面评论的影响
因素之一。Topic 3 中的“一直、长期”以及 Topic 1 中的“多次”、Topic4 中的
“复诊”符合重大慢病是一种长期性疾病的特质,具有一定的持续性和反复性。
Topic5 中的“医德”以及 Topic1 中的“傲慢”、Topic2 中的“不负责、不尊重”
11
等涉及医生的个人品德特质,即为患者做出负面评论的又一影响因素。Topic4 中
的“治疗、复发、效果、糟糕”等关键词与治疗的效果、医生的专业水准相关。
Topic5 中涉及了“图文”这一关键词,同时与“问诊、回复、太贵”有一定关联。
Topic6 中的“抑郁、焦虑、心理”等词表现了重大慢病患者的精神心理状态。上
述三个主题所涉及的负面评论的影响因素包括医生个人品德、专业水平、交流过
程效果、患者个人身心状况。Topic7 中的“医院、排队、护士、助手、病房”等
涉及线下就诊时,患者对除医生外的人员、环境的不满。其次纵向比较, Topic5
中的“图文”的重要性为 0.2,而“医院”的重要性达到了 0.6。这也是可理解的,
线下问诊相较于线上问诊更加真切,重大慢病患者所能感知的维度也会更广,因
而线上预约线下面诊后能够评价的角度就相对较多,这些角度多与线下承载实体
“医院”相关。所以线下就诊时相关的不满意要素是在线健康社区中重大慢病患
者做出负面评论的考量因素。
2.3.2 重大慢病患者负面评论主题结构及关联分布结果
重大慢病患者负面评论的散点图(图 4)通过可视化患者负面评论文档在主
题空间中的分布,进一步理解文档集合中的患者所重点关注的主题结构和各个文
档之间的关联性。
图 4 负面评论可视化散点图
Figure 4 Visual scatter chart of negative comments
针对图 4 重大慢病患者负面评论的可视化散点图,重大慢病患者负面评论文
档被映射到主题空间中,并赋予坐标,而主题空间是通过前述步骤(提取嵌入、
降维、聚类等)生成的。进一步分析可以看到,重大慢病患者重视与医生的交流过
程,也是其做出负面评论的重要影响因素。例如数据集合 8 中的“模糊、病历本”、
数据集合 10 和 11 中的“分钟、打发、太慢”等。观察数据集合 12 和 16,“外
地、大老远、路途”等词也进一步反映了重大慢病患者异地就医的现状以及其长
12
距离往返所付出的代价和得到的医生反馈与治疗效果并不匹配亦是影响患者做
出负面评论的一大影响因素。不同主题在数据集中的分布情况也是有区别的,可
以看到数据集合 1 中的“结果、态度、医院”等数据点的聚焦程度较高,说明该附
近的负面评论文档之间的主题相似性较高,同时也反映了重大慢病患者对于治疗
的结果、医生的态度以及医院的情况是比较关注的。而在数据集合 4 中,“治疗、
复发、效果”等词的数据点较为分散,其附近的评论文档与其所归类的医生的治
疗效果之间是有一定差异的。数据集合 1 与 3 附近的数据点较为接近,说明两类
主题关联度较高。深入分析此现象,重大慢病的疾病特征是长期性、持续性,需
要多次与医生会诊,而患者通常会选择同一个医生进行长期的治疗。若其所选择
的医生对其病情以及过往接触过程有所遗忘,或因医生个人原因导致无法再进行
后续治疗而使患者不得不更换医生,这在某种程度上会使得重大慢病患者不满,
进而发表负面评论,这是影响患者做出负面评论的重要影响因素之一。
2.3.3 重大慢病患者负面评论主题亲缘性和相似性分析
重大慢病患者负面评论的主题层次结构图(图 5)显示了不同重大慢病患者
负面评论主题之间的关系,能够理解重大慢病患者重点关注的主题之间的差异和
对话,并调整挖掘到的负面评论的影响因素以改善文本分析的结果。
图 5 负面评论主题层次结构图
Figure 5 Negative comment theme hierarchy chart
针对图 5 主题层次结构图,不同的颜色代表不同的聚类簇或子主题。其中数
据类别 6、4、2、7 被分配到同一聚类簇,说明其具有相近且关联的语义内容。
尤其是数据类别 6“沟通、心理、抑郁”与数据类别 2 中的“不负责、不耐烦”等词
间的关联性值得重视,这是由于重大慢病病程时间长、治愈率低,使得患者在精
神和心理上有压力,有些重大慢病患者伴随着患有抑郁症。而医生的不负责、不
耐烦、不沟通或沟通较少会使得重大慢病患者的心理压力更重,这样又会影响原
有的病情以及相应的治疗效果,使得患者做出极端的负面评论。所以患者个人身
13
心健康及与医生交流的质量是重大慢病患者做出负面评论的重要因素之一。此外,
数据类别中的 13、11、5 被分配到同一聚类簇中,“图文”一词代表平台的图文问
诊服务,“花钱、太慢、回复、暴躁、医德”等词涉及线上问诊的定价、医生回复
速度及其个人品德和特质是重大慢病患者线上问诊时所关注的重点因素。
2.3.4 重大慢病患者负面评论主题相关性分析
重大慢病患者负面评论的热力图(图 6)提供了患者重点关注主题之间的相关
性信息,可以对有关患者所重点关注的主题之间的关系建立直观认识。
图 6 负面评论热力图
Figure 6 Negative review heat map
针对重大慢病患者负面评论的热力图中(图 6),颜色深浅表示主题之间的
相关性或相似性程度。数据类别 0 与 16 中,涉及“大夫、路途、复查、结果、态
度、医院”等词,相关性得分达到 0.8,可见医生的态度与医院的环境对重大慢病
患者满意度有影响的关联度较大,也是重大慢病患者做出负面评论的影响因素。
数据类别 6 中的“沟通、心理、抑郁”与 2 中的“不负责、不耐烦”、3 中的“一直、
长期”的相关性得分达到了 0.7,重大慢病病程时间长、治愈率低的特点使得患者
产生心理和精神上的压力,而医生的不负责、不耐烦等沟通和态度上的表现,易
使重大慢病患者在回顾诊疗服务体验过程时产生负面倾向,进而在平台上做出负
面评价。此外,数据类别 6 中的“沟通、心理、抑郁”与数据类别 16 中的“助手、
排队”等词的相关性得分为 0.7,这说明线下转诊时,除医生以外的人员态度及行
为表现都会对患者的满意度产生影响,且线下排队的时间及秩序都会影响重大慢
病患者的情绪及心理。数据类别 9 中的“能力、专业”和 15 中的“改善、明显、仅
仅”的相关性得分达到 0.7,重大慢病患者对医生的专业能力及治疗的效果方面是
14
比较重视的,值得一提的是,当定位到涉及专业能力的负面评论,发现其多与助
手、实习生、进修生相关,而在此处的关联性得分表现并不明显。数字类别 5 中
的“医德、太贵、回复”和 11 中的“太慢、图文、咨询”相关性得分有 0.6,此处涉
及了线上问诊服务,线上问诊患者的负面评论影响因素包括:医生的品德、问诊
定价、回复速度等。
3 总结及展望
本研究通过构建基础词典、扩充情感词典的情感分析方法,采用主题模型对
重大慢病患者负面评论文本进行了可视化结果分析,挖掘出重大慢病患者评论负
面倾向的重要影响因素:医疗服务的治疗效果、医患交流质量、医生的专业技能、
医生的态度和品德以及具有重大慢病特性的医患交互的常态化关系维护。针对线
上预约线下转诊的患者,其评论负面倾向的影响因素包含挂号及排队等待的时间
和秩序、护士和导诊等医务人员的态度及行为。综上,我们提出以下建议:
(1)加强患者人文关怀,保持态度行为上的连贯性,通过开展心理疏导有
效缓解患者精神压力。重大慢病的病程周期长、治愈率低,部分患者心理状态差
甚至患有抑郁症,患者需定期复查,与医生接触频繁。医生可建立患者常态化档
案,记录患者心理状况和画像等信息,同时进行心理方面的疏导,引导患者调节
自身心理情绪,为重大慢病患者提供专业和人性化的医疗健康服务。
(2)提供有效的患者咨询反馈渠道,帮助患者及时排忧解难。在线健康社
区中的诊疗医生,及时回复患者所问、提供详细的病况解释和用药指导、采用多
形式的沟通渠道帮助患者缓解病情和焦虑。在线健康社区也可加大监管问责力度,
持续优化在线医疗服务水平。
(3)加强线上医疗服务机构的线下匹配机制,强化线下医务人员职业素养
培训和考核监管,提升全流程医疗服务治理水平。部分重大慢病患者反馈在平台
预约面诊服务时,线下医院不予认可,并且就诊时挂号排队秩序以及护士、导诊
等医务人员的态度和行为导致就诊体验差。在线健康社区应加强与合作机构的沟
通协调机制,避免患者错过治疗窗口期;医院应加强医务人员队伍建设,健全医
务人员职业素养培训和考核机制,提升医疗综合治理水平。
15


药物副作用监测与预警系统(已完成)
¥2000
一.立题依据(课题研究的目的与意义及国内外研究现状)
一、研究目的
1.提高药物安全性:通过持续监测和分析药物使用过程中的副作用数据,及时发现潜在的安全风险。为药物监管机构提供科学依据,支持其制定或调整药物使用指南和政策。
2.优化药物治疗方案:分析不同药物、不同剂量以及不同患者群体之间的副作用差异,为医生提供个性化的用药建议。
促进药物的合理使用,减少不必要的药物副作用和药物相互作用。
3.增强公众健康意识:通过公开药物副作用信息,提高公众对药物使用风险的认识。鼓励患者与医生进行更充分的沟通,共同制定更安全有效的治疗方案。
二、研究意义
保障患者权益:及时发现并处理药物副作用,保护患者的身体健康和生命安全。减少因药物副作用导致的医疗纠纷和社会成本。
综上所述,药物副作用监测与预警系统的研究对于提高药物安全性、优化药物治疗方案、促进新药研发、增强公众健康意识以及保障患者权益等方面都具有重要的意义和价值。
三、国内研究现状
1.研究起步较晚:我国在药物副作用监测与预警系统方面的研究起步相对较晚,但近年来发展迅速。
2.数据来源多样:国内ADR信号检测研究的数据来源广泛,包括临床试验、文献报道、药物不良反应数据库等。
3.技术指南为主:国内TDM(治疗药物监测)指南以技术指南为主,管理指南较少,且循证方法运用不足。
4.监测系统建设:中国已建立了国家药品不良反应监测系统,用于收集、分析和评估药物不良反应信息,但系统的完善性和国际接轨程度仍有待提高。
四、国外研究现状
1.成熟数据库建立:美国、日本、欧洲、世界卫生组织等都建立了较为成熟的药物警戒数据库,这些数据库在ADR监测、信号挖掘和药物上市后再评价等方面发挥了重要作用。
2.数据质量控制:国外药物警戒数据库普遍注重数据质量控制,如FAERS数据库只接收按照ICH E2B编写的XML格式提交的电子ICSR,以确保数据上报和应用编译格式的统一性。
3.广泛应用:国外药物警戒数据库的信息被广泛应用于药物安全通讯、复合风险警报、药物警报和声明、用药指南等领域,以确保用药安全。
二.研究内容
药物副作用监测与预警系统的研究内容主要包括药物副作用的收集和汇总、药物副作用的监测与报告、不良反应报告收集等。下面是对这些研究内容的简要说明:
1.药物副作用的收集和汇总:制药厂商在药物开发、研究和上市前,应进行全面的药物副作用收集和评估。这包括通过临床试验、动物试验、文献报道和广泛使用的临床数据,对药物可能的副作用进行分析整理,形成药物说明书中对药物副作用的描述和警示。
2.药物副作用的监测与报告:药物上市后,需要对使用药物的患者进行系统的副作用监测和及时报告。监测可以通过临床试验、文献研究、药物不良反应数据库等方式进行。一旦发现有可能与药物相关的不良反应,在第一时间应及时向相关机构和监管部门报告,以便发布相关预警信息和采取措施。
3.不良反应报告收集:医生、药师、患者等可以通过系统提交药物不良反应报告,并提供相关病例和药物信息。
4.不良反应评估:系统将对收集到的不良反应报告进行评估,包括判断是否与药物有关、严重程度等。
5.不良反应分析:通过对不良反应报告进行统计和分析,系统可以识别出药物的常见不良反应、发生的频率、相关因素等。
6.不良反应预警:当系统监测到某种药物的不良反应发生率异常升高时,可以及时发出预警信息,通知相关医务人员注意用药安全。
7.不良反应信息共享:系统可以将收集到的不良反应信息进行匿名化处理后,与其他类似系统进行数据共享和合作,以加强不良反应的监测和评估。
总的来说,药物副作用监测与预警系统的研究内容涵盖了从药物研发阶段到上市后的全过程,旨在通过科学的方法和技术手段,及时发现和减少药物副作用的发生,保障患者的用药安全。
三.方案和技术路线
药物副作用监测与预警系统的研究方案和技术路线主要包括数据收集与处理、预警模型构建与优化、预警信号识别与评估以及系统效能评估与改进等步骤。具体如下:
1.数据收集与处理:自动从电子病历、实验室信息系统、药房管理系统等多个数据源收集相关的患者数据、药品使用信息和不良反应报告。对收集到的数据进行整合和清洗,以确保数据的准确性和一致性。利用大数据技术,如云计算和分布式存储,处理和分析海量的医疗数据。
2.预警模型构建与优化:应用机器学习算法,如深度学习、随机森林、支持向量机等,对收集到的数据进行处理和分析。基于历史数据和经验知识,建立预测模型来预测药品不良反应的发生。设定合适的阈值和规则,当某些指标或参数超过设定的阈值时,触发预警机制。
3.预警信号识别与评估:通过统计分析和数据挖掘技术,识别出药物的常见不良反应、发生的频率、相关因素等。当系统监测到某种药物的不良反应发生率异常升高时,及时发出预警信息。对发出的预警信号进行评估,包括判断是否与药物有关、严重程度等。
4.系统效能评估与改进:对预警系统的效能进行评估,包括准确性、敏感性、特异性等指标。根据评估结果,不断优化预警模型和规则,提高系统的性能和准确性。持续更新和维护知识库,以适应新的医疗环境和需求。
四.特色与创新
药物副作用监测与预警系统的研究特色与创新主要体现在以下几个方面:
1.多源数据集成:系统能够自动从电子病历、实验室信息系统、药房管理系统等多个数据源收集相关的患者数据、药品使用信息和不良反应报告。这种多源数据的集成为药物副作用的全面监测提供了坚实的基础。
2.实时监测与预警:通过实时监测药物相互作用风险,系统能够提供精准预警,帮助患者避免潜在的风险。这种实时性和精准性是传统监测方法所无法比拟的。
3.人工智能技术应用:系统利用大数据分析、自然语言处理技术和知识图谱算法等先进技术,能够高效地分析和处理海量数据,提高监测的准确性和效率。
4.个性化预警提示:系统可以根据患者的具体情况提供个性化的预警提示,帮助医生和患者做出更明智的用药决策。这种个性化服务能够更好地满足患者的个体化需求。
基于大数据的老年人药物不良反应与潜在性不当用药相关研究(已接单)
¥2000
旨在通过整合和分析大量医疗数据,为提高老年人用药安全性提供科学依据。以下是该研究的主要内容:
数据收集
从电子病历系统、医保报销记录等多渠道收集老年人的用药信息、疾病诊断、检查检验结果、不良事件报告等数据,构建全面的数据仓库。

数据预处理
对收集到的数据进行清洗,去除错误、重复或不完整的数据;采用自然语言处理技术和医学本体库对文本数据进行标准化和术语统一;利用数据挖掘算法识别并纠正异常值。

不良反应信号检测
运用数据挖掘算法,如关联规则挖掘、聚类分析等,结合机器学习模型对药物不良反应信号进行检测和预测,建立不良反应信号数据集。

潜在不当用药评估
制定适合老年人的用药评估指标和标准,综合考虑年龄、合并症、用药数量等因素,评估潜在不当用药情况。

知识整合与可视化
将药物不良反应信息、潜在不当用药评估结果等进行整合,构建知识库;通过可视化技术展示研究成果,为临床医生提供决策支持。

系统设计与实现
设计并实现一个基于大数据的药物不良反应监测与预警系统,具备实时监测、风险评估、预警提示等功能,辅助医疗机构和监管部门及时发现和处理老年人药物不良反应问题。

效果评估与优化
对研究成果进行临床验证和实际应用效果评估,根据反馈意见不断优化系统功能和性能,提高系统的实用性和可靠性。

综上所述,本研究通过构建基于大数据的老年人药物不良反应与潜在性不当用药监测与预警系统,实现了对老年人用药安全的实时监测和有效干预。未来将继续优化系统功能,拓展应用场景,为保障老年人健康贡献力量。
一、系统设计目标
本系统旨在利用大数据技术,构建一个高效、精准的老年人药物不良反应与潜在性不当用药监测和预警平台。通过对多源医疗数据的深度挖掘与分析,及时发现并干预老年人用药过程中的潜在风险,提高用药安全性和合理性,为老年患者的健康保驾护航。

二、系统架构设计
数据层:整合电子病历、医保报销记录、药品销售数据等多源异构数据,构建统一的数据仓库,运用ETL工具进行数据抽取、转换和加载,确保数据的一致性与准确性。

处理层:采用分布式计算框架如Hadoop、Spark等,对海量数据进行并行处理,运用数据挖掘算法如关联规则、聚类分析等,识别潜在的药物相互作用和不良反应模式。

应用层:开发用户友好的前端界面,提供药物查询、不良反应报告、风险评估等功能;同时,建立预警机制,当检测到潜在风险时,及时向医护人员和患者推送通知。

存储层:选用高性能的数据库管理系统,如MySQL、MongoDB等,确保数据的高效存储与检索;同时,采用分布式文件系统如HDFS,实现数据的冗余备份与高可用性。

三、关键技术选型
大数据处理技术:选用Apache Hadoop和Apache Spark作为大数据处理的基础框架,利用其强大的分布式计算能力,快速处理海量医疗数据。

机器学习算法:结合老年人用药特点,选择合适的机器学习算法,如决策树、随机森林等,构建药物不良反应预测模型。

自然语言处理技术:运用NLP技术,对电子病历中的文本数据进行实体识别、关系抽取等处理,提取关键信息,为后续分析提供支持。

数据可视化技术:采用Tableau、Echarts等数据可视化工具,将分析结果以图表形式呈现,便于医护人员直观理解与决策。

四、实施步骤
需求调研与分析:深入了解医疗机构的业务流程与需求,明确系统功能定位;同时,收集相关法规政策与行业标准,确保系统的合规性。

数据收集与预处理:建立数据收集渠道,确保数据的全面性与时效性;对收集到的数据进行清洗、去重、标准化等预处理工作,提高数据质量。

模型构建与训练:基于预处理后的数据,构建药物不良反应预测模型;利用历史数据对模型进行训练与优化,提高预测准确性。

系统开发与测试:根据系统架构设计,进行前后端开发工作;完成后进行全面的系统测试,包括功能测试、性能测试、安全测试等,确保系统稳定可靠。

部署与上线:将系统部署到生产环境中,进行必要的配置与调试;正式上线后,持续监控系统运行状态,及时处理潜在问题。

维护与升级:建立系统维护团队,负责日常运维与技术支持工作;定期收集用户反馈,对系统进行迭代升级与优化。
论文代写(已完成)
¥210
专科论文6000字左右,不查重
题目是 毕业论文题目:《基于Rasa框架的电商智能客服机器人开发与应用》,以淘宝店铺场景为例
论文修改(已接单)
¥300
第五章系统实现部分好好改
还有做的系统里的东西可以以图片,图表,流程图等呈现
在论文里
论文最大的问题是大片的粘贴复制,
查重过不了就麻烦
了,自己一定好好改,一条一条过
项目调试(已完成)
¥500
编译成功一个之前的net framework和wpf的前端项目,visual studio 2022
环境。之前是工作的,后来变了开发环境就编译不成功了。应该是依赖包的
问题。需要编译好能够连接后台服务运行起来,后台服务一直是工作的,不
在工作范围。
百战健身app添加功能(已完成)
¥200
鸿蒙百战健身的基础上,加登录注册,个人信息,个性化推
荐,健身数据可视化
毕设全套(已完成)
¥500
需要写论文,毕设项目,ppt,开题报告,协助答辩
网购下单汽车app(已完成)
¥1000
做一个类似于懂车帝与外卖平台相结合的app不需要上线 用鸿蒙SQLite数据库就可以
就是网购下单汽车
登录注册模块,个人中心模块,车辆浏览模块,车辆搜索模块,购物车模块

项目技术栈:

项目需求描述:

项目接单要求:

项目如何接单:

课程分类

百战程序员微信公众号

百战程序员微信小程序

©2014-2025百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园
网站维护:百战汇智(北京)科技有限公司
京公网安备 11011402011233号    京ICP备18060230号-3    营业执照    经营许可证:京B2-20212637