情报科学
Information Science
ISSN 1007-7634,CN 22-1264/G2
《情报科学》网络首发论文
题目: 在线健康社区重大慢病患者负面评论倾向的关键影响因素分析
作者: 王辉,王晓玉,顾东晓,杨雪洁,张公让
网络首发日期: 2024-01-29
引用格式: 王辉,王晓玉,顾东晓,杨雪洁,张公让.在线健康社区重大慢病患者负面
评论倾向的关键影响因素分析[J/OL].情报科学.
https://link.cnki.net/urlid/22.1264.g2.20240129.0942.010
网络首发:在编辑部工作流程中,稿件从录用到出版要经历录用定稿、排版定稿、整期汇编定稿等阶
段。录用定稿指内容已经确定,且通过同行评议、主编终审同意刊用的稿件。排版定稿指录用定稿按照期
刊特定版式(包括网络呈现版式)排版后的稿件,可暂不确定出版年、卷、期和页码。整期汇编定稿指出
版年、卷、期、页码均已确定的印刷或数字出版的整期汇编稿件。录用定稿网络首发稿件内容必须符合《出
版管理条例》和《期刊出版管理规定》的有关规定;学术研究成果具有创新性、科学性和先进性,符合编
辑部对刊文的录用要求,不存在学术不端行为及其他侵权行为;稿件内容应基本符合国家有关书刊编辑、
出版的技术标准,正确使用和统一规范语言文字、符号、数字、外文字母、法定计量单位及地图标注等。
为确保录用定稿网络首发的严肃性,录用定稿一经发布,不得修改论文题目、作者、机构名称和学术内容,
只可基于编辑规范进行少量文字的修改。
出版确认:纸质期刊编辑部通过与《中国学术期刊(光盘版)》电子杂志社有限公司签约,在《中国
学术期刊(网络版)》出版传播平台上创办与纸质期刊内容一致的网络版,以单篇或整期出版形式,在印刷
出版之前刊发论文的录用定稿、排版定稿、整期汇编定稿。因为《中国学术期刊(网络版)》是国家新闻出
版广电总局批准的网络连续型出版物(ISSN 2096-4188,CN 11-6037/Z),所以签约期刊的网络版上网络首
发论文视为正式出版。
网络首发时间:2024-01-29 21:34:52
网络首发地址:https://link.cnki.net/urlid/22.1264.g2.20240129.0942.010
在线健康社区重大慢病患者负面评论倾向的关键影响因素分析
王辉 1,王晓玉 2,顾东晓 1,3,杨雪洁 1,张公让 1
(1.合肥工业大学 管理学院,安徽 合肥 230009;2. 安徽中医药大学第一附属医院,安徽
合肥 230031,3.合肥工业大学数据科学与智慧社会治理教育部哲学社会科学实验室,安徽
合肥 230009)
摘 要:【目的/意义】基于在线健康社区中患者生成文本进行情报分析,挖掘
出影响重大慢病患者评论负面倾向的关键因素,为有针对性地提高重大慢病患者
的满意度、改善重大慢病线上线下医疗服务水平、缓解医患矛盾提供重要参考。
【方法/过程】基于好大夫在线健康社区中重大慢病患者评论数据,构建基础词
典并采用 SOPMI 算法扩充情感词典的情感分析方法,通过 BERTopic 方法对重
大慢病患者负面评论进行主题特征分析。【结果/结论】影响重大慢病患者评论负
面倾向的关键维度为:医疗服务的治疗效果、医患交流质量、医生专业技能、医
生品德和个人特质以及医患交互的常态化关系维护等,并结合关键维度提出了相
应对策与建议。【创新/局限】将文本挖掘技术引入到在线医疗领域,基于重大慢
病患者评论分类后的负面评论数据,采用深度学习模型挖掘影响患者满意度的关
键因素。为重大慢病患者评论负面倾向的关键影响因素识别提供了数据科学的研
究范式。
关键词:重大慢病管理;负面评论;文本分析;智慧医疗;关键维度
基金项目:国家自然科学基金面上项目,医防融合的疾病多渠道协同防治与智能管理模式研
究(72271082);国家自然科学基金面上项目,基于多模态医养大数据深度聚合的动态主动
服务模式研究(72071063);安徽省重点研究与开发项目,医防协同的公共卫生监测预警大
数据智能服务系统研发与应用(No.2022i01020003);安徽省科技创新战略与软科学研究项
目,医防融合的公共卫生与重大疾病预防预警机制研究(202206f01050040)
作者简介:王辉(1998-),男,安徽六安人,硕士研究生,主要从事大数据分析研究;王晓
玉(1979-),女,安徽淮北人,博士,主要从事医药情报学研究,为本文通讯作者,邮箱:
xywang0551@163.com;顾东晓(1980-),男,安徽淮南人,教授,博士,主要从事健康信息
学研究;杨雪洁(1994-),女,山东潍坊人,博士研究生,主要从事健康信息学研究;
张公让(1966-),男,安徽蚌埠人,副教授,博士,主要从事智能决策研究
1
2
0 引言
近年来由于我国互联网医疗规范化水平持续提升,互联网医疗领域相关监管
政策框架日益完善,据中国互联网络信息中心(CNNIC)在京发布第 51 次《中
国互联网络发展状况统计报告》显示,互联网医疗成为 2022 年用户规模增长最
快的应用。截至 2022 年 12 月,我国互联网医疗用户规模达 3.63 亿,较 2021 年
12 月增长 6466 万,占网民整体的 34.0% [1]。我国在线健康社区众多,平台与平
台之间、医生与医生之间的服务质量差距较大,用户对医生和平台的服务评价褒
贬不一,患者与医生、平台间的矛盾日益凸显。在医疗行业中,正面临着成本上
升和患者需求增加这两个重要挑战。其中,提高医疗质量和控制费用是该行业主
要面临的难题[2]。换句话说,患者对医疗质量的要求不断提高,对医疗效果也有
着更高的期望[3]。重大慢病特指国家指明的心脑血管疾病、癌症、慢性呼吸系统
疾病、糖尿病四类[4]。重大慢病患者由于病程时间长、治愈率低且有研究表明,
随着慢病病程延长,患者的抑郁概率呈现上升趋势[5],所以当重大慢病患者对医
疗服务质量不满意时,气愤、沮丧等消极情绪会进一步使病情恶化,最终以负面
评论的形式展现出来,因而提升医疗服务质量对于重大慢病患者的身心健康具有
重要意义。
(1)负面在线评论研究
在线评论以定量评分和定性文本内容的混合形式,在学术界和商业研究中一
直受到高度关注,已有研究证明了它可以改变消费者态度[6],影响购买频率[7-8]和
组织声誉[9]。负面评论作为用户在购买后表达对不满意体验的抱怨和感受的渠道,
有助于挖掘消费者的观点,进而改善平台服务,提升服务质量[10-11]。已经被广泛
证明,负面评论被认为对其他消费者更有帮助[12]和更有说服力[13],负面评论对平
台和消费者的影响是深远的[14-15]。此外,与正面评论不同,负面评论在情感表达
上具有更强的性质作用[16-17],审视程度[18]和质疑态度[19]会影响其可帮助程度,这
表明通过负面评论监测并挖掘消费者的情感特征的必要性。有研究证明负面评论
与消费者购买转化率[20]、产品认知度[21]、用户偏好[22]和消费者态度[23]之间的密
切联系,这表明负面评论可以更有效地理解用户的态度倾向动机。一些学者通过
分析消费者负面评论的数量、质量和情感强度来深入研究消费者行为。蔡淑琴等
学者研究发现,感知有用性随着负面评论的强度而减弱[24]。王阳等发现负面评论
3
信息中的消极色彩、负面情绪越强烈,那么消费者愿意购买某服务或产品的意愿
就会越低[25]。
(2)重大慢病患者负面评论研究
在线健康社区中的患者在接受相应的医疗服务后,可以结合自身实际体验在
医疗平台上发布诊后评论,评论内容包括意见、体验信息和评估信息[26]。评论的
性质主要由正面、中性、负面三类构成。余佳琪等通过构建主题情感混合模型,
引入时间变量揭示糖尿病患者在不同阶段的主题与情感演化历程。该研究发现在
患病初期,负面评论多涉及疾病的起因、症状、诊断的结果,病程中期负面评论
多与药物价格、药效相关,后期则涉及并发症、副作用、心理情绪[27];Imbergamo
及其团队在分析了 6402 条在线医生负面评论后发现,患者对慢性病手术医生不
满意主要源于临床态度、不良医疗结果以及医生的技术熟练程度等方面的因素
[28]。Burkle 和 Keegan 的研究通过对医院患者调查报告的实证分析,探讨了患者
就医时的访问频率、留言频率,以及这些留言中正面和负面评论的影响,还研究
了评论的性质,以及医生的医疗事故记录对患者选择医生的影响[29]。
(3)在线健康社区中患者评论的情感分析研究
情感分析又称意见挖掘,主要是通过对主观性用户生成文本进行挖掘与分析,
提取主要的观点要素,识别情感倾向,从中获取有价值的信息[30]。部分学者针对
在线健康社区中的患者评论进行情感分析。周欢等[31]在在线健康社区采集了患
者的评论数据,使用文本分析技术获取评论的主题分布和情感分布信息。进而评
估评论的有用性,协助社区管理员和用户辨别虚假信息;叶艳等[32]通基于 LDA
和 BiLSTM 主题情感识别模型,分析在线健康社区的患者评论数据,研究在线
健康社区的服务质量及其主题情感。
(4)在线健康社区患者满意度的影响因素挖掘研究
一些学者使用在线健康社区中的患者评论通过不同的模型方法探究满意度
的影响因素。姜劲等通过 Tobit 模型,研究了患者的择医行为与在线医疗评论和
线下面对面就诊的关系,进而发现医生采取线上线下问诊方式的结合会促使患者
积极评论医生 [33]。Xu 等通过采用关联挖掘算法和情感分析技术建立模型,通过
提取在线医疗评论的内容特征,识别所挖掘的主题中包括:医生的专业性、医生
服务时长、患者的等待时间等对医疗服务质量有影响的因素,以及与患者择医时
所重点关注的因素之间的关联特征[34]。叶艳等构建了循证决策视角下的患者健
康主题分析模型,通过使用 LDA 主题模型、问卷调查法和层次分析法对在线患
者评论进行主题特征分析[35]。Wan 等对在线健康社区中的医疗评论进行内容的
提取与分析,研究影响患者在线健康社区的择医行为的因素以及这些因素对医生
的就诊数量的作用机制[36]。盛姝等采用用户识别和主题聚类算法挖掘用户群体
需求特征,构建在线健康社区中的用户画像[37]。
目前关于在线医疗患者评论的研究较少有针对重大慢病进行情感分析,针对
某类疾病负面评论主题的研究也较为少见;情感分析方法上多采用基础词典及扩
充情感词典的方法,重大慢病领域中有其特定的且没有录入上述词典中的情感词
汇,仅采用前述方法或将出现漏判、误判的情况,补充一个特定领域的情感词典
是情感分析有效且准确的基础;过往研究在主题挖掘方法上多采用基于词袋的方
法例如 LDA、NMF、LSA 等,会忽略词之间的关系,无法更好地处理文本语序、
词义以及位置信息。为了解决上述问题,本文采用 SOPMI 算法对没有录入情感
词典的情感词汇扩充一个重大慢病领域词典的情感分析方法,以丰富和完善重大
慢病患者领域的词典。同时考虑到上下文敏感性以及句子和段落之间、词与词之
间的关系,采用 BERTopic[38]深度学习模型,进而挖掘负面评论中影响病患者决
策和满意度的关键因素,对改进线上线下医疗服务水平、缓解医患矛盾有着重要
意义。
1 分析框架及方法构建
1.1 基于 BERTopic 的重大慢病关键影响因素识别分析框架
本文爬取了在线健康社区中重大慢病类别下的高血压和冠心病、糖尿病的患
者生成文本,采用 SOPMI 算法扩充情感词典的情感分析方法,并通过构建
BERTopic 深度学习模型对重大慢病患者负面评论进行主题挖掘和分析。本文的
研究框架如图 1 所示。
4
5
图 1 基于 BERTopic 的重大慢病关键影响因素识别分析框架
Figure 1 Analytics framework for negative reviews from patients with major chronic diseases
1.2 重大慢病患者评论情感分析
本文采用基于情感词典和机器学习 SOPMI 算法的混合方法对经过预处理的
重大慢病患者评论数据进行情感分析。基础情感词典未较全面覆盖重大慢病领域
相关词汇,因而在情感分析时会由于词典中未收集相关词汇而导致情感漏判、误
判的情况。机器学习 SOPMI 算法通过比对与情感词密切相关的其他词汇并对其
情感倾向及极性进行判断,能够涉及词语间的联系及不同词汇间的共现概率,提
高情感分析的准确度和适用性。研究采用该方法对未进入基础情感词典的情感词
扩充一个重大慢病患者在线评论的领域词典,进一步丰富重大慢病患者领域的情
感词词典。最后通过情感得分算法设计对重大慢病患者评论做出区分并提取包含
负面倾向的评论语句。
1.2.1 三大基础词典的构建及分值赋予
基础情感词典。本文以知网 Hownet 情感词典和清华大学李军中文褒贬义
词典作为基础情感词典。因研究重点针对负面评论进行挖掘和分析,在基础词典
的构建上合并添加了台湾大学 NSTUD 情感词典。本文所构建的基础情感词典
概况如表 1 所示。此外,对积极评价词汇赋分值为 1,消极词汇赋分值为-1。
表 1 重大慢病患者基础情感词典汇总表
Table 1 Summary table of basic dictionaries for chronic disease patients
Hownet Tinghua NTUSD 重大慢病患者基础词典 分值赋予
正面情感词典 4566 5569 2812 12947 1
负面情感词典 4370 4471 8278 17119 -1
6
程度副词词典。程度副词用来修饰形容词和副词,在某一条患者评论中出现
会使该条语句的情感倾向强度发生改变。本文采用知网 Hownet 中文程度副词词
语集,同时划分了不同程度进而赋予了不同的权值,结果如表 2 所示。
表 2 程度副词词典及对应权值赋予
Table 2 Degree adverb dictionary and corresponding weight assignment
程度副词(部分) 程度等级 权值赋予
极度、非常、绝对、完全、倍加 最 2.0
过于、特别、尤其、强、精湛 很 1.5
更加、越发、还、益、较 较 1.25
略微、有点、蛮、些许、一些 稍 0.75
丝毫、相对、半点、轻度、弱 欠 0.5
否定词词典。否定词可以修改患者评论中的情感极性,评论中出现单个否定
词则该句是否定意思,双个否定词则表示肯定。这里定义遇到一个否定词则该句
情感得分乘-1。本文通过采用 CSDN 网站收录的否定词典以及整理相关文献资料
确认所采用的否定词典如表 3。考虑到句中同时包含程度副词和否定词则该句的
情感极性会受到二者先后顺序的影响而改变的情况,本文根据程度副词和否定词
的顺序作不同赋值,若否定词在前,顺序分值记为 1,若程度副词在前,顺序分
值记为 2。
表 3 否定词典及对应分值赋予
Table 3 Negative dictionary and corresponding weight assignment
否定词(部分) 权值赋予
不、没有、不能、不行、不可以、无、不会、
不可能、白白、一点都不、绝非、不可、未能、
尚未、毫无、没有、不及、从未、从没
×(-1)n
n 为否定词出现的次数
1.2.2 基于 SOPMI 算法的重大慢病患者领域词典扩充
点间互信息算法 PMI 主要通过判断两个词语之间的语义相似度来判断词间
关系。相似度越高,词语之间的关联程度越高,表示两个词语的关系越亲密。PMI
如式(1)所示。
???(word1, word 2
) = log ?( word 1,word 2)
?(word1)?(????2)
(1)
本文所采用的 SOPMI 算法选用情感极性显著的若干个积极、消极情感词作
为算法的积极基准词和消极基准词,分别用 Pwords(Pw) 和 Nwords(Nw)代表。
通过采用 TF-IDF 对重大慢病患者评论中的动词、形容词、名词进行排序并提取
7
靠前的词作为靶向词与基准词作比对并去重,将剩余的词作为需要进行判断极性
的未知极性词语 Word(W),将 Word 分别与 Pwords、Nwords 进行点间互信息计
算,根据二者之差判别 Word 的情感极性。SOPMI 的计算如式(2)所示。
?????(?)
= ???(??, ?) − ???(??, ?)
= ∑??∈?????? ? ??(??, ?) − ∑??∈?????? ? ??(??, ?)
(2)
通过式 2.1 和 2.2 计算 SOPIM 值,若 SOPMI>0 则计入正面情感词词典,
相应的分值仍赋予 1;反之计入负面情感词词典,相应分值赋予-1;SOPMI 值=
0 的 Words(W)不作考虑。重大慢病患者在线评论领域词典示例如表 4 所示。
表 4 重大慢病患者在线评论领域词典示例
Table 4 Example of an online review domain dictionary for chronic disease patients
负面词汇 负面评价 SOPMI 值 正面词汇 正面评价 SOPMI 值
医术低劣 -15.33241 救死扶伤 17.62584
医识狭窄 -16.24712 手到病除 12.36547
草率 -6.97632 扁鹊在世 21.57982
庸医 -23.12568 华佗 5.48941
败德辱行 -13.45894 对症下药 9.65471
1.2.3 情感得分算法设计
在完成情感词词典(融合基础情感词典与重大慢病患者评论领域词典)、程
度副词词典、否定词词典的构建之后,按照上述词典各类词的分值赋予,逐个计
算患者评论中每条分句的情感得分,计算公式如式 3。
?(?) = ?(?) ∗ ?(?) ∗ (−1)
?
∗ ? (3)
F(a)为某一评论分句的情感总分; q(a)为某一评论分句中情感词累加分值;
c(a) 为程度副词的累加分值;(−1)
?为否定词的权值,其中 n 为该分句中否定词
出现的次数;某一评论分句中同时包含程度副词和否定词时,定义 t 为顺序权值;
1.3 主题建模方法构建
在线评论挖掘是一种在大量非结构化评论文本中寻找有价值信息与知识的
过程[39]。主题模型是最通用的评论挖掘方法之一,采用生成概率模型从文档集合
中找到潜藏的主题[40]。BERTopic 是一种基于文本的无监督主题模型,用于主题
挖掘的算法,它结合了 BERT 和聚类技术[41]。
1.3.1 使用 BERT 提取文档嵌入词向量
在挖掘重大慢病患者负面文本的过程中,首先使用 BERT 嵌入词向量,这些
8
嵌入具有上下文敏感性并保留了句子和段落之间的关系。进而将负面文本表示为
一个连续的向量空间中的点或向量。
1.3.2 使用 UMAP 进行词向量降维
UMAP 是一种非线性降维技术,该算法最早由 Mclnnes 等人提出[42]。通过
将高维重大慢病患者评论数据嵌入到低维空间中,得到低维词向量,并在保留原
始数据的局部结构的同时尽可能减小全局误差。
(1)通过构建一个 k-近邻图(KNN graph)来表示高维数据,对每个负面评
论数据点找到其最近的几个数据点,并计算它们之间的距离。UMAP 采用联合概
率的形式来建立高维样本之间的相似度关系。对于某一个点 m 的 K 个近邻点 n
有:
?(?,?) = ?
−
?(??,??)−??
?? (4)
当所有负面评论数据点计算完成后,为了保证任意两个数据点概率的一致性,
引入表达式[43]? = ? + ?
? − ?∇?
?。式中 A 为所有?(?,?)组成的加权邻接矩阵;∇
为矩阵的 Hadamard 乘积;B 为加权邻接矩阵。
(2)在完成高维数据表示后,UMAP 使用曲线族 1
1+?⋅?(2?) 来建模低维距离
概率。构建低维度下的概率函数为:
?(?,?) = (1 + ?(?? − ??
)
2?
)
−1
(5)
式 2.5 中,(?? − ??
) 为低维度负面评论任意数据点??与??间的距离;s 和
t 为超参数。为了让经过降维的负面评论数据集尽可能接近原数据集,需要通过
优化?(?,?)和?(?,?)之间的交叉熵损失来实现。交叉熵 Loss 函数[43]为:
??(?, ?) = ∑ ∑ [???(?)log (
?
??
?
,
,
?
?
(
(
?
?
)
)
) + (1 − ???(?))log (
1
1
−
−
?
???
??
(
(
?
?
)
)
)] ? ? (6)
1.3.3 HDBSCAN 算法对低维词向量进行聚类
为探索影响重大慢病患者做出负面评论不同类别的因素,采用 HDBSCAN
密度聚类算法进行降维后的数据分类,将同类别的样本尽可能地聚集在一起,使
彼此相似度更高。
HDBSCAN 是由 Campello 等[44]提出的一种密度聚类算法,通过寻找高密度
区域并将其与相邻的低密度区域分开来执行聚类。对于给定的重大慢病患者负面
评论数据集,基于 HDBSCAN 算法采用较小的半径 epsilon 以内的邻居数来计算
每个数据点的密度值。然后基于密度值,用算法标记每个数据点为“核心点”。
根据密度连接的概念,从最小生成树的集合中右侧删除连续增长的边缘,形成一
个由连通组件和孤立点组成的森林。最后通过分配每个连通组件和全部孤立点明
确的标签,并将这些组件转换为簇,即可得到患者负面评论的影响因素类别的初
步结果。
1.3.4 c-TF-IDF 主题词提取与优化
c-TF-IDF 是一种针对代码片段的文本表示方法,它基于 TF-IDF 改进而来。
c-TF-IDF 的计算方式和 TF-IDF 类似,但在计算代码片段中某个词的 TF 时,使
用了不同的公式,具体如下:
??(?) = log(1 + ??) (7)
???(?) = ??? (
1+
?
??
) (8)
? − ?? − ???(?) = ??(?) ∗ ???(?) (9)
其中??是代码段中某词 w 的频率;其中 N 是代码段总数,??是包含某词 w
的代码段数量;
1.3.5 使用 MMR Coherence 对主题词进行筛选
MMR Coherence 是一种评估文本相关性的方法,假设最佳文本既与查询相
关,又尽可能不同于已选择的文本。在对重大慢病患者负面评论主题的每一步筛
选中,MMR Coherence 会计算每个候选文本与查询和已选择文本之间的相关性,
并为每个文本分配一个分数,选择具有最高分数的文本作为下一个选择进而完成
每轮的筛选。
2 数据处理与分析结果
2.1 数据采集与预处理工作
好大夫在线平台是国内最早的在线健康社区,该平台有来自全国各地数以万
计的医生为患者提供专业的咨询与医疗服务。当前,国内外学者主要选择好大夫
在线、丁香园等大型在线健康医疗社区以及部分垂直病症医疗网站,探究其用户
行为规律与影响因素[45]。研究抓取了 2022 年 12 月-2023 年 1 月慢性病类别下的
高血压、糖尿病、冠心病三种慢性疾病的患者评论文本。其中高血压 70283 条评
论;糖尿病 94872 条评论;冠心病 89464 条评论,共计 254619 条评论数据。在
对重大慢病患者评论进行分析时,考虑到患者评论的自由度较高,文本数据会存
9
10
在一些噪音,噪音包括标点符号、特殊符号、信息冗余或信息量较少的评论、无
效评论、停用词以及无法表达患者情感的代词等,本文对数据进行了一系列预处
理步骤,包括去除停用词、删除无用的标点符号、去除重复评论和无效评论等,
同时对数据进行了分词以及词性标注。最后剩余 193746 条有效数据。图 2 为数
据处理前后的比较。
图 2 数据预处理前后对比
Figure 2 Comparison before and after data preprocessing
2.2 重大慢病患者评论情感分析
每条重大慢病患者评论由若干个分句组成,将所包含的分句分值求和即可得
到该条评论总得分。若情感总分为正数即判定为正面评论,为负数则判定为负面
评论,总分为零则为中性评论。研究采用前文构建的基础情感词典和重大慢病患
者扩充后的领域词典,通过设计 DictClassifier 分值函数,计算出 193746 条重大
慢病患者评论的情感得分,得分区间位于[-32,43],定义情感得分的绝对值为 A。
若 0<A<10,则该条评论的情感倾向程度低;若 10≤A<15 则该条评论具有较
强的情感倾向;若 A≥15 则该条评论具有强烈的情感倾向。实验结果分析如表 5
所示。
2.2.1 情感分析结果展示
表 5 重大慢病患者评论情感分类展示
Table 5 Display of emotional classification for chronic disease patients' comments
评论情感类型 倾向程度 数量(条) 占比 总计
正面评论
一般满意 57688 32.98%
174874 满意 72007 41.18%
非常满意 45179 25.84%
中性评论 无区分 7.03% 13624
负面评论
一般不满 746 14.21%
5248 不满 1165 22.20%
非常不满 3337 63.59%
分析表 5,正面评论占据总评论数据的绝大部分,数据量有 174874 条,占
总评论数据比例达到了 90.30%。其中非常满意的患者占比约 25.84%,满意和一
般满意的患者占比约为 74.16%;中性评论 13624 条,占总评论数据比例约为
7.03%。负面评论和中性评论共计 18872 条,占总评论数据的 9.7%。可见大部分
重大慢病患者对在线医疗和线下面诊服务持比较满意的态度,但中性评论和负面
评论仍占据一定的比例,中性评论包含着负面语句和建设性意见语句,也是探究
影响重大慢病患者医疗服务满意度因素的重要数据。值得注意的是负面评论中,
非常不满的患者占比达到 63.59%,情感倾向尤为强烈。
2.2.2 提取包含负面倾向的评论语句
考虑到中性评论的计算过程中存在负值即存在负面情感词,同时包含一定的
建设性评价语句,研究将上述情感总分处于[-32,0]区间内的中性评论中的负面语
句、建设性语句和负面评论一并取出,采用 BERTopic 主题挖掘模型对影响重大
慢病患者做出负面评论的因素进行深入研究。
2.3 BERTopic 主题建模结果分析
2.3.1 重大慢病患者负面评论的主题聚类分析
与重大慢病患者负面评论相关的每个主题都由若干个与该主题高度相关的
词汇组成。重大慢病患者负面评论主题聚类图 3 将处理过的负面文本关键词数据
以柱状图的形式呈现出来,同时显示与每个主题相关联的文档数量。
图 3 负面评论主题聚类条形图
Figure 3 Negative comment topic clustering bar chart
首先横向比较图 3 中八个主题集合,Topic 1 和 Topic 2 中的“忘记、很差、
不耐烦、不尊重”等词更加倾向于态度的细分衡量,是患者做出负面评论的影响
因素之一。Topic 3 中的“一直、长期”以及 Topic 1 中的“多次”、Topic4 中的
“复诊”符合重大慢病是一种长期性疾病的特质,具有一定的持续性和反复性。
Topic5 中的“医德”以及 Topic1 中的“傲慢”、Topic2 中的“不负责、不尊重”
11
等涉及医生的个人品德特质,即为患者做出负面评论的又一影响因素。Topic4 中
的“治疗、复发、效果、糟糕”等关键词与治疗的效果、医生的专业水准相关。
Topic5 中涉及了“图文”这一关键词,同时与“问诊、回复、太贵”有一定关联。
Topic6 中的“抑郁、焦虑、心理”等词表现了重大慢病患者的精神心理状态。上
述三个主题所涉及的负面评论的影响因素包括医生个人品德、专业水平、交流过
程效果、患者个人身心状况。Topic7 中的“医院、排队、护士、助手、病房”等
涉及线下就诊时,患者对除医生外的人员、环境的不满。其次纵向比较, Topic5
中的“图文”的重要性为 0.2,而“医院”的重要性达到了 0.6。这也是可理解的,
线下问诊相较于线上问诊更加真切,重大慢病患者所能感知的维度也会更广,因
而线上预约线下面诊后能够评价的角度就相对较多,这些角度多与线下承载实体
“医院”相关。所以线下就诊时相关的不满意要素是在线健康社区中重大慢病患
者做出负面评论的考量因素。
2.3.2 重大慢病患者负面评论主题结构及关联分布结果
重大慢病患者负面评论的散点图(图 4)通过可视化患者负面评论文档在主
题空间中的分布,进一步理解文档集合中的患者所重点关注的主题结构和各个文
档之间的关联性。
图 4 负面评论可视化散点图
Figure 4 Visual scatter chart of negative comments
针对图 4 重大慢病患者负面评论的可视化散点图,重大慢病患者负面评论文
档被映射到主题空间中,并赋予坐标,而主题空间是通过前述步骤(提取嵌入、
降维、聚类等)生成的。进一步分析可以看到,重大慢病患者重视与医生的交流过
程,也是其做出负面评论的重要影响因素。例如数据集合 8 中的“模糊、病历本”、
数据集合 10 和 11 中的“分钟、打发、太慢”等。观察数据集合 12 和 16,“外
地、大老远、路途”等词也进一步反映了重大慢病患者异地就医的现状以及其长
12
距离往返所付出的代价和得到的医生反馈与治疗效果并不匹配亦是影响患者做
出负面评论的一大影响因素。不同主题在数据集中的分布情况也是有区别的,可
以看到数据集合 1 中的“结果、态度、医院”等数据点的聚焦程度较高,说明该附
近的负面评论文档之间的主题相似性较高,同时也反映了重大慢病患者对于治疗
的结果、医生的态度以及医院的情况是比较关注的。而在数据集合 4 中,“治疗、
复发、效果”等词的数据点较为分散,其附近的评论文档与其所归类的医生的治
疗效果之间是有一定差异的。数据集合 1 与 3 附近的数据点较为接近,说明两类
主题关联度较高。深入分析此现象,重大慢病的疾病特征是长期性、持续性,需
要多次与医生会诊,而患者通常会选择同一个医生进行长期的治疗。若其所选择
的医生对其病情以及过往接触过程有所遗忘,或因医生个人原因导致无法再进行
后续治疗而使患者不得不更换医生,这在某种程度上会使得重大慢病患者不满,
进而发表负面评论,这是影响患者做出负面评论的重要影响因素之一。
2.3.3 重大慢病患者负面评论主题亲缘性和相似性分析
重大慢病患者负面评论的主题层次结构图(图 5)显示了不同重大慢病患者
负面评论主题之间的关系,能够理解重大慢病患者重点关注的主题之间的差异和
对话,并调整挖掘到的负面评论的影响因素以改善文本分析的结果。
图 5 负面评论主题层次结构图
Figure 5 Negative comment theme hierarchy chart
针对图 5 主题层次结构图,不同的颜色代表不同的聚类簇或子主题。其中数
据类别 6、4、2、7 被分配到同一聚类簇,说明其具有相近且关联的语义内容。
尤其是数据类别 6“沟通、心理、抑郁”与数据类别 2 中的“不负责、不耐烦”等词
间的关联性值得重视,这是由于重大慢病病程时间长、治愈率低,使得患者在精
神和心理上有压力,有些重大慢病患者伴随着患有抑郁症。而医生的不负责、不
耐烦、不沟通或沟通较少会使得重大慢病患者的心理压力更重,这样又会影响原
有的病情以及相应的治疗效果,使得患者做出极端的负面评论。所以患者个人身
13
心健康及与医生交流的质量是重大慢病患者做出负面评论的重要因素之一。此外,
数据类别中的 13、11、5 被分配到同一聚类簇中,“图文”一词代表平台的图文问
诊服务,“花钱、太慢、回复、暴躁、医德”等词涉及线上问诊的定价、医生回复
速度及其个人品德和特质是重大慢病患者线上问诊时所关注的重点因素。
2.3.4 重大慢病患者负面评论主题相关性分析
重大慢病患者负面评论的热力图(图 6)提供了患者重点关注主题之间的相关
性信息,可以对有关患者所重点关注的主题之间的关系建立直观认识。
图 6 负面评论热力图
Figure 6 Negative review heat map
针对重大慢病患者负面评论的热力图中(图 6),颜色深浅表示主题之间的
相关性或相似性程度。数据类别 0 与 16 中,涉及“大夫、路途、复查、结果、态
度、医院”等词,相关性得分达到 0.8,可见医生的态度与医院的环境对重大慢病
患者满意度有影响的关联度较大,也是重大慢病患者做出负面评论的影响因素。
数据类别 6 中的“沟通、心理、抑郁”与 2 中的“不负责、不耐烦”、3 中的“一直、
长期”的相关性得分达到了 0.7,重大慢病病程时间长、治愈率低的特点使得患者
产生心理和精神上的压力,而医生的不负责、不耐烦等沟通和态度上的表现,易
使重大慢病患者在回顾诊疗服务体验过程时产生负面倾向,进而在平台上做出负
面评价。此外,数据类别 6 中的“沟通、心理、抑郁”与数据类别 16 中的“助手、
排队”等词的相关性得分为 0.7,这说明线下转诊时,除医生以外的人员态度及行
为表现都会对患者的满意度产生影响,且线下排队的时间及秩序都会影响重大慢
病患者的情绪及心理。数据类别 9 中的“能力、专业”和 15 中的“改善、明显、仅
仅”的相关性得分达到 0.7,重大慢病患者对医生的专业能力及治疗的效果方面是
14
比较重视的,值得一提的是,当定位到涉及专业能力的负面评论,发现其多与助
手、实习生、进修生相关,而在此处的关联性得分表现并不明显。数字类别 5 中
的“医德、太贵、回复”和 11 中的“太慢、图文、咨询”相关性得分有 0.6,此处涉
及了线上问诊服务,线上问诊患者的负面评论影响因素包括:医生的品德、问诊
定价、回复速度等。
3 总结及展望
本研究通过构建基础词典、扩充情感词典的情感分析方法,采用主题模型对
重大慢病患者负面评论文本进行了可视化结果分析,挖掘出重大慢病患者评论负
面倾向的重要影响因素:医疗服务的治疗效果、医患交流质量、医生的专业技能、
医生的态度和品德以及具有重大慢病特性的医患交互的常态化关系维护。针对线
上预约线下转诊的患者,其评论负面倾向的影响因素包含挂号及排队等待的时间
和秩序、护士和导诊等医务人员的态度及行为。综上,我们提出以下建议:
(1)加强患者人文关怀,保持态度行为上的连贯性,通过开展心理疏导有
效缓解患者精神压力。重大慢病的病程周期长、治愈率低,部分患者心理状态差
甚至患有抑郁症,患者需定期复查,与医生接触频繁。医生可建立患者常态化档
案,记录患者心理状况和画像等信息,同时进行心理方面的疏导,引导患者调节
自身心理情绪,为重大慢病患者提供专业和人性化的医疗健康服务。
(2)提供有效的患者咨询反馈渠道,帮助患者及时排忧解难。在线健康社
区中的诊疗医生,及时回复患者所问、提供详细的病况解释和用药指导、采用多
形式的沟通渠道帮助患者缓解病情和焦虑。在线健康社区也可加大监管问责力度,
持续优化在线医疗服务水平。
(3)加强线上医疗服务机构的线下匹配机制,强化线下医务人员职业素养
培训和考核监管,提升全流程医疗服务治理水平。部分重大慢病患者反馈在平台
预约面诊服务时,线下医院不予认可,并且就诊时挂号排队秩序以及护士、导诊
等医务人员的态度和行为导致就诊体验差。在线健康社区应加强与合作机构的沟
通协调机制,避免患者错过治疗窗口期;医院应加强医务人员队伍建设,健全医
务人员职业素养培训和考核机制,提升医疗综合治理水平。
15