哈佛新冠论文的漏洞，你以为就那么几条？

1348054cc · 1348054cc 发表于 2020-6-13 21:03:39

6 月 8 日，美国哈佛医学院公布了一篇尚未经过同行评议的论文，在太平洋两岸火了一把。
论文标题是 " 对中国武汉医院交通与搜索引擎的数据分析，提示 2019 年秋季有早期疾病活动 "，什么疾病呢？标题没有明说，看下去就知道，当然是全球瞩目的新冠病毒肺炎了。
作者们在摘要里说，2019 年夏末秋初，武汉医院的停车量和百度上 " 咳嗽 " 的搜索量都增加了，虽然 " 咳嗽 " 可能和流感季相符，但 " 腹泻 " 更多地是个具有新冠特征的症状，" 只和当前流行病相联系 "（only shows an association with the current epidemic）。" 这些信号都早于 12 月，突出新颖的数字信息对监测新传染病的价值。"
摘要里还不敢明言新冠就是夏末秋初爆发的，但显然已经明确联系起来。
可我就纳闷啦，有些新冠病人有腹泻，但引起腹泻的病那可多了去了。你们不知道武汉夏末秋初有多热是吧？东西时间放得长了，吃坏肚子很正常啊。
我迫不及待地打开论文，想看看作者们到底是怎么想、怎么做的。
你猜怎么着，他们还真的煞有介事地说：" 我们发现，8 月对腹泻的搜索有独特的增长，过去的流感季里没有观察到，与咳嗽的搜索趋势也不相符。虽然令人惊讶，但这一发现与最近的一项研究一致，那项研究确认胃肠道症状是新冠的特征之一，可能是现有相当一部分病人的主诉。"
然而，流感季原文用了复数，显得好像以前一直没有，2019 年真的很特别的样子。但图说明确写着，只是 2018 年 1 月到 2020 年 5 月。因此 8 月仅有 2018 年与 2019 年比较，根本不说明问题。
我详细看了看方法，作者声称用 WebPlotDigitizer 在百度指数的页面上提取 " 咳嗽 " 与 " 腹泻 " 的 " 相对搜索量 "（relative search volume），也没有具体解释什么是 " 相对搜索量 "。也许就只是 " 搜索指数 " 的数值吧，毕竟百度并不公布 " 绝对搜索量 "，但为什么不写明呢？
不大了解中国网络的外国研究者，会不会被 volueme 和 index 搞糊涂，不方便查验呢？
论文作者后来又在讨论搜索数据时承认：" 尽管此方法在复制时间序列时显示有效，但使用自动化工具（提取数据），生成数字图像，确实意味着提取的时间与数值是近似值。"
没想到，观察者网编辑一查验 " 百度指数 "，发现不管怎么理解所谓的 " 相对搜索量 "，" 咳嗽 " 的曲线形态是一致的，但 " 腹泻 " 的曲线形态完全不同，根本不存在 8 月的独特增长。这个问题怎么解释？还能认为只是近似值的问题吗？

蓝线为咳嗽，红线为腹泻

所谓显示 " 复制时间序列时有效 " 的参考文献，我看了，是纽约市 2012-2013 年流感季的推特数据，换了一个完全不同的平台就真的有效？事实就是打脸了。
就算按照论文作者的图表，" 腹泻 " 搜索有暴增（第一根虚线的左侧一小段），但同时 " 咳嗽 " 搜索在下降。假如真是新冠，必定存在大量有消化道症状、没有呼吸道症状的患者。
但我看了论文作者引用的那项 " 胃肠道症状 " 研究，这类患者在新冠病人中占多少？只有 3%！这个问题，他们又怎么解释？

不要以为论文引用了什么，就一定是站它的，其实可能只是浑水摸鱼。
" 咳嗽 " 搜索的问题，当然也不攻自破。只要看看作者自己的图片，就能发现，2018 年流感季的 " 咳嗽 " 搜索，迅猛增长发生的月份比 2019 年流感季更早。
更重要的是，每年流感季的时间、强度都不同，单把流感季的相关特征拿来比较，根本无法推断是否有新的疫情发生。更何况只有两年的比较。
论文作者在讨论搜索数据时，自己也坦承 " 不能给增长的原因下结论 "，但又 " 假设有广泛的社区传播 "，明明缺乏严密的逻辑、靠谱的证据，还要如此推论，这是学术还是话术？
剩下的就是停车问题了。论文作者说，"10 月和 11 月医院停车量增加了，‘咳嗽’搜索也增加了 "。普通人看了，都知道这是废话，这不是流感季理所当然会有的情况吗？
且不说进医院的人数，完全无法和特定疾病相联系，你根本无法知道一个人进医院是看什么病，就算真的都是呼吸系统疾病，又能说明什么问题呢？

看上去，2019 年的停车量比 2018 年相应月份的高，但论文的 " 结果 " 部分，只是描述了 2019 年的曲线形态，根本没有与 2018 年的具体比较，只是说 "2018 至 2020 年间，医院停车量总体呈增长趋势 "，难道自己也对仅仅两年的比较有点心虚？
其实一搜索就能发现，" 据武汉交警介绍，武汉市机动车保有量 &hellip;&hellip;2015 年年末达到 205 万辆；随后，每年以 30 万辆左右的速度递增，2019 年年底突破 330 万辆。" 停车量整体增长是很正常的。
还有更复杂的，武汉的轨道交通建设也热火朝天。2018 年 10 月 1 日，武汉地铁 7 号线、11 号线东段一期开通试运营。12 月 28 日，武汉地铁纸坊线正式开通运行。2019 年 2 月 19 日，武汉地铁 2 号线南延线开通，9 月 25 日，武汉地铁蔡甸线正式开通试运营，11 月 6 日，武汉轨道交通 8 号线三期开通试运营。
也就是说，两种出行方式的基本情况变化都很大。在具体某一时刻，你根本无法判断机动车用户、轨道交通用户的增减情况。
论文作者里好像有懂中文的呀，这些信息都查不到？是不是查到了也不敢说？因为本来证据就薄弱，如果再承认背景条件变动如此剧烈，这论文就没法看了。
其实论文的方法还有更多问题。作者声称搞了一个全面的武汉医院名单（a comprehensive list），但排除专科医院（如武汉亚洲心脏病医院），以及没有卫星图像的医院（如金银潭），选定了 6 家医院用于图像分析。
从一个 " 全面 " 名单，砍到只剩 6 家 &hellip;&hellip;6 家啊，这能有什么代表性？
论文作者在 2018 年 1 月 9 日到 2020 年 4 月 30 日几乎整整 28 个月里，总共只搜集到 111 张武汉卫星图片，提取出 140 张医院图片。分摊到每家医院，平均只有 23 张多，连每月一张都不到。因此，医院数据有长达半年、甚至一年以上的跳断。这又能有什么代表性？

论文作者解释，由于 " 缺乏商业价值 "，武汉的卫星图片比其他城市中心的相对较少，长时段存在多云天气与雾霾，甚至抱怨在向中国卫星公司获取数据时 " 遇到挑战 "&hellip;&hellip; 但关键问题，难道不是数据不理想，就不要硬写论文吗？
作者还选中武昌火车站、汉口火车站、华南海鲜市场作为方法有效性的验证（validation）。然而，这个验证对象的选择是错误的。
虽然中国医院往往 " 人满为患 "，但从实际的就医经验看，上午、中午、下午医院里的人数多寡、等候的时间长度，都是不同的。
论文作者在讨论时，其实提到了时刻问题，但出发点是规避高楼阴影，要用中午时的图片。然而，全部选择正午的卫星图片是做不到的，只能选接近的时刻。但这近似就有问题了，上午 11 点和下午 1 点，完全可能是两种出行模式。
如果数据对时间敏感，卫星又难以保证在每天同一时刻掠过目标上空，最需要验证的是，不同时刻获取的数据，能否真实反映当天医院客流量的相对多寡。但火车站和时刻表相关，海鲜市场也不是医院，这样的验证设置，毫无意义。
作者最后在 " 结果 " 的文字部分只提了验证地点的照片数量是 117 张，没有具体的分析，另在附图中出现了天佑医院与海鲜市场的比较。但令人惊奇的是，医院有三张图片，是 2018 年 10 月、2019 年 10 月与 2020 年 2 月，市场却只有 2019 年 9 月、2020 年 2 月两张图片。

且不说时刻的问题，单看这个日期选择，就是匪夷所思。2020 年 2 月已经是封城的特殊时期，根本没有比较的价值。如果作者想呈现特殊时期的情况，也应该同时提供与论文主旨—— " 早期疾病活动 " 相关（如 2019 年 12 月）的图片，看看 10 月与 12 月的差别，以及 2018 年相应月份的比较。（不过需要再次指出，即使如此，也是有问题的，就像前面所说，流感季每年会有数量与时间前后的波动，仅比对两年不合适。）
现在 2018 年市场图片又缺失，无从比较，光有 2019 年的图片有什么用？这五张图完全失去意义。
有人嘲讽说论文是本科水平，我觉得高中生都未必会这样展示所谓的 " 验证 " 吧？也许作者有什么难言之隐？
用卫星监测整体就医量，对于公共卫生可能有一定的参考意义，但在具体操作上有前面所述的种种困难与陷阱，可比较的数据不足，很难得到理想的结果。而且，在医院系统内部有迅捷的数字统计与上报系统的情况下，并没有优势。如果要针对单一疾病，在原理上就有根本缺陷——无法从整体中辨别出单一疾病，这点远不如医院系统的直接统计。
至于搜索的信息，同样有根本缺陷。某种症状的搜索量增加了，当然有些提示作用，但一种症状，往往对应许多种疾病，根本无从判断是哪种疾病的患者增加，更不要说判断有没有新疾病了。
那么，论文作者们为什么在承认诸多不足时，依然对自己的方法颇有自信，非写文章不可呢？我不揣测他们是否对中国有什么主观恶意，还是从论文分析。
他们在引言第二段里就说：" 数字流行病学和非传统数据流，如卫星图像和互联网搜索趋势，以前曾被用于呼吸道疾病监测 "。
听着好像很厉害啊，早有验证呢。但看看这句话后面的两篇参考文献。
一篇是《H7N9 流感与数字流行病学的重要性》，其实也不算是论文，是发在《新英格兰医学杂志》上的 "perspective"，可以称为 " 热点透视 "。
但看下来，这 " 透视 " 里也没多少有价值的独家信息。2013 年 3 月 31 日，中国官方向 WHO 通报发现了 H7N9 流感，" 透视 " 作者们的工作，只是看了下 3 月 31 日后，推特数量、中英文报道的数量、新病例和新增死亡的数量。
这只是爆发后的 " 数字流行病学 "，又不是没发现 H7N9 时的 " 早期疾病活动 "，和新论文没什么关系嘛。
疾病曝光后，相关新闻、帖子数量当然增加，随着新增病例归零，舆论热度也消退，拍拍脑袋都能想到。
另一项工作是从微博上找信息，比如附在文中的图片，是 4 月 3 日流出的病例，作者的意思是要重视这种社交媒体上的信息。但当时官方都已经通报，这病例又能说明什么问题呢？和早期监测、预警也无关。

我是搞不懂为什么要引用这样的文献，一看作者，很眼熟啊，这 John S. Brownstein 不也是新论文的作者吗？
再看第二篇参考文献《利用从高分辨率卫星图像获取的医院交通数据监测疾病趋势》。稍微有点干货了，大意是在墨西哥、智利、阿根廷通过医院的卫星图片，经过一番操作，最终拟合出流感样病例在病人总数中的比例，与停车数量的趋势呈现一致性。
这篇参考文献的主要作者也有 John S. Brownstein，另一个 Elaine Okanyene Nsoesie，也是所评哈佛论文的作者之一。
自己引用自己，玩得挺溜。这当然不犯法，但看上去，给人的感觉好像这套方法就是你们小圈子里在玩啊。前面提到的那些根本性的障碍，在拉美的研究里，为什么就 " 神奇 " 地解决了呢？作者们是不是要好好反思下基本原理、数据获取与处理的方法，甚至是否存在更严重的学术问题？
喜欢自引自 high，还非要硬着头皮写论文，难怪论文公开后饱受批评，只有政客和西方媒体在吹捧；也难怪世卫组织卫生紧急项目负责人迈克尔 · 瑞安会说：" 重要的是不要过多推测 &hellip;&hellip; 因为本身并没有证据表明实际发生了什么 &hellip;&hellip; 世卫组织将不会基于此类研究展开推测，因为其不会在提供支持和跟踪疾病上产生帮助。"

		自动登录	找回密码
密码			立即注册

本文来自

0523新闻

精选帖子

哈佛新冠论文的漏洞，你以为就那么几条？

本帖子中包含更多资源

打赏支付方式：

相关帖子

0511.net镇江网分享生活温暖你我

找搜服 好搜服 我爱上搜服 传奇私服 网通传奇 传奇私服发布网

本文来自

0523新闻

精选帖子

哈佛新冠论文的漏洞，你以为就那么几条？

本帖子中包含更多资源

打赏支付方式：

相关帖子

0511.net镇江网 分享生活 温暖你我

找搜服 好搜服 我爱上搜服 传奇私服 网通传奇 传奇私服发布网

0511.net镇江网分享生活温暖你我

找搜服好搜服我爱上搜服传奇私服网通传奇传奇私服发布网