外语教育研究中心

Wordless：破除语料库研究的门槛与壁垒

Wordless 是一款可用于语言学、文学研究、翻译研究及其他语言文字相关领域研究的多语种集成语料库处理与分析软件。由上海外国语大学语料库研究院21级博士生叶磊开发。

工欲善其事，必先利其器。两座大山长期横亘在所有语料库研究人员的面前。其一，建库；其二，检索。前者技术门槛不高，但一眼望不到头的机械重复性劳动足以劝退众多尝试者。后者工作量不大，但较高的技术门槛又让余下的技术小白们望而生畏。使用语料库是为了解决问题，但为了使用语料库又发现了更多问题。克服前者需要体力，克服后者需要智力，而人类智慧的一大体现就是制作和使用工具的能力。

当前，国际上应用最广的语料库检索工具非WordSmith和AntConc莫属。前者功能相对完善，但“界面复杂，不易操作”（Xu & Jia, 2013）。后者界面布局相对合理，操作易于上手，但功能细节又不尽完善。平行语料检索工具中ParaConc一枝独秀，但乱码问题时常令人抓狂，多模态语料检索软件除了ELAN则别无他选。Mac用户被迫掌握了虚拟机的用法只因软件缺少跨平台支持，Windows用户常为软件授权费用而苦恼或选择沦为盗版软件的受害者并日夜遭受良心的谴责。一边是基于简单规则的原始分词法被大量使用，一边是工业级强度的NLP分词算法用户寥寥。“点互信息”（PMI）自被引入（Church & Hanks, 1990）起就被错误地冠以“互信息”（MI）的名字[i]（cf. Bouma, 2009）并体现在了部分语料库工具中，WordSmith在Juilland’s D的实现中将总体标准差误解为样本标准差（cf. Scott, 2021）[ii]。Carroll（1970）、Lyne（1985）等众多研究者对Juilland’s D算法进行了多次优化或提出了全新的词频分布算法，但WordSmith截至8.0版本仍仅支持最经典的Juilland’s D算法。统计学、自然语言处理、人工智能等领域的发展突飞猛进，语料库工具的迭代更新却停滞不前。过高的入行门槛限制了语料库研究群体的长期发展，技术壁垒的存在让语料库技术变为一小撮领域精英的专属资源。然而，鱼和熊掌却未必不可兼得，笔者开发Wordless的主要目的之一就是尝试解决上述问题。

Wordless内置了语种及编码检测功能，用户无需手动指定每个文件的语种，也无需担心语料文件编码不明或不同导致的兼容问题。Wordless中的所有功能都会根据各文件的语种设置对每个文件分别进行必要的处理并显示计算结果。

Wordless目前支持98种语言和102种编码的检测、至少108个语种的分句/分词/分词还原、42个语种的分音、27个语种的词性标注、45个语种的词形还原、99个语种的停用词表。用户可通过设置界面中的预览功能来对语料进行NLP相关的处理操作。

主页https://github.com/BLKSerene/Wordless

Github下载https://github.com/BLKSerene/Wordless#download

云盘下载(提取码：wdls)https://pan.baidu.com/s/1--ZzABrDQBZlZagWlVQMbg

使用文档https://github.com/BLKSerene/Wordless#documentation

引用信息https://github.com/BLKSerene/Wordless#citing

捐助开发https://github.com/BLKSerene/Wordless#donating

微信公众号Wordless

来源：应用语言学研习