文本分析软件Leximancer概念计数和多种语言建模
在Leximancer中,概念是一组在文本中一起传播的相关单词(术语)。证据词包括同义词和形容词。Leximancer概念以种子词开始,种子词由Leximancher自动发现或手动指定用于编码。Leximancer的学习过程将概念种子定义演变成一个完整的词库。概念可以像单词一样,也可以像名字一样(专有名称,如Peter)
词典概念计数可以与文档中的手动单词计数进行比较吗?
不是。Leximancer围绕单词建立概念族,然后使用这些概念族对存在多个概念的每两个句子块进行编码或分类。
Leximancer统计包含一个概念的整个2个句子片段,而不是单词的重复。此外,还将存在用不包含单词的概念编码的文本段。
注意:两个句子块的大小是默认值,可以更改。其他项目设置可能会影响Leximancer处理文本的方式以及由此产生的概念计数。
你能在同一个词汇分析/地图中为多种语言建模吗?
是的,但结果可能不是你想要的。Leximancer不执行自动翻译,因此来自不同语言的两个意思相同的概念不会使用普通文本数据自动合并。由此产生的映射对于每种语言都有很大程度上独立的概念集群。您可以手动跨语言合并集线器概念,如果合并足够多,语言集群就会合并。
要在同一项目中映射来自多种语言的数据,必须执行两件事:
- 为项目选择每个数据集时,指定它们的语言;
- 必须在非索引字表编辑器中(使用顶部的“加载语言”按钮)为每个附加语言加载非索引字清单。
-
2026-03-10
GTAP数据库 V12已正式发布 - 附视频介绍
GTAP(Global Trade Analysis Project)是一个设立在美国普渡大学农业经济系的经济研究组织。该项目成立于1992年,旨在为贸易政策分析和可计算一般均衡(CGE)建模提供数据支持。全新版GTAP V12已于2026年2月正式发布,欢迎联系北京睿驰科技订购正版GTAP数据库。
查看详情 >
-
2026-03-26
Origin 2026 SR1 服务更新包发布
Origin 2026 服务更新包1现已发布,适用于更新现有Origin或OriginPro 2026 SR0安装或全新安装。本次更新修正了智能填充、Excel公式、分组绘图批量操作及合并图形兼容性等多处问题,并解决了部分崩溃错误。安装后版本号将升级到10.3.0.197,用户可通过“帮助:关于Origin”确认更新完成。
查看详情 >
-
2026-04-13
GMS 10.9 中文版正式发布 — 新增 PFAS 运移模拟与地下水能量(GWE)模块
GMS 10.9 中文版现已发布。本次更新新增 MODFLOW-USG Transport 对 PFAS 运移模拟的支持、MODFLOW 6 地下水能量(GWE)模型、UGrid 多项改进以及 MODFLOW 6 界面优化等功能,为地下水数值模拟与地热储能分析提供更多工具支持。
查看详情 >
