JyutCollab 是一个创新的众包平台,专门用于记录和整理粤语多音节表达。 我们采用概念驱动的方法,结合现代 AI 技术与传统语言学理论, 为粤语文化的传承和发展提供强有力的支持。
基于《实用广州话分类词典》的语义分类框架,构建概念驱动的粤语表达数据库
平台建立在《实用广州话分类词典》(麦耘、谭步云,2016)的语义分类框架之上, 提供了一个连贯、可理解的主题分类体系作为系统的概念支柱。
泛粤字表(YDCT)作为经过人工验证的区域单音节读音清单, 进一步支持跨方言点的词汇一致性和音系验证。
与传统的基于字符的词典不同,我们采用概念驱动(即主题驱动)的方法。 每个条目都组织在相关的主题类别下,实现表达相同概念域的区域不同形式的系统性对齐和比较。
这种方法特别适合捕捉形式多变的粤语多音节表达。
结合 AI 技术与社区协作,提供全方位的粤语表达记录体验
大语言模型为每个新条目推荐最合适的主题类别
在数据提交过程中,来自不同地区的贡献者提供表达的地方形式。 LLM 技术自动推荐最合适的主题类别,最终由人类贡献者确认以确保准确性。
提供广州话变体作为语言参考,辅助其他方言的录入
一旦分配了类别,系统会检索该类别中广州话变体的相应条目, 作为语言参考,帮助志愿者完成或验证自己方言中的条目。
AI 生成释义、例句并标记潜在问题
LLM 协助贡献者生成定义、建议例句,并标记拼写、发音或用法方面的潜在问题。 这些建议有助于提高数据质量,同时减少创建新条目所需的工作量。
支持自动分解多音节词并进行音系合理性检查
支持多音节词自动分解为单音节字符并查询通用字表和泛粤字表, 支持区域音系合理性检查,并标记发音或字符使用方面的潜在错误。
专业审核流程确保数据质量和准确性
所有提交的条目都经过专业审核团队的最终确认, 确保数据的准确性、一致性和学术价值。
开放的贡献机制,支持新条目和区域变体补充
平台支持新条目和区域变体(如地方发音或用法)的持续补充, 确保不断发展和包容性的数据覆盖。
从主题导航到最终审核的完整流程
贡献者通过主题分类系统浏览相关类别,AI 辅助推荐最合适的分类。 系统提供广州话参考条目,帮助理解概念域的表达方式。
自动分解多音节词并查询通用字表和泛粤字表,进行音系合理性检查。 AI 标记潜在的拼写、发音或用法问题,提供改进建议。
大语言模型生成定义、例句和用法说明。 系统提供跨方言对比,帮助理解区域差异。
专业审核团队进行最终确认,确保数据质量和学术准确性。 审核通过后,条目正式加入数据库,供社区使用。
基于扎实的语言学研究和现代技术应用
麦耘、谭步云 (2016)
世界图书出版公司
ISBN: 978-7519201074
该词典提供了连贯、可理解的主题分类体系, 作为 JyutCollab 平台的概念支柱。
持续改进和扩展平台功能