首页
IT技术
前端
后端
移动开发
编程语言
数据库
大数据
每日资讯
登录
标签
分词
nlp 文本切割 huggingface nlp文本处理
1.文本处理的一般流程 pipeline分词主要是中文,英语使用空格区分不涉及,清洗包括无用的标签(例如从网上爬取的文本中可能包含html标签)、特殊的符号(!感叹号、省略号等)、停用词、大写转小写标准化包括stemming、lemmaza
分词
nlp
前向最大匹配
后向最大匹配
最大匹配
admin
7月前
15
0