分词工具 v0.42 发布:Bug 修复
上次发布的分词工具v0.41有bug。分发词提取工具 v0.42,修复了导致 KeyError: “Column(s) ['DBSchema'] do not exist” 错误的错误。
相关文章: Release Word Extraction Tool v0.41: 增加DBSchema出现频率项
Kim Ki-young 通过以下评论报告了该错误。
你好!
当使用从没有DB注释的文件中提取单词的方法时,这是三种执行方法之一
(python word_extractor.py –in_path .\in –out_path .\out)txt, word, ppt 全部
miniconda3\envs\wordextr\lib\site-packages\pandas\core\apply.py”,第 601 行,在 normalize_dictlike_arg raise KeyError(f”Column(s) {cols_sorted} 不存在”)
KeyError:“列 ['DBSchema'] 不存在”
它正在退出并出现错误。
输入 DB 注释文件的执行方法 2 和 3 没有错误。
我把 'DBSchema': [db_schema] 放在第 97 行,但是这次
在 get_grouper raise KeyError(gpr) KeyError: 'Word' 错误被显示。
谢谢
修改后的代码如下。
if 'DB' in df_result.columns: df_group = df_result.groupby('Word').agg({ 'Word': 'count', 'Source': lambda x: '\n'.join(list(x)[:10]), 'DBSchema': 'nunique' }).rename(columns={ 'Word': 'Freq', 'Source': 'Source', 'DBSchema': 'DBSchema_Freq' }) else: df_result['DB'] = '' df_result['Schema'] = '' df_result['Table'] = '' df_result['Column'] = '' df_result['DBSchema'] = '' df_group = df_result.groupby('Word').agg({ 'Word': 'count', 'Source': lambda x: '\n'.join(list(x)[:10]) }).rename(columns={ 'Word': 'Freq', 'Source': 'Source' })
'DB'在列列表中存在和不存在的情况分为处理。
Word Extraction Tool v0.42 的完整源代码可以在以下 URL 找到。
https://github.com/DAToolset/ToolsForDataStandard/blob/main/WordExtractor/word_extractor.py