分词工具 v0.42 发布:Bug 修复

上次发布的分词工具v0.41有bug。分发词提取工具 v0.42,修复了导致 KeyError: “Column(s) ['DBSchema'] do not exist” 错误的错误。

相关文章: Release Word Extraction Tool v0.41: 增加DBSchema出现频率项

Kim Ki-young 通过以下评论报告了该错误。

단어 추출 도구 v0.41 버그 내용KeyError: "Column(s) ['DBSchema'] do not exist"
词提取工具 v0.41 错误内容
KeyError:“列 ['DBSchema'] 不存在”

你好!

当使用从没有DB注释的文件中提取单词的方法时,这是三种执行方法之一
(python word_extractor.py –in_path .\in –out_path .\out)

txt, word, ppt 全部

miniconda3\envs\wordextr\lib\site-packages\pandas\core\apply.py”,第 601 行,在 normalize_dictlike_arg raise KeyError(f”Column(s) {cols_sorted} 不存在”)

KeyError:“列 ['DBSchema'] 不存在”

它正在退出并出现错误。

输入 DB 注释文件的执行方法 2 和 3 没有错误。

我把 'DBSchema': [db_schema] 放在第 97 行,但是这次

在 get_grouper raise KeyError(gpr) KeyError: 'Word' 错误被显示。

谢谢

修改后的代码如下。

    if 'DB' in df_result.columns:
        df_group = df_result.groupby('Word').agg({
            'Word': 'count',
            'Source': lambda x: '\n'.join(list(x)[:10]),
            'DBSchema': 'nunique'
        }).rename(columns={
            'Word': 'Freq',
            'Source': 'Source',
            'DBSchema': 'DBSchema_Freq'
        })
    else:
        df_result['DB'] = ''
        df_result['Schema'] = ''
        df_result['Table'] = ''
        df_result['Column'] = ''
        df_result['DBSchema'] = ''

        df_group = df_result.groupby('Word').agg({
            'Word': 'count',
            'Source': lambda x: '\n'.join(list(x)[:10])
        }).rename(columns={
            'Word': 'Freq',
            'Source': 'Source'
        })

'DB'在列列表中存在和不存在的情况分为处理。

Word Extraction Tool v0.42 的完整源代码可以在以下 URL 找到。

https://github.com/DAToolset/ToolsForDataStandard/blob/main/WordExtractor/word_extractor.py

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

zh_CN简体中文