Herramienta de extracción de Word (2): configuración del entorno de ejecución de la herramienta de extracción de Word

La herramienta de extracción de palabras es una herramienta desarrollada en Python, y previo a su ejecución se requiere un proceso de configuración del entorno como la instalación de Python y los paquetes necesarios. Echemos un vistazo a la configuración del entorno de ejecución de la herramienta de extracción de palabras.

Esta es una continuación del artículo anterior.

Herramienta de extracción de palabras (1): descripción general de la herramienta de extracción de palabras

2. Configuración del entorno de ejecución de la herramienta de extracción de palabras

2.1. Descripción general de la configuración del entorno

2.1.1. Recomendaciones

Se recomienda instalar Miniconda en lugar de Anaconda. Anaconda instala demasiados paquetes en el entorno predeterminado, lo que lo hace grande. Recomendamos usar Miniconda ya que es pequeño y liviano para empezar.

Si Miniconda no está instalado, se recomienda la instalación de virtualenv. Si instala el paquete en un entorno separado aislado del entorno básico, puede evitar problemas como conflictos de versión del paquete.

Si se considera que no hay problema o si solo se usa el extractor de palabras, está bien usar el entorno predeterminado. Este artículo explica cómo usar Miniconda en Windows 10 de 64 bits.

2.1.2. Elige un despalillador: Mecab

Se eligió Mecab porque era el más rápido de ejecutar entre los analizadores de morfemas de lenguaje natural abierto y el más adecuado para el propósito de extracción de palabras. Para usar un analizador de morfemas que no sea Mecab, puede reescribir la función get_word_list().

2.1.3. Orden general de configuración del entorno

  1. Instalar Miniconda
  2. Creación y activación de un entorno virtual
  3. Instalar Python en un entorno virtual
  4. Instalar los paquetes necesarios para el entorno virtual (instalar en el entorno básico si no se utiliza el entorno virtual)

2.2. Instalar Miniconda

https://conda.io/en/latest/miniconda.html#windows-installers Seleccione y descargue la versión de Python desde . La herramienta de extracción de palabras se desarrolló en Python 3.8 y funciona bien en 3.9. Aquí vamos a descargar e instalar 3.9.

Miniconda Windows Installers version
Versión de los instaladores de Windows Miniconda

Ejecute el archivo descargado (Miniconda3-py39_4.10.3-Windows-x86_64.exe) para continuar con la instalación. Haga clic en el botón Siguiente varias veces para completar la instalación.

Miniconda 설치 화면
Pantalla de instalación Miniconda

Las tareas subsiguientes se ejecutan desde el indicador de Miniconda. Puede ejecutarlo desde la siguiente ruta.

Menú de inicio > Anaconda3 (64 bits) > Indicación de Anaconda (miniconda3)

Miniconda Prompt 실행
Ejecutar solicitud de Miniconda

2.3. Creación y activación de un entorno virtual

Cuando ejecuta Miniconda Prompt por primera vez, el entorno base (base) se activa. (ver imagen arriba)

Cree un entorno virtual separado para la herramienta de extracción de palabras.

(base) C:\Users\ymlee>conda create -n wordextr

Active el entorno virtual creado con el siguiente comando. Si el nombre del entorno virtual (wordextr) aparece al frente después de ejecutar el comando, normalmente está activado.

(base) C:\Users\ymlee>conda activate wordextr
(wordextr) C:\Users\ymlee>

2.4. Instalar Python en un entorno virtual

Ejecute el siguiente comando.

(wordextr) C:\Users\ymlee>conda install python

Se genera algo como lo siguiente:

(wordextr) C:\Users\ymlee>conda install python
Collecting package metadata (current_repodata.json): done
Solving environment: done

## Package Plan ##

  environment location: C:\Users\ymlee\miniconda3\envs\wordextr

  added / updated specs:
    - python


The following NEW packages will be INSTALLED:

  ca-certificates    pkgs/main/win-64::ca-certificates-2021.7.5-haa95532_1
  certifi            pkgs/main/win-64::certifi-2021.5.30-py39haa95532_0
  openssl            pkgs/main/win-64::openssl-1.1.1l-h2bbff1b_0
  pip                pkgs/main/win-64::pip-21.2.4-py38haa95532_0
  python             pkgs/main/win-64::python-3.9.7-h6244533_1
  setuptools         pkgs/main/win-64::setuptools-58.0.4-py39haa95532_0
  sqlite             pkgs/main/win-64::sqlite-3.36.0-h2bbff1b_0
  tzdata             pkgs/main/noarch::tzdata-2021a-h5d7bf9c_0
  vc                 pkgs/main/win-64::vc-14.2-h21ff451_1
  vs2015_runtime     pkgs/main/win-64::vs2015_runtime-14.27.29016-h5e58377_2
  wheel              pkgs/main/noarch::wheel-0.37.0-pyhd3eb1b0_1
  wincertstore       pkgs/main/win-64::wincertstore-0.2-py39h2bbff1b_0


Proceed ([y]/n)?

Simplemente presione Entrar o escriba y y presione Entrar para comenzar la instalación. Como referencia, si no desea instalarlo, escriba n y presione Entrar.

2.5. Instalar los paquetes necesarios

Instale los paquetes necesarios con el siguiente comando: Dado que conda no proporciona wordcloud y eunjeon, deben instalarse con pip.

conda install pywin32
conda install pandas
conda install Jinja2
conda install xlsxwriter
pip install wordcloud
pip install eunjeon

El propósito de cada paquete es el siguiente.

  • pywin32: se utiliza para abrir y leer archivos de MS Word, PowerPoint y Excel en la automatización OLE
  • pandas: se utiliza para administrar los resultados de extracción de palabras en la memoria y guardarlos en un archivo de Excel al final
  • Jinja2, xlsxwriter: utilizado para ExcelWriter en pandas
  • wordcloud: se utiliza para visualizar los resultados de la extracción de palabras
  • eunjeon: utilizando el analizador de morfemas coreano Mecab

Al instalar eunjeon, se requiere "Microsoft Visual C++ 14.0 o superior". Si se produce un error, descargue e instale 'Microsoft Build Tools 2015 Update 3' entre 'Redistributable Packages and Build Tools' desde la siguiente URL e inténtelo de nuevo.

https://visualstudio.microsoft.com/ko/vs/older-downloads/#microsoft-build-tools-2015-update-3

Al instalar, seleccione "Desarrollo de escritorio con C++" e instálelo. (La pantalla a continuación es una pantalla capturada después de la instalación y es ligeramente diferente de la pantalla durante la instalación)

Microsoft Build Tools 2015 업데이트 3 설치
Instale Microsoft Build Tools 2015 Actualización 3

Después de instalar “Microsoft Build Tools 2015 Update 3”, instale eunjeon con el siguiente comando.

pip install eunjeon

Si la instalación de eunjeon está completa, puede eliminar "Microsoft Build Tools 2015 Update 3".

Ejecute 'Visual Studio Installer' desde el menú de inicio, anule la selección de "Desarrollo de escritorio con C++" y haga clic en el botón "Modificar" en la parte inferior derecha para eliminarlo.

Visual Studio Installer 실행
Ejecute el instalador de Visual Studio
Microsoft Build Tools 2015 업데이트 3 제거
Desinstalar Microsoft Build Tools 2015 Actualización 3

En este punto, la configuración del entorno está completa. A continuación, veremos cómo ejecutar la herramienta de extracción de palabras y verificar los resultados.


<< Lista de artículos relacionados >>

7 Respuestas

  1. foto de avatar 김철민 dice:

    (wordextr) E:\WordExtractor>python word_extractor.py –in_path .\in –out_path .\out
    Soy un principiante y uso Python por primera vez. Lo ejecuté como arriba y obtuve el siguiente resultado. Parece que hay algún problema con la designación de la ruta, pero soy un novato y no puedo resolverlo. Agradecería vuestra ayuda (las carpetas de entrada y salida se han creado correctamente).

    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    ————————————————————
    Inicio de Word Extractor v0.41 — 2023-11-20 03:13:07.584787
    ##### argumentos #####
    recuento_multiproceso: 32
    db_comment_file: Ninguno
    in_path: .\en
    ruta_salida: .\salida
    ————————————————————
    [2023-11-20 03:13:07.586789] Iniciar Obtener lista de archivos…
    [2023-11-20 03:13:07.586789] Finalizar Obtener lista de archivos.
    — Lista de archivos —
    E:\WordExtractor\en\test.txt
    [2023-11-20 03:13:07.588790] Iniciar Obtener texto del archivo…
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')
    E:\WordExtractor\word_extractor.py:382: Advertencia de sintaxis: secuencia de escape no válida '\o'
    use_description = “””— Descripción —
    E:\WordExtractor\word_extractor.py:406: Advertencia de sintaxis: secuencia de escape no válida '\i'
    parser.add_argument('–in_path', require=False, help='Archivo de entrada (ppt, doc, txt) nombre de ruta (por ejemplo, .\in) ')
    E:\WordExtractor\word_extractor.py:407: Advertencia de sintaxis: secuencia de escape no válida '\o'
    parser.add_argument('–out_path', require=True, help='Nombre de ruta del archivo de salida (xlsx, png) (por ejemplo, .\out)')

    get_txt_text: E:\WordExtractor\en\test.txt
    multiprocesamiento.pool.RemoteTraceback:
    “””
    Rastreo (llamadas recientes más última):
    Archivo “C:\ProgramData\miniconda3\envs\wordextr\Lib\multiprocessing\pool.py”, línea 125, en trabajador
    resultado = (Verdadero, func(*args, **kwds))
    ^^^^^^^^^^^^^^^^^^^
    Archivo “C:\ProgramData\miniconda3\envs\wordextr\Lib\multiprocessing\pool.py”, línea 48, en mapstar
    lista de retorno (mapa (* argumentos))
    ^^^^^^^^^^^^^^^^
    Archivo “E:\WordExtractor\word_extractor.py”, línea 367, en get_file_text
    df_text = get_txt_text(nombre_archivo)
    ^^^^^^^^^^^^^^^^^^^^^^^
    Archivo “E:\WordExtractor\word_extractor.py”, línea 238, en get_txt_text
    df_text = df_text.append(sr_text, ignore_index=True)
    ^^^^^^^^^^^^^^
    Archivo “C:\ProgramData\miniconda3\envs\wordextr\Lib\site-packages\pandas\core\generic.py”, línea 6204, en __getattr__
    devolver objeto.__getattribute__(yo, nombre)
    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
    AttributeError: el objeto 'DataFrame' no tiene el atributo 'append'. ¿Quiso decir: '_append'?
    “””

    La excepción anterior fue la causa directa de la siguiente excepción:

    Rastreo (llamadas recientes más última):
    Archivo “E:\WordExtractor\word_extractor.py”, línea 559, en
    principal()
    Archivo “E:\WordExtractor\word_extractor.py”, línea 460, en principal
    mp_text_result = pool.map(get_file_text, file_list)
    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
    Archivo “C:\ProgramData\miniconda3\envs\wordextr\Lib\multiprocessing\pool.py”, línea 367, en el mapa
    devolver self._map_async(func, iterable, mapstar, chunksize).get()
    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
    Archivo “C:\ProgramData\miniconda3\envs\wordextr\Lib\multiprocessing\pool.py”, línea 774, en get
    aumentar self._value
    AttributeError: el objeto 'DataFrame' no tiene el atributo 'añadir'

    (extrpalabra) E:\WordExtractor>

    • foto de avatar Zerom dice:

      Hola mucho gusto.
      Dado que se trata de un error que no he experimentado, es difícil decirle cómo solucionarlo de inmediato.
      ¿Podrías comprobar y dejarme saber las versiones de Python, numpy y pandas?
      Creo que necesitas comprobarlo porque la versión es diferente.

      Como referencia, la versión del entorno que implementé y probé es la siguiente.
      – Python: 3.9.6 (Cómo verificar: python –versión)
      – numpy: 1.20.3 (Cómo verificar: lista de pip) (También puede verificar los pandas a continuación de inmediato)
      – pandas: 1.3.1

    • foto de avatar 서희경 dice:

      Yo también tuve el mismo error. Lo ejecuté de acuerdo con las versiones de los paquetes que compartiste y fue exitoso.

  2. foto de avatar 서희경 dice:

    Hola. Tengo una pregunta sobre la instalación de Anaconda. Me gustaría utilizar una herramienta de extracción de palabras dentro de la empresa, pero como Anaconda es de pago, la empresa recomienda utilizar miniforge. ¿Habrá alguna diferencia en la funcionalidad si uso la herramienta de extracción de palabras después de instalar miniforge?

    • foto de avatar Zerom dice:

      No he usado miniforge, así que no sé si habrá una diferencia funcional.
      El propósito de instalar miniconda era crear y administrar fácilmente un entorno virtual en lugar de facilitar la instalación de paquetes.

      Prueba esto:
      – Utilice venv o virtualenv en lugar de miniconda (ver: https://richwind.co.kr/193)
      – “2.5. Cambie "conda install" a "pip install" en el contenido "Instalar paquetes necesarios".

      Espero que vaya bien.

      • foto de avatar 서희경 dice:

        Primero, instalé miniforge y realicé el proceso anterior en el indicador de Miniforge, y funcionó sin ningún problema.
        Y la 'Actualización 3 de Microsoft Build Tools 2015' que mencionaste no se instaló bien, así que instalé Microsoft Build Tools 2022 y recibí eunjeon.

        Ahora probaré la herramienta de extracción y les daré mi opinión 🙂

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

es_ESEspañol