1 |
docker run -it --name tika-server-ocr -d -p 9998:9998 apache/tika:2.9.1.0-full |
Сървърът е достъпен на
1 |
http://localhost:9998/ |
1 2 3 |
# За да се промени паролата на вече стартиран контейнер docker exec -itu 0 tika-server-ocr passwd |
Инсталиране на нов език за Tesseract:
1 2 3 |
docker exec -it tika-server-ocr /bin/bash apt-get update apt-get install tesseract-ocr-bg |
Извличане на текст от съдържанието на документ:
1 2 3 |
curl -T document.docx http://localhost:9998/tika --header "Accept: text/plain" |
Доълнителна информация може да се намери тук: https://medium.com/@masreis/text-extraction-and-ocr-with-apache-tika-302464895e5f