GitHub开源的PDF管理工具Stirling-pdf

打印 上一主题 下一主题

主题 1025|帖子 1025|积分 3075

官网:https://github.com/Stirling-Tools/Stirling-PDF
手动搭建

Ubuntu2404情况
安装所需软件包
  1. apt install -y git  automake  autoconf  libtool  libleptonica-dev  pkg-config zlib1g-dev make g++ openjdk-21-jdk python3 python3-pip
复制代码
克隆并构建 jbig2enc,如果拉取失败,可以去gitlab下载,再上传
  1. mkdir ~/.git
  2. cd ~/.git &&\
  3. git clone https://github.com/agl/jbig2enc.git &&\
  4. cd jbig2enc &&\
  5. ./autogen.sh &&\
  6. ./configure &&\
  7. make &&\
  8. sudo make install
复制代码
安装 LibreOffice 用于转换,安装 ocrmypdf 用于 OCR,以及安装 opencv 用于模式识别功能
  1. apt install -y libreoffice-writer libreoffice-calc libreoffice-impress unpaper ocrmypdf pip3 install uno opencv-python-headless unoconv pngquant WeasyPrint --break-system-packages
复制代码
克隆并构建 Stirling-PDF
  1. cd ~/.git &&\
  2. git clone https://github.com/Stirling-Tools/Stirling-PDF.git &&\
  3. cd Stirling-PDF &&\
  4. chmod +x ./gradlew &&\
  5. ./gradlew build
复制代码
如果报超时:就手动下载/gradle-8.7-bin.zip,然后上传到Stirling-PDF,执行./gradlew build
Exception in thread “main” java.io.IOException: Downloading from https://services.gradle.org/distributions/gradle-8.7-bin.zip failed: timeout
构建过程完成后,目次.jar中将天生一个文件build/libs。可以将此文件移动到所需位置,例如/opt/Stirling-PDF/。还必须将下载的 Stirling-PDF 存储库中的脚本文件夹移动到此目次。使用 OpenCV 的 Python 脚本需要此文件夹
  1. mkdir /opt/Stirling-PDF
  2. mv ./build/libs/Stirling-PDF-*.jar /opt/Stirling-PDF/
  3. mv scripts /opt/Stirling-PDF/
复制代码
安装语言包
  1. apt install -y 'tesseract-ocr-*'
复制代码
运行 Stirling-PDF,两者皆可
  1. ./gradlew bootRun
复制代码
  1. java -jar /opt/Stirling-PDF/Stirling-PDF-*.jar
复制代码
如果出现
[Thread-7] INFO s.s.SPDF.utils.ProcessExecutor - mkdir: cannot create directory ‘/run/user/1501’: Permission denied
则配置
  1. mkdir temp
  2. export DBUS_SESSION_BUS_ADDRESS="unix:path=./temp"
复制代码
重新启动
  1. java -jar ./Stirling-PDF-*.jar
复制代码
界面访问:IP:8080

测试

可选:将 Stirling-PDF 作为服务运行
创建一个.env 文件,可以在其中存储情况变量
  1. touch /opt/Stirling-PDF/.env
复制代码
  1. vim /etc/systemd/system/stirlingpdf.service
复制代码
  1. [Unit]
  2. Description=Stirling-PDF service
  3. After=syslog.target network.target
  4. [Service]
  5. SuccessExitStatus=143
  6. User=root
  7. Group=root
  8. Type=simple
  9. EnvironmentFile=/opt/Stirling-PDF/.env
  10. WorkingDirectory=/opt/Stirling-PDF
  11. ExecStart=/usr/bin/java -jar Stirling-PDF-0.17.2.jar
  12. ExecStop=/bin/kill -15 $MAINPID
  13. [Install]
  14. WantedBy=multi-user.target
复制代码
  1. systemctl daemon-reload
复制代码
  1. systemctl start stirlingpdf.service
  2. systemctl stop stirlingpdf.service
  3. systemctl restart stirlingpdf.service
复制代码
docker搭建

Ubuntu配置docker情况
  1. apt -y install apt-transport-https ca-certificates curl software-properties-common
  2. curl -fsSL https://mirrors.aliyun.com/docker-ce/linux/ubuntu/gpg | sudo apt-key add -
  3. add-apt-repository "deb [arch=amd64] https://mirrors.aliyun.com/docker-ce/linux/ubuntu $(lsb_release -cs) stable"
  4. apt-get -y install docker-ce
复制代码
设置开机自启
  1. systemctl enable --now docker
复制代码
拉取镜像
  1. docker pull frooodle/s-pdf:latest
复制代码
docker直接run
  1. docker run -d \
  2.   -p 8080:8080 \
  3.   -v ./trainingData:/usr/share/tessdata \
  4.   -v ./extraConfigs:/configs \
  5.   -v ./logs:/logs \
  6.   -e DOCKER_ENABLE_SECURITY=false \
  7.   -e INSTALL_BOOK_AND_ADVANCED_HTML_OPS=false \
  8.   -e LANGS=en_GB \
  9.   --name stirling-pdf \
  10.   frooodle/s-pdf:latest
复制代码
或者compose也可
  1. version: '3.3'
  2. services:
  3.   stirling-pdf:
  4.     image: frooodle/s-pdf:latest
  5.     ports:
  6.       - '8080:8080'
  7.     volumes:
  8.       - ./trainingData:/usr/share/tessdata #Required for extra OCR languages
  9.       - ./extraConfigs:/configs
  10. #      - ./customFiles:/customFiles/
  11. #      - ./logs:/logs/
  12.     environment:
  13.       - DOCKER_ENABLE_SECURITY=false
  14.       - INSTALL_BOOK_AND_ADVANCED_HTML_OPS=false
  15.       - LANGS=en_GB
复制代码
界面直接访问:IP:8080

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

南飓风

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表