Soru:
PDF'yi metne dönüştürmek için Python modülü
Franck Dernoncourt
2017-04-28 07:46:45 UTC
view on stackexchange narkive permalink

PDF dosyalarını metne dönüştürmek için herhangi bir Python modülü var mı? Activestate'de bulunan ve pypdf kullanan tek bir kod parçasını ( yansıtma) denedim, ancak oluşturulan metinde boşluk yoktu ve işe yaramadı.


Bu soru ilk olarak cnu tarafından stack overflow'da yayınlandı ancak kapandı.

Sekiz yanıtlar:
Steve Barnes
2017-04-28 10:59:02 UTC
view on stackexchange narkive permalink

python 3 kitaplıkları için python pdfminer2 veya pdfminer3k / pdfminer.six metni pdf'den çıkarabilir metin içeren dosyalar (pdf olarak saklanan taranmış belgelerin metin veya OCR denemesi içermeyeceğini unutmayın).

Kullanışlılık sağlamak için pdf2txt.py komut satırı terminalde kullanın.

Rutrus
2017-06-24 18:47:32 UTC
view on stackexchange narkive permalink

Python'da pdf'yi yönetmenin en kolay yolu PyPDF2 'dir ayrıca metin ve sayfalar, yazar, oluşturucu gibi diğer bilgileri de çıkarabilirsiniz ...

pypdf ancak güncel olmayan bir sürüm ve bu sorun çözülebilir. Belki sorunun belirli bir dosyayla ilgilidir. PyPDF2 sorununuzu çözmezse, pdftotext unix komutunu gördünüz mü? Size doğru bir çıktı veriyor mu?

Shoham
2018-03-05 02:40:36 UTC
view on stackexchange narkive permalink

UTF-8 içeriği için benim için çalışan tek çözüm: Apache Tika

  tika import parserparsed = parser.from_file ('/ path / to / file.pdf ') yazdır (ayrıştırılmış ["içerik"])  
Cornelius Roemer
2020-05-18 00:18:29 UTC
view on stackexchange narkive permalink

İki PDF modülüyle çalıştım: PyPDF2 ve pdfminer.six

PDFminer.six, PyPDF2'den daha güvenilir ancak 6 kat daha yavaştır (

İşte PDFminer.six için çalışan bir kod örneği, dokümantasyon biraz seyrek: https://stackoverflow.com/a/61857301/7483211

Deneyiminizi paylaştığınız için teşekkürler!
Tilal Ahmad
2019-10-25 19:08:57 UTC
view on stackexchange narkive permalink

PDF'yi Metne dönüştürmek için GroupDocs.Conversion Cloud SDK for Python 'u kullanabilirsiniz. Diğer yaygın dosya formatlarını da metne dönüştürebilir. Ücretsiz paket planı ayda 50 ücretsiz kredi sağlıyor.

Aspose'da geliştirici misyoneriyim.

Franck Dernoncourt
2020-05-18 09:35:29 UTC
view on stackexchange narkive permalink

https://github.com/kermitt2/grobid + https://github.com/kermitt2/grobid-client-python:

  • bilimsel belgelerden bilgi alın
  • iki depo Apache-2.0'dır
  • PDF makalelerinden tam metin çıkarma ve yapılandırma, metin gövdesinin yapılandırılması için genel belge bölümleme ve modeller (paragraf, bölüm başlıkları, referans belirtme çizgisi, şekil, tablo vb.).

  • grobid Java'da ve https://github.com/kermitt2/grobid-client-python
ile Python aracılığıyla hizmet olarak çağrılabilir
Franck Dernoncourt
2020-05-18 09:39:56 UTC
view on stackexchange narkive permalink

https://github.com/allenai/spv2:

  • artık korunmuyor
  • lisans yok
  • akademik makalelere odaklanır
Franck Dernoncourt
2020-05-18 09:50:07 UTC
view on stackexchange narkive permalink

https://github.com/allenai/science-parse:

  • Science Parse, bilimsel makaleleri ayrıştırır (PDF biçiminde) ve bunları yapılandırılmış biçimde döndürür. Bugün itibariyle şu alanları desteklemektedir: […] Bölümler (her biri başlık ve gövde metni ile).

  • Apache License 2.0
  • Java ile yazılmış . Python ile kullanmak için bkz. https://github.com/allenai/science-parse/issues/133#issuecomment-629943735


Bu Soru-Cevap, otomatik olarak İngilizce dilinden çevrilmiştir.Orijinal içerik, dağıtıldığı cc by-sa 3.0 lisansı için teşekkür ettiğimiz stackexchange'ta mevcuttur.
Loading...