TiffinTech · Fabelouzz · Jul 18, 2024
diff --git a/book.pdf b/book.pdf
diff --git a/main.py b/main.py
@@ -1,15 +1,30 @@
-import pyttsx3,PyPDF2
+import pyttsx3
+from PyPDF2 import PdfReader
+import re
 
-#insert name of your pdf 
-pdfreader = PyPDF2.PdfFileReader(open('book.pdf', 'rb'))
+def clean_text(text):
+    # Remove newlines and excessive spaces
+    text = re.sub(r'\s+', ' ', text)
+    # Remove any extra spaces around punctuation
+    text = re.sub(r'\s([?.!,;"](?:\s|$))', r'\1', text)
+    return text
+
+# Use the correct class PdfReader instead of the deprecated PdfFileReader
+pdfreader = PdfReader('book.pdf')
 speaker = pyttsx3.init()
 
-for page_num in range(pdfreader.numPages):
-    text = pdfreader.getPage(page_num).extractText()
-    clean_text = text.strip().replace('\n', ' ')
-    print(clean_text)
-#name mp3 file whatever you would like
-speaker.save_to_file(clean_text, 'story.mp3')
+full_text = ""
+
+for page_num in range(len(pdfreader.pages)):
+    text = pdfreader.pages[page_num].extract_text()
+    if text:  # Check if text is not None
+        clean_text = clean_text(text)
+        full_text += clean_text + " "
+        print(clean_text)
+
+# Save the cleaned text to an MP3 file
+speaker.save_to_file(full_text, 'story.mp3')
 speaker.runAndWait()
 
 speaker.stop()
+