-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy path09_count_char.py
32 lines (24 loc) · 1.52 KB
/
09_count_char.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
import statistics # Импортируем модуль для вычисления статистических параметров
import pandas as pd # Импортируем модуль для работы с данными в формате DataFrame
# Загружаем данные из CSV файла в DataFrame
df = pd.read_csv("extracted_cases_preprocessed.csv")
# Извлекаем колонку 'text' и 'text_prep' из DataFrame
texts = df["text"]
texts_prep = df["text_prep"]
# Рассчитываем количество символов в каждом тексте
character_counts = texts.apply(len)
character_counts_prep = texts_prep.apply(len)
# Вычисляем общую сумму, среднее и медианное количество символов в текстах
total_characters = character_counts.sum()
mean_characters = statistics.mean(character_counts)
median_characters = statistics.median(character_counts)
total_characters_prep = character_counts_prep.sum()
mean_characters_prep = statistics.mean(character_counts_prep)
median_characters_prep = statistics.median(character_counts_prep)
# Выводим результаты на экран
print("Total characters in all texts:", total_characters)
print("Mean characters per text:", mean_characters)
print("Median characters per text:", median_characters)
print("Total characters in all texts:", total_characters_prep)
print("Mean characters per text:", mean_characters_prep)
print("Median characters per text:", median_characters_prep)