Untitled

mail@pastecode.io avatar
unknown
python
2 months ago
884 B
2
Indexable
Never
import pandas as pd
import pymorphy2

try:
    data = pd.read_csv('toxic_comments.csv')
except:
    data = pd.read_csv('/datasets/toxic_comments.csv')
data

# Создаем объект MorphAnalyzer
morph = pymorphy2.MorphAnalyzer()

# Функция для лемматизации строки
def lemmatize_text(text):
    words = text.split()
    lemmatized_words = [morph.parse(word)[0].normal_form for word in words]
    lemmatized_text = ' '.join(lemmatized_words)
    return lemmatized_text

kol1 = 200000
# Применяем функцию к столбцу 'твиты'
df = pd.DataFrame()

%%time
df['лемматизированные_твиты'] = data['text']. iloc[:kol1].apply(lemmatize_text)

# Вывод
# CPU times: total: 1min 38s
# Wall time: 1min 38s

# Вывод результата
df. shape

# Вывод
# (159292, 1)
Leave a Comment