Untitled

 avatar
unknown
plain_text
a year ago
4.2 kB
5
Indexable
# On enlève les vidéos en double
video_df = video_df.drop_duplicates(subset=['video_id'])
#on reformate la date
video_df['published_at'] = video_df['published_at'].str.slice(0, 10)

start_date = '2018-01-01'
end_date = '2023-12-31'
video_df = video_df[(video_df['published_at'] >= start_date) & (video_df['published_at'] <= end_date)]

#On set up les stopwords
stopwords_english = set(stopwords.words('english'))
# stopwords_french = set(stopwords.words('french'))
custom_stopwords= set(["Acer","acer","ACER"])
final_stopwords = stopwords_english.union(custom_stopwords)


keywords = [
    "cigarette", "cigarettes", "electronic cigarette", "electronic cigarettes", "vape", "vaper", "vaping", "pod", "mod",
    "ecigar", "e-cig", "heated tobacco", "ejuice", "juice", "nicotine", "nic",
    "nicotine concentration", "juices salt nic", "juices freebase", "uwell", "Aphrodite",
    "vaporesso", "elfbar", "elf bar", "ignite", "jim pod", "puff mamma", "smok", "uwell",
    "voopoo", "geekvape", "oxva", "aspire", "lost vape", "argus", "juul", "juuls", "nikbar", "vape", "vapor",
    "puffs", "atomizer", "atty", "mouthpiece", "chain-vape", "coil", "clapton coil", "deck", "dli",
    "drip-tip", "dripper", "dry-burn", "dry-hit", "velocity style", "flood", "flooded",
    "glycerin", "glycerol", "gunk", "hot-spot", "kick", "mech", "mesh", "mtl", "nicsalt", "zomo",
    "pen-style", "pg", "mouthpiece", "rba", "rda", "rta", "rdta", "spitback", "blvk", "MR. FREEZE",
    "starter kit", "throat hit", "twisted coil", "wick", "wick", "eliquid", "Eliquid", "e-liquid",
    "E-liquid", "e liquid", "E liquid", "liquid", "nasty cig", "ice apple", "grape ice", "Apple Ice",
    "strawberry", "mango", "Watermelon", "Kiwifruit", "Ice", "naked", "fantasi", "flavor juice", "atomizer",
    "help to quit smoking", "quit smoking", "effective to quit smoking", "eliquid", "eliquids",
    "e-cig", "e-cigs", "vape pen", "vape pens", "vape mod", "vape mods", "nasty", "addiction", "disposable vape", "puff", "puffs",
    
    "vape juice", "Disposable Vape", "Uwell", "vape kit", "mod", "mods", "innokin", "vuse","eleaf",  "freemax", "joyetech","DOTMOD", "DOTMODs", 
    "smoke",

    
    "vape", "vape", "vapes", "vaper", "vapers", "vaper", "vapers", "juice", 
    "tank", "tanks", "battery", "batteries", "liquid", "liquids", "cartridge", 
    "cartridges", "atomizer", "atomizers", "ecig", "ecigs", "e-liquid", "e-liquids", 
    "starter kit", "starter kits", "juul", "juuls", "smok", "geekvape", "voopoo", 
    "aspire", "vaporesso", "vape", "vapes", "e-cigarette", "e-cigarettes", "flavor", "flavors", 
    "coil", "coils", "vaping", "vaper", "vapers", "vapor", "vapors", "vaper", "vapers", 
    "juice", "juices", "tank", "tanks", "battery", "batteries", "liquid", "liquids", "pod", "pods", 
    "pen", "pens", "cloud", "clouds", "atomizer", "atomizers", "ejuice", "ejuices", "eliquid", 
    "eliquids", "starter kit", "starter kits", "flavor chaser", "flavor chasers", "nic salt", 
    "nic salts", "freebase nicotine", "freebase nicotines", "elfbar", "elfbars", "elf bar", "elf bars", 
    "Ignite", "Ignites", "Uwell", "Uwells", "Caliburn", "Caliburns", "Argus", "Arguses", "GEEK VAPE", 
    "GEEK VAPEs", "Innokin", "Innokins", "Joyetech", "Joyetechs", "Justfog", "Justfogs", "nicotine level", 
    "nicotine levels", "heated tobacco", "heated tobaccos", "glycerin", "glycerins", "glycerol", 
    "glycerols", "drip-tip", "drip-tips", "mesh", "meshes", "dl", "mtl", "dry-hit", "dry-hits", 
    "throat hit", "throat hits", "vaporizer", "vaporizers", "puff", "puffs", "cloud chaser", 
    "cloud chasers", "bottle", "bottles", "resistive wire", "resistive wires", "mod box", "mod boxes", 
    "mechanical mod", "mechanical mods", "rda", "rdas", "rdta", "rdtas", "e-cig", "e-cigs", 
    "vape pen", "vape pens", "vape mod", "vape mods", "dripper", "drippers", "clearomizer", 
    "clearomizers", "sub-ohm", "sub-ohms", "microcoil", "microcoils", "cottoning", "cottonings", 
    "vapor", "vapors", "e-vape", "e-vapes", "power vaping", "nasty", "oxva", "oxvas", "xim pro", 
    "xim pros"
    
]

keywords = [word for word in keywords if word not in final_stopwords]
Editor is loading...
Leave a Comment