Jeśli mam listę słów, w jaki sposób mogę sprawdzić, czy ciąg znaków nie zawiera żadnych słów na liście, i czy skutecznie?

Jak mówi tytuł, mam listę słów, takich jak stopWords = ["the", "and", "with", etc...] i otrzymuję tekst typu "Zabij lisa i psa". Chcę, aby wyniki takie jak "Kill fox dog" były bardzo wydajne i szybkie. Jak mogę to zrobić (wiem, że mogę iteracji za pomocą pętli for, ale nie to jest to bardzo wydajne)Jeśli mam listę słów, w jaki sposób mogę sprawdzić, czy ciąg znaków nie zawiera żadnych słów na liście, i czy skutecznie?

Źródło

2012-06-14 Thor Correia

Najbardziej imporant poprawa jest do make stopWords a set. Oznacza to, że wyszukiwań będzie bardzo szybko

stopWords = set(["the", "and", "with", etc...]) 
" ".join(word for word in msg.split() if word not in stopWords)

Jeśli chcesz tylko wiedzieć, czy którykolwiek z stopwords są w tekście

if any(word in stopWords for word in msg.split()): 
    ...

Źródło

2012-06-14 02:05:06

Czy to jest bardziej wydajne niż tworzenie wyrażeń regularnych? – mlt

@mlt, możliwe że nie. Praca tak odmienna od tej, że trudno ją zgadnąć. Powinieneś napisać odpowiedź za pomocą wyrażeń regularnych –

Korzystanie list comprehension:

stopWords = ["the", "and", "with"] 
msg = "kill the fox and the dog" 

' '.join([w for w in msg.split() if w not in stopWords])

daje:

'kill fox dog'

Źródło

2012-06-14 02:04:57 Levon

'w nie w stopWords' dostanie wolniej jak stopwords staje się dłuższy, ponieważ musi iterację listę, aby sprawdzić każdy. Dlatego właśnie tworzenie stopworda jest ważne –

@gnibbler Ok, tak zauważono, dzięki. Zawsze chętnie uczę się czegoś nowego (nie używam zestawów prawie na tyle często). – Levon

umieścić swoją pierwotną listę słów w słowniku.
Powtórz znaki w danym ciągu, używając spacji jako separatora dla słowa. Wyszukaj każde słowo w słowniku.

Źródło

2012-06-14 02:05:38 user845279

W Pythonie najszybsza operacja spowoduje, że "stopwords" stanie się zbiorem zamiast listy i sprawdzi bezpośrednio dla członkostwa z "x w stopwords". Ta struktura została zaprojektowana tak, aby była szybka dla tego rodzaju operacji.

See the set documentation

Źródło

2012-06-14 02:07:03 jboggan

miec stopwords w set() (jak inni sugerują), gromadzić inne swoje słowa do sprawnego ustawić po prostu wziąć różnicę ustawić za pomocą working = working - stopWords ... mieć pracę set wszystkie z stopWords odfiltrowane z niego. Lub po prostu sprawdzić istnienie takich słów, użyj warunkowego. Na przykład:

#!python 
stopWords = set('the a an and'.split()) 
working = set('this is a test of the one working set dude'.split()) 
if working == working - stopWords: 
    print "The working set contains no stop words" 
else: 
    print "Actually, it does"

Istnieje rzeczywiście bardziej efektywnych struktur danych, takich jak trie które mogłyby zostać wykorzystane dla dużych, stosunkowo gęsta, zestaw stopu słów. Możesz znaleźć moduły Trie dla Pythona, ale nie widziałem żadnych napisanych jako binarnych (C) rozszerzeń i zastanawiam się, gdzie byłby punkt przejścia między wersją zaimplementowaną w czystym Pythonie a użyciem Pythona w obsłudze set(). (Może to być również dobry przypadek dla Cython).

W rzeczywistości widzę, że ktoś zmierzył się z tym pytaniem osobno tutaj SO: How do I create a fixed length mutable array of python objects in cython.

Oczywiście powinieneś stworzyć prostą wersję opartą na zestawie, przetestować ją i profilować, a następnie, jeśli to konieczne, wypróbować warianty trie i Cython-trie jako możliwe ulepszenia.

Źródło

2012-06-14 02:31:46

Alternatywnie można złożyć listę w wyrażeniu regularnym i zastąpić słowa zatrzymania wraz z otaczającymi je przestrzeniami pojedynczym odstępem.

import re 
stopWords = ["the", "and", "with"] 
input = "Kill the fox and dog" 
pattern = "\\s{:s}\\s".format("\\s|\\s".join(stopWords)) 
print(pattern) 
print(re.sub(pattern, " ", input))

wyjście wola

\sthe\s|\sand\s|\swith\s 
Kill fox dog

Źródło

2012-06-14 02:37:18 mlt

Jeśli mam listę słów, w jaki sposób mogę sprawdzić, czy ciąg znaków nie zawiera żadnych słów na liście, i czy skutecznie?

Odpowiedz

Powiązane problemy