2011-06-29 19 views
5

Jeśli mam znaczną ilość tekstu i próbuję odkryć szablony, które pojawiają się najczęściej, myślałem o rozwiązaniu go za pomocą metody N-Gram i w rzeczywistości zasugerowano to jako rozwiązanie również w pytaniu this, ale moim wymaganiem jest trochę inny. Właśnie w celu wyjaśnienia, mam jakiś tekst tak:Odkrywanie "szablonów" w danym tekście?

I wake up every day morning and read the newspaper and then go to work 
I wake up every day morning and eat my breakfast and then go to work 
I am not sure that this is the solution but I will try 
I am not sure that this is the answer but I will try 
I am not feeling well today but I will get the work done and deliver it tomorrow 
I was not feeling well yesterday but I will get the work done and let you know by tomorrow 

i staram się wydobyć „szablony” tak:

I wake up every day morning and ... and then go to work 
I am not sure that this is the ... but I will try 
I ... not feeling well ... but I will get the work done and ... tomorrow 

szukam podejścia, które można skalować do miliona linii tekst, więc zastanawiałem się, czy mogę zaadaptować to samo N-gramowe podejście do rozwiązania tego problemu, czy są jakieś alternatywy?

Odpowiedz

5

Miliony wierszy tekstu nie jest liczbą naprawdę duże :)

Co szukasz jest przynajmniej podobna do stwierdzenia kolokacji. Możesz spróbować obliczyć punktową wzajemną informację o n-gramach. Zobacz Manning & Schütze (1999) dla tego i innych podejść do problemu.

+0

Dziękujemy za sugestie. W końcu dostałem książkę dzisiaj :) – Legend