Jeśli mam znaczną ilość tekstu i próbuję odkryć szablony, które pojawiają się najczęściej, myślałem o rozwiązaniu go za pomocą metody N-Gram i w rzeczywistości zasugerowano to jako rozwiązanie również w pytaniu this, ale moim wymaganiem jest trochę inny. Właśnie w celu wyjaśnienia, mam jakiś tekst tak:Odkrywanie "szablonów" w danym tekście?
I wake up every day morning and read the newspaper and then go to work
I wake up every day morning and eat my breakfast and then go to work
I am not sure that this is the solution but I will try
I am not sure that this is the answer but I will try
I am not feeling well today but I will get the work done and deliver it tomorrow
I was not feeling well yesterday but I will get the work done and let you know by tomorrow
i staram się wydobyć „szablony” tak:
I wake up every day morning and ... and then go to work
I am not sure that this is the ... but I will try
I ... not feeling well ... but I will get the work done and ... tomorrow
szukam podejścia, które można skalować do miliona linii tekst, więc zastanawiałem się, czy mogę zaadaptować to samo N-gramowe podejście do rozwiązania tego problemu, czy są jakieś alternatywy?
