Mam zastrzeżoną stronę internetową (w PHP i MySQL), w której użytkownicy mogą publikować swoje ogłoszenia bezpłatnie. Ale użytkownicy często publikują zduplikowane reklamy. Skrypt nie zezwala im na publikowanie dokładnych duplikatów, więc robią to poprzez zmianę jednego lub dwóch znaków.Jak usunąć zduplikowaną zawartość?
Czy istnieje sposób na znalezienie duplikatu reklamy i powiadomienie użytkownika (nawet jeśli zmodyfikował część tekstu)?
Moja strona jest w PHP i MySQL. Używam sphix do wyszukiwania. Myśląc o zmianie tego na mongodb i apache solr.
Jak daleko zajdziesz sprawdzając czy zawartość jest duplikowana? Ile znaków? Możesz pracować z ograniczeniem, że ludzie mogą publikować reklamy tylko raz w tygodniu. –
Czy Twoi użytkownicy dodają fałszywe parametry, np. Http://foo.com/image.png?fakeparam=1? W takim przypadku można odciąć wszystkie parametry i rozważyć adres URL bez parametrów. Jednak to nie powstrzyma ludzi przed ponownym załadowaniem tego samego pliku pod inną nazwą ... –
@ Alexander Cogneau Rozważę reklamę jako duplikat, jeśli zawartość jest podobna do 80% (z wyjątkiem słów stop takich jak: is, the, was, tam, itp.) .. Nie, nie możemy ograniczyć liczby osób publikujących wiele reklam tego samego dnia. Możemy ręcznie znaleźć duplikaty opublikowane w tym samym dniu, ale nie możemy wyszukiwać w starych, tygodniowych postach. –