czy istnieje jakaś logika, aby uzyskać tekst akapitu z pliku pdf używając itextsharp? Wiem, że pdf obsługuje tylko ciąg tekstów i trudno jest ustalić, które przebiegi tekstów są powiązane z którym akapitem i ja również wiem że nie ma żadnych znaczników <p>
lub innych znaczników do określenia akapitu w pdf. Jednak próbowałem uzyskać współrzędne przebiegów tekstów, aby zbudować akapit z jego współrzędnych, ale bez powodzenia :(. mój fragment kodu jest tutaj:uzyskać akapit tekstu z pdf za pomocą itextsharp
private StringBuilder result = new StringBuilder();
private Vector lastBaseLine;
//to store run of texts
public List<string> strings = new List<String>();
//to store run of texts Coordinate (Y coordinate)
public List<float> baselines = new List<float>();
public void RenderText(iTextSharp.text.pdf.parser.TextRenderInfo renderInfo)
{
Vector curBaseline = renderInfo.GetBaseline().GetStartPoint();
if ((this.lastBaseLine != null) && (curBaseline[Vector.I2] != lastBaseLine[Vector.I2]))
{
if ((!string.IsNullOrEmpty(this.result.ToString())))
{
this.baselines.Add(this.lastBaseLine[Vector.I2]);
this.strings.Add(this.result.ToString());
}
result = new StringBuilder();
}
this.result.Append(renderInfo.GetText());
this.lastBaseLine = curBaseline;
}
Czy każdy organ ma żadnej logiki związanej z tym problemem ??
Czy Twój PDF znakowanego PDF? Jeśli tak nie jest, nie ma łatwego sposobu na określenie, które fragmenty tekstu należą do którego akapitu (ale już to odkryłeś). –
@BrunoLowagie thanx dla Twojego respone, PDF nie jest otagowany PDF .. czy nie ma żadnego rozwiązania, aby wyodrębnić akapit z niezatwierdzonego pliku PDF ??? –
Bez 100% rozwiązań proofowych, po prostu heurystyki o mniejszych lub większych błędach. – mkl