Browse Source

Add test case for parsing HTML entities

Frédéric Guillot 2 months ago
parent
commit
ac45307da6
3 changed files with 102 additions and 45 deletions
  1. 36 17
      reader/atom/parser_test.go
  2. 27 8
      reader/rdf/parser_test.go
  3. 39 20
      reader/rss/parser_test.go

+ 36 - 17
reader/atom/parser_test.go

@@ -34,7 +34,7 @@ func TestParseAtomSample(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Title != "Example Feed" {
@@ -88,7 +88,7 @@ func TestParseFeedWithoutTitle(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Title != "https://example.org/" {
@@ -119,7 +119,7 @@ func TestParseEntryWithoutTitle(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].Title != "http://example.org/2003/12/13/atom03" {
@@ -138,7 +138,7 @@ func TestParseFeedURL(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.SiteURL != "https://example.org/" {
@@ -168,7 +168,7 @@ func TestParseEntryWithRelativeURL(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].URL != "http://example.org/something.html" {
@@ -196,7 +196,7 @@ func TestParseEntryTitleWithWhitespaces(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].Title != "Some Title" {
@@ -222,7 +222,7 @@ func TestParseEntryTitleWithHTMLAndCDATA(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].Title != "Test “Test”" {
@@ -248,7 +248,7 @@ func TestParseEntryTitleWithHTML(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].Title != "Test Test" {
@@ -274,7 +274,7 @@ func TestParseEntryTitleWithXHTML(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].Title != "Test Test" {
@@ -300,7 +300,7 @@ func TestParseEntrySummaryWithXHTML(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].Content != "<p>Some text.</p>" {
@@ -326,7 +326,7 @@ func TestParseEntrySummaryWithHTML(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].Content != "<p>Some text.</p>" {
@@ -352,7 +352,7 @@ func TestParseEntrySummaryWithPlainText(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].Content != "&lt;Some text.&gt;" {
@@ -381,7 +381,7 @@ func TestParseEntryWithAuthorName(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].Author != "Me" {
@@ -410,7 +410,7 @@ func TestParseEntryWithoutAuthorName(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].Author != "me@localhost" {
@@ -460,7 +460,7 @@ func TestParseEntryWithEnclosures(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if len(feed.Entries) != 1 {
@@ -517,7 +517,7 @@ func TestParseEntryWithPublished(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if !feed.Entries[0].Date.Equal(time.Date(2003, time.December, 13, 18, 30, 2, 0, time.UTC)) {
@@ -543,7 +543,7 @@ func TestParseEntryWithPublishedAndUpdated(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if !feed.Entries[0].Date.Equal(time.Date(2002, time.November, 12, 18, 30, 2, 0, time.UTC)) {
@@ -558,3 +558,22 @@ func TestParseInvalidXml(t *testing.T) {
 		t.Error("Parse should returns an error")
 	}
 }
+
+func TestParseWithHTMLEntity(t *testing.T) {
+	data := `
+		<?xml version="1.0" encoding="utf-8"?>
+		<feed xmlns="http://www.w3.org/2005/Atom">
+			<title>Example &nbsp; Feed</title>
+			<link href="http://example.org/"/>
+		</feed>
+	`
+
+	feed, err := Parse(bytes.NewBufferString(data))
+	if err != nil {
+		t.Fatal(err)
+	}
+
+	if feed.Title != "Example \u00a0 Feed" {
+		t.Errorf(`Incorrect title, got: %q`, feed.Title)
+	}
+}

+ 27 - 8
reader/rdf/parser_test.go

@@ -78,7 +78,7 @@ func TestParseRDFSample(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Title != "XML.com" {
@@ -189,7 +189,7 @@ func TestParseRDFSampleWithDublinCore(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Title != "Meerkat" {
@@ -256,7 +256,7 @@ func TestParseItemWithOnlyFeedAuthor(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].Author != "Rael Dornfest (mailto:rael@oreilly.com)" {
@@ -281,7 +281,7 @@ func TestParseItemRelativeURL(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].URL != "http://example.org/something.html" {
@@ -310,7 +310,7 @@ func TestParseItemWithoutLink(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].Hash != "37f5223ebd58639aa62a49afbb61df960efb7dc5db5181dfb3cedd9a49ad34c6" {
@@ -341,7 +341,7 @@ func TestParseItemWithDublicCoreDate(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	expectedDate := time.Date(2018, time.April, 10, 5, 0, 0, 0, time.UTC)
@@ -367,7 +367,7 @@ func TestParseItemWithoutDate(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	expectedDate := time.Now().In(time.Local)
@@ -381,6 +381,25 @@ func TestParseInvalidXml(t *testing.T) {
 	data := `garbage`
 	_, err := Parse(bytes.NewBufferString(data))
 	if err == nil {
-		t.Error("Parse should returns an error")
+		t.Fatal("Parse should returns an error")
+	}
+}
+
+func TestParseFeedWithHTMLEntity(t *testing.T) {
+	data := `<?xml version="1.0" encoding="utf-8"?>
+	<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns="http://purl.org/rss/1.0/">
+	  <channel>
+			<title>Example &nbsp; Feed</title>
+			<link>http://example.org</link>
+	  </channel>
+	</rdf:RDF>`
+
+	feed, err := Parse(bytes.NewBufferString(data))
+	if err != nil {
+		t.Fatal(err)
+	}
+
+	if feed.Title != "Example \u00a0 Feed" {
+		t.Errorf(`Incorrect title, got: %q`, feed.Title)
 	}
 }

+ 39 - 20
reader/rss/parser_test.go

@@ -56,7 +56,7 @@ func TestParseRss2Sample(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Title != "Liftoff News" {
@@ -107,7 +107,7 @@ func TestParseFeedWithoutTitle(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Title != "https://example.org/" {
@@ -128,7 +128,7 @@ func TestParseEntryWithoutTitle(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].Title != "https://example.org/item" {
@@ -149,7 +149,7 @@ func TestParseEntryWithoutLink(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].URL != "https://example.org/" {
@@ -175,7 +175,7 @@ func TestParseEntryWithAtomLink(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].URL != "https://example.org/item" {
@@ -198,7 +198,7 @@ func TestParseEntryWithMultipleAtomLinks(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].URL != "https://example.org/b" {
@@ -218,7 +218,7 @@ func TestParseFeedURLWithAtomLink(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.FeedURL != "https://example.org/rss" {
@@ -247,7 +247,7 @@ func TestParseEntryWithAuthorAndInnerHTML(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].Author != "by Foo Bar" {
@@ -277,7 +277,7 @@ func TestParseEntryWithAtomAuthor(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].Author != "Foo Bar" {
@@ -301,7 +301,7 @@ func TestParseEntryWithDublinCoreAuthor(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].Author != "Me (me@example.com)" {
@@ -325,7 +325,7 @@ func TestParseEntryWithItunesAuthor(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].Author != "Someone" {
@@ -349,7 +349,7 @@ func TestParseFeedWithItunesAuthor(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].Author != "Someone" {
@@ -375,7 +375,7 @@ func TestParseEntryWithDublinCoreDate(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	location, _ := time.LoadLocation("EST")
@@ -403,7 +403,7 @@ func TestParseEntryWithContentEncoded(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].Content != `<p><a href="http://www.example.org/">Example</a>.</p>` {
@@ -427,7 +427,7 @@ func TestParseEntryWithFeedBurnerLink(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].URL != "http://example.org/original" {
@@ -453,7 +453,7 @@ func TestParseEntryTitleWithWhitespaces(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].Title != "Some Title" {
@@ -483,7 +483,7 @@ func TestParseEntryWithEnclosures(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if len(feed.Entries) != 1 {
@@ -532,7 +532,7 @@ func TestParseEntryWithFeedBurnerEnclosures(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if len(feed.Entries) != 1 {
@@ -573,7 +573,7 @@ func TestParseEntryWithRelativeURL(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].Title != "https://example.org/item.html" {
@@ -599,7 +599,7 @@ func TestParseEntryWithCommentsURL(t *testing.T) {
 
 	feed, err := Parse(bytes.NewBufferString(data))
 	if err != nil {
-		t.Error(err)
+		t.Fatal(err)
 	}
 
 	if feed.Entries[0].CommentsURL != "https://example.org/comments" {
@@ -614,3 +614,22 @@ func TestParseInvalidXml(t *testing.T) {
 		t.Error("Parse should returns an error")
 	}
 }
+
+func TestParseWithHTMLEntity(t *testing.T) {
+	data := `<?xml version="1.0" encoding="utf-8"?>
+		<rss version="2.0" xmlns:slash="http://purl.org/rss/1.0/modules/slash/">
+		<channel>
+			<link>https://example.org/</link>
+			<title>Example &nbsp; Feed</title>
+		</channel>
+		</rss>`
+
+	feed, err := Parse(bytes.NewBufferString(data))
+	if err != nil {
+		t.Fatal(err)
+	}
+
+	if feed.Title != "Example \u00a0 Feed" {
+		t.Errorf(`Incorrect title, got: %q`, feed.Title)
+	}
+}