Details
Description
All Nutch tasks work properly with Hadoop 3.x. (except SegmentReader)
SegmentReader with -get option work fine.
SegmentReader with -dump option replace non-ascii character by ?
Exemple url : http://www.wikipedia.fr/index.php
command : ./runtime/deploy/bin/nutch readseg -dump /user/nutch/crawl1.15/segments/20190221093756 /tmp/dump1.15 -nocontent -nogenerate -noparse -noparsedata ParseText:: Wikipedia.fr - Portail de recherche sur les projets Wikim?dia Chercher sur Wikip?dia en fran?ais L?encyclop?die librement r?utilisable que chacun peut am?liorer.
command : ./runtime/deploy/bin/nutch readseg -get /user/nutch/crawl1.15/segments/20190221093756 http://www.wikipedia.fr/index.php -nocontent -nogenerate -noparse -noparsedata
ParseText::
Wikipedia.fr - Portail de recherche sur les projets Wikimédia
Chercher sur Wikipédia en français
L’encyclopédie librement réutilisable que chacun peut améliorer.
I try to build with hadoop 3.0.0 dependencies in ivy.xml but i have the same result
It's work fine in local mode.
Attachments
Issue Links
- links to