#!/bin/sh pcorpus="ep_extract_5_1000000_unique2_10k.txt.gz" zcat $pcorpus \ | awk 'BEGIN{FS="\t"}{print $3}' \ | sed -r -e "s/^(.*)$/\1<\/s><\/t>/" \ -e "s/\|/<\/s>/g" \ -e "s/’/'/g" \ | tree-tagger-spanish-utf8 \ | sed -r -e "s///" -e "s/^([^<].*)\t(.*)\t(.*)$//" \ | tr -d "\n" \ | sed -r -e "s/()(<[^\/])/\1<\/s>\2/g" \ -e "s/()(<[^\/])/\1<\/s>~~\2/g" \ -e "s/()(<[^\/])/\1<\/s>~~\2/g" \ -e "s/<\/t>/\n/g" \ -e "s///g" \ -e "s/'/’/g" \ | gzip > sentences/spanish.sent.gz~~~~