内容简介:最近几个月在这个博客发了不少歌词翻译」。主博客这边右侧边栏会有到音乐盒的链接。曾经在这边的那些歌尽量保持 URL 跳转过去,新的歌词翻译会发到那边去,还想继续听歌的话请继续订阅那边的 RSS 呀。
最近几个月在这个博客发了不少歌词翻译
」。主博客这边右侧边栏会有到音乐盒的链接。
曾经在这边的那些歌尽量保持 URL 跳转过去,新的歌词翻译会发到那边去,还想继续听歌的话请继续订阅那边的 RSS 呀。
主博客这边还是像往常一样保持记录生活点滴和技术经验好了。说道介绍技术, 有人问过我那些日语歌词上给汉字标注的假名都是我一个个手输的么? 一开始是手输的,后来发现了不错的自动化方案,于是这里介绍一下。
首先是python-furigana
这是个 python 写的小程序(严格说是库),可以把一段日文转换成标准的 HTML 形式的 <ruby>
标签的振假名(
[archlinuxcn]
都有打好的包了,直接安装:
$ sudo pacman -Syu python-furigana mecab-git python-mecab mecab-ipadic
装好之后用法也很直接,甚至没有 binary 直接调用 python 的 module 就可以:
$ python -m furigana.furigana "振り仮名の例" <ruby><rb>振</rb><rt>ふ</rt></ruby>り<ruby><rb>仮名</rb><rt>かめい</rt></ruby>の<ruby><rb>例</rb><rt>れい</rt></ruby>
就是提供日语作为输入,然后输出 HTML 形式的 <ruby>
标签而已。
像上面的例子中出现的错误(「振り仮名」完整的一个词中「仮名」意思是「平仮名」应该发音「がな」而非意为「假的人名」的「かめい」)
可以看出其实标注的准确率还是有些问题的。嘛日语作为一个非常依赖上下文判断的语言,
经常日本人都会搞错某些汉字的发音,这些也不能强求机械化的算法能 100% 正确实现。
好在单纯的词典匹配也能满足大部分标注的需要了,用这个标注总体来说 95%
以上的情况都是正确的(歌词的话正确率低一些,毕竟歌词中古语啦当て字啦训読み这些情况很常见)。
把输出插入我的博客
然后我的博客用 reStructuredText 语法写,不能直接用 HTML 标签(虽然我加了 :html:
这个
:ruby:
$ which clipboard Co Ci Ct clipboard: aliased to xclip -selection clipboard Co: aliased to clipboard -o Ci: aliased to clipboard -i Ct () { t=$(mktemp /tmp/furigana-XXXX) python -m furigana.furigana $(Co) | sed '[email protected]<ruby><rb>@ :ruby:`@g;[email protected]</rb><rt>@|@g;[email protected]</rt></ruby>@` @g' | sponge $t cat $t | tee /dev/tty | perl -pe 'chomp if eof' | Ci }
上面这些 alias 在我的 .bashrc 中。有了这些之后, 我只要把需要标注的日语文本放入剪切版,执行 Ct ,再粘帖结果就好了。
$ echo "振り仮名の例" | Ci $ Ct :ruby:`振|ふ` り :ruby:`仮名|かめい` の :ruby:`例|れい`
然后所有那些歌词上标注的假名都是这样一句一句标注好之后,再手动校对修改的。
以上所述就是小编给大家介绍的《东方歌词翻译迁移至 sak.uy》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- 4 - 让 Django 完成翻译:迁移数据库
- 4 - 让 Django 完成翻译:迁移数据库
- 基于 Laravel、Lumen 框架集成百度翻译、有道翻译、Google 翻译扩展包
- 腾讯发布人工智能辅助翻译 致敬人工翻译
- golang调用baidu翻译api实现自动翻译
- 监管机器翻译质量?且看阿里如何搭建翻译质量评估模型
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。