东方歌词翻译迁移至 sak.uy

栏目: Ruby · 发布时间: 5年前

内容简介:最近几个月在这个博客发了不少歌词翻译」。主博客这边右侧边栏会有到音乐盒的链接。曾经在这边的那些歌尽量保持 URL 跳转过去,新的歌词翻译会发到那边去,还想继续听歌的话请继续订阅那边的 RSS 呀。

最近几个月在这个博客发了不少歌词翻译

似乎有要转型成音乐博主的趋势 ,前段时间买了个新域名 sak.uy ,准备专门用来放这些东方歌曲的歌词翻译,于是分设了单独的博客「 Sakuya的音乐盒

」。主博客这边右侧边栏会有到音乐盒的链接。

曾经在这边的那些歌尽量保持 URL 跳转过去,新的歌词翻译会发到那边去,还想继续听歌的话请继续订阅那边的 RSS 呀。

主博客这边还是像往常一样保持记录生活点滴和技术经验好了。说道介绍技术, 有人问过我那些日语歌词上给汉字标注的假名都是我一个个手输的么? 一开始是手输的,后来发现了不错的自动化方案,于是这里介绍一下。

首先是python-furigana

这是个 python 写的小程序(严格说是库),可以把一段日文转换成标准的 HTML 形式的 <ruby> 标签的振假名( ( ) 仮名 ( かな ) )。 它本身只是个方便的格式化库,实际工作是用 python-mecab 这个 binding 去查询 mecab 这个著名的日语语料分析库。要用它还得配合一些开源的 mecab 词典,这些在 [archlinuxcn] 都有打好的包了,直接安装:

$ sudo pacman -Syu python-furigana mecab-git python-mecab mecab-ipadic

装好之后用法也很直接,甚至没有 binary 直接调用 python 的 module 就可以:

$ python -m furigana.furigana "振り仮名の例"
<ruby><rb>振</rb><rt>ふ</rt></ruby>り<ruby><rb>仮名</rb><rt>かめい</rt></ruby>の<ruby><rb>例</rb><rt>れい</rt></ruby>

就是提供日语作为输入,然后输出 HTML 形式的 <ruby> 标签而已。 像上面的例子中出现的错误(「振り仮名」完整的一个词中「仮名」意思是「平仮名」应该发音「がな」而非意为「假的人名」的「かめい」) 可以看出其实标注的准确率还是有些问题的。嘛日语作为一个非常依赖上下文判断的语言, 经常日本人都会搞错某些汉字的发音,这些也不能强求机械化的算法能 100% 正确实现。 好在单纯的词典匹配也能满足大部分标注的需要了,用这个标注总体来说 95% 以上的情况都是正确的(歌词的话正确率低一些,毕竟歌词中古语啦当て字啦训読み这些情况很常见)。

把输出插入我的博客

然后我的博客用 reStructuredText 语法写,不能直接用 HTML 标签(虽然我加了 :html: 这个 行内角色 ( inline role ) 但是大量用也不方便)。这个博客一开始用 Pelican 重写主题的时候 我就实现了个自己的 :ruby: 行内角色 ( inline role ) 用来标发音,于是一段 sed 就能把 python-furigana 的输出转换成我用的 rst 语法:

$ which clipboard Co Ci Ct
clipboard: aliased to xclip -selection clipboard
Co: aliased to clipboard -o
Ci: aliased to clipboard -i
Ct () {
    t=$(mktemp /tmp/furigana-XXXX)
    python -m furigana.furigana $(Co) | sed '[email protected]<ruby><rb>@ :ruby:`@g;[email protected]</rb><rt>@|@g;[email protected]</rt></ruby>@` @g' | sponge $t
    cat $t | tee /dev/tty | perl -pe 'chomp if eof' | Ci
}

上面这些 alias 在我的 .bashrc 中。有了这些之后, 我只要把需要标注的日语文本放入剪切版,执行 Ct ,再粘帖结果就好了。

$ echo "振り仮名の例" | Ci
$ Ct
:ruby:`振|ふ` り :ruby:`仮名|かめい` の :ruby:`例|れい`

然后所有那些歌词上标注的假名都是这样一句一句标注好之后,再手动校对修改的。


以上所述就是小编给大家介绍的《东方歌词翻译迁移至 sak.uy》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

HTML5秘籍(第2版)

HTML5秘籍(第2版)

[美] Matthew MacDonald / 李松峰、朱巍、刘帅 / 人民邮电出版社 / 2015-4 / 89.00元

不依赖插件添加音频和视频,构建适用于所有浏览器的播放页面。 用Canvas创建吸引人的视觉效果,绘制图形、图像、文本,播放动画,运行交互游戏。 用CSS3将页面变活泼,比如添加新奇的字体,利用变换和动画添加吸引人的效果。 设计更出色的Web表单,利用HTML5新增的表单元素更加高效地收集访客信息。 一次开发,多平台运行,实现响应式设计,创建适配桌面计算机、平板电脑和智能手机......一起来看看 《HTML5秘籍(第2版)》 这本书的介绍吧!

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

URL 编码/解码
URL 编码/解码

URL 编码/解码

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换