Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

カタカナで表記されたルビについて #2

Open
darashi opened this issue Sep 23, 2022 · 2 comments
Open

カタカナで表記されたルビについて #2

darashi opened this issue Sep 23, 2022 · 2 comments

Comments

@darashi
Copy link

darashi commented Sep 23, 2022

カタカナで表記されたルビが複数あることに気がつきました。どのように修正すべきかは方針にもよるかと思いますので、ひとまずご報告いたします。

以下のような Python スクリプトで確認しました。

import regex

with open("Rohan4600_transcript_utf8.txt") as f:
    for line in f:
        line = line.strip()
        rubies = regex.findall(r"\(([^)]*)\)", line)
        katakana_rubies = [r for r in rubies if regex.search(r"\p{Script=Katakana}", r)]

        if katakana_rubies:
            print(line)
            print(katakana_rubies)
            print()

実行結果は以下のとおりです。

ROHAN4600_0329:ヒェロニムはケチで、真夏(まなつ)でも十(ジュッ)キロ離(はな)れた百均(ひゃっきん)へ、チャリで走(はし)る。,ヒェロニムワケチデ、マナツデモジュッキロハナレタヒャッキンエ、チャリデハシル。
['ジュッ']

ROHAN4600_0961:スウェーデンで拉麺(ラーメン)を食(た)べるなら、ヒュースクヴァーナがお勧(すす)めだな。,スウェーデンデラーメンヲタベルナラ、ヒュースクヴァーナガオススメダナ。
['ラーメン']

ROHAN4600_1983:点字(テンジ)のことで略式(りゃくしき)起訴(きそ)されたが、友(とも)のエールで夜(よる)は眠(ねむ)れる。,テンジノコトデリャクシキキソサレタガ、トモノエールデヨルワネムレル。
['テンジ']

ROHAN4600_3414:貯蓄(ちょちく)したお金(かね)で、ヒューレットパッカードのGPU(ジーピーユー)を備(そな)えたPC(ピーシー)を買(か)います。,チョチクシタオカネデ、ヒューレットパッカードノジーピーユーヲソナエタピーシーヲカイマス。
['ジーピーユー', 'ピーシー']

これらの結果のうち、

  • 0329 十(ジュッ)
  • 1983 点字(テンジ)

は、いずれも平仮名で表記されるのが自然に思われます。

また、 4302 には「炒飯(ちゃーはん)」という表記があることから、

  • 0961 拉麺(ラーメン)

も平仮名で表記されていたほうが一貫性がありそうです。

残る

  • 3414 GPU(ジーピーユー)
  • 3414 PC(ピーシー)

は英字に対するルビがここだけなので判断が難しいのですが、すべて平仮名で表記するという方針であれば、こちらも平仮名とするのがよいでしょうか。

ご確認、ご検討いただければ幸いです。

@mmorise
Copy link
Owner

mmorise commented Sep 23, 2022

ありがとうございます.これから,全部平仮名に統一するように修正いたします.

@darashi
Copy link
Author

darashi commented Sep 24, 2022

ありがとうございます!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants