翻訳についてAIと相談していると、よくできる学生と訳文を練っているときみたいな印象を受けることも頻繁にあります。今日は、英語原文には相当する語句・表現はまったくないのに、チャットGPTが「まあ」という語を補っているので理由を問いただしたら、「原文の意味を補うためではなく、語気を調整するため」とのこと。頭いいなあ(知ってたけど)。
翻訳についてAIと相談していると、よくできる学生と訳文を練っているときみたいな印象を受けることも頻繁にあります。今日は、英語原文には相当する語句・表現はまったくないのに、チャットGPTが「まあ」という語を補っているので理由を問いただしたら、「原文の意味を補うためではなく、語気を調整するため」とのこと。頭いいなあ(知ってたけど)。
日曜日のパンを焼いた。
ペケの方では大分前に書いてるんだけど、最近「深掘りする」という言葉が何の批判精神もなく使われてて非常に不愉快
俺の名字も「深掘」って書いてくるの、非常に不愉快
俺は深堀だ、「扌」じゃなくて「土」だ
「記憶は継続性でもある。自己同一性と居場所と結果の感覚だ。わたしはどうやって自分がそうなったかを覚えていられるからこそ、いまのわたしなのだ」という言葉の説得力がどんどん崩れていく。
クリストファー・プリースト『不死の島へ』(古沢嘉通訳/東京創元社)読了。深刻な挫折感を抱いてロンドンを離れ、主人公は知人から仮住まいを許された別荘で執筆活動を始める。「書くことで、わたしは自分が書いたものになった」と言うが、そうなのだろうか。この作品の面白さはうまく説明できないのだが、今年の一番になる予感はする。
こうなったら私がスペインの本の購入量を増やすしかないな。電子書籍なら送料もかからないし、本棚も圧迫しないから簡単なことだ。
ジョナサン・ストラーン編『星の海を駆ける』(中原尚哉他訳/創元SF文庫)ご恵贈賜りました。
マット・ディニマン『冒険者カールの地球ダンジョン 1 ―宇宙人襲来! 飼い猫とダンジョンに放りこまれたんだが?―』(中原尚哉訳/ハヤカワ文庫SF)ご恵贈賜りました。
読んだ。ひとりもいないと思いますが、英語のバラッド(古い民謡・俗謡みたいなもの)が好きな人は是非読んでほしい短編が入ってます。/サラ・ピンスカー『いつかどこかにあった場所』 amzn.to/407h1gf
ndlocr-liteを使った、筑摩書房版芥川龍之介全集専用OCRスクリプトができた。本文2段+脚注1段(それぞれの段数はページによっては変わることがある)のページから本文だけ、脚注だけをそれぞれまとめて作品ごとに並べて配置するようになった。便利なことができる時代になったものだ。版面と抽出テキストの中身が合っていませんが、気にしないように。
日曜日のパンを焼いた。
今日買った本:紙魚の手帖Vol. 27 [電子書籍版] a.r10.to/hgjh41
今日買った本:実験医学3月号〈特集:ゲノム言語モデルを使う!〉(羊土社)
今日買った本:本の雑誌3月号「特集:そうだ、異世界に行こう!」
今日買った本:ミーガン・ローゼンブルーム『禁じられた装丁』(阿部将大訳/原書房)
今日買った本:ジュリー・フィリップス『男たちの知らない女 Ⅰ・II』(北川依子訳/国書刊行会)
通常のレイアウトの本ならndlocr-liteですべて解決という感じだが、脚注の多い本はどうしたらいいだろう。振り仮名情報は消去されているので、本文中の脚注番号も消えている。脚注だけまとめるという手もあるだろうが、本文中の位置の対応はできない。脚注のある本は、ページ単位の扱いにするしかないか。
SFマガジン4月号ご恵贈賜りました。特集は『プロジェクト・ヘイル・メアリー』
一冊のpdf化書籍から、ndlocr-liteを使ってテキスト認識(OCR)し、テキストファイルに保存できるようになった。段落内の改行は削除し、段落間の改行は2重になっている。これは私が後でTeXで再pdf化するときのため。
たまたま文末に句点が来てしまったとき、そこを段落の最後としたくなってしまうのだが、ここではxmlの位置情報を確認して本当の段落かどうかを判定するようになっている。
もう歴史的仮名遣いもこわくない。
添付画像の例は、内田百閒『阿房列車』。
東京創元社「新刊ラインナップ説明会2026」レポ AIバディもの、「市立高校シリーズ」最新作から不死者の物語まで
realsound.jp/book/2026/02...
昨日だか今日だかに発表されたらしいndlocr-lite( github.com/ndl-lab/ndlo... )を試したら、今までndlocrで調子が悪かったページも完璧に処理してきた。Macでも使えるし、GPU要らないし、現代仮名遣いも対応できるだろうから、もうこれでいいんじゃないか。コマンドラインからの利用もMacで問題なくいけるのかな。明日から試してみよう。
改行の多いページでおかしくなってしまうndlocrとYomiTokuを組み合せて縦書き歴史的仮名遣い書籍のOCRを何とかする目処が立ったのだが……
なぜ、職場に不満があるからやめるというごく当たり前の行為に「リベンジ退職」なんて名前がつくのだろう。やめられてはこまる社員の待遇を適切に改善しない企業がだめなだけなのでは。
news.yahoo.co.jp/expert/artic...
「4月に働き始める幼稚園の新卒者」まで読んで、働き始めるの早くないか? と思ったが、そういうことじゃなかった。
「C.支出構造について
(ア) 食費が増加し、交通費・教養娯楽費の抑制、学習関連支出(書籍・勉学費)の低下
物価高の中で食費の増加分を他の支出を抑制することで耐えている構造
書籍費については、2016年以降初めて1,000円を割り込んだ」
だそうです。要約しなくていいのに要約してわからなくするのは今の全国紙の異常さだと思う。
書籍費が千円切ったという話、元リリースは公表済みでこちら見た方が新聞の下手くそな要約よりわかりやすい。去年はそんなことなく急減なんだよなあ。
第61回学生生活実態調査 概要報告|学生・大学院生・保護者調査の報告|ビジョンと活動|全国大学生活協同組合連合会(全国大学生協連)
https://www.univcoop.or.jp/vision/vision_1896.html
#url_linked
ndlocrを、1冊の本をスキャンして作ったpdfファイルに対して1ページずつ処理していくpythonスクリプトもできて、これでもう歴史的仮名遣いの本をOCRし放題だと喜んだのだが、内田百閒『阿房列車』の認識テキストを読むと、最初のページがとても使い物にならない。次のページはほぼ完璧なのに。そしてまた調子の悪いページが出てくる。空白の多いページが苦手なんだろうか。どうやって調整すればいいんだ。
内田百閒の『阿房列車』の1ページを試してみるとこんな感じ。漢字の読み間違いはあるが、仮名遣いは問題なく対応できているのではないか。
ndlocr( github.com/ndl-lab/ndlo... )が動いた。これで縦書き日本語歴史的仮名遣いのpdf化書籍のテキスト認識ができるようになるかも。試行錯誤したのはclaude codeだが:
1. kyteaのビルドURL切れ → GitHubのmasterブランチ+autotools対応
2. CUDA sm_120非対応 → CUDA 12.8 + PyTorch cu128に更新
3. mmcvのバージョン競合 → ソースビルドで回避
4. PyTorch 2.6のtorch.loadデフォルト変更 → 2段階パッチで解決
という作業だったらしい。