260330 - 求锤得锤
Contents
刷网络小说引发 AI 扩展的地狱笑话
| |
跑
- 跑步:每周 70km ,完成 61km+
- 俯卧撑:7 x 20 个 ,完成 3 x 20 个,持续断卡
学
- The AI hunts. The human decides.(人工智能负责狩猎,人类负责决策。)
- 见面是维护亲密关系唯一有效的办法。
- 怒其不争的愤恨背后,有可能是一种恐惧。
- 焦虑的感觉就像游戏的战斗音乐在播放,但你却找不到任何敌人。面对无限期悬而未决的事情让人焦虑,不如给他设定一个期限;然后快速完结它。
- 一个人,若是上午确诊了癌症,下午会干什么?
- 觉得自己厌倦了阅读,那是因为你没有观察最近你都在读什么,也没有观察你的心从中感受到了什么,你所拥有的所熟悉的只是一个重复的动作而已。如果你能回答上述两个问题,那么你自然知道接下来应该读什么。
- 所谓“赢”,就是在得到最重要的利益同时,没有失去最重要的东西。
古德哈特定律:「一项指标一旦变成了目标,它将不再是个好指标。」 这一定律由英国经济学家查尔斯·古德哈特(Charles Goodhart)于1975年提出,他的原始表述是:「当压力施于其上以进行控制时,任何观测到的统计恒性都倾向消散。」
每个国家由治及乱循环往复的(兴、治、盛、奢、衰、乱)六阶段兴亡周期,同样适用于国与国之间的国际关系。国与国之间的较量,主要有五种方式:贸易/经济战、科技战、资本战、地缘政治战和军事热战。
花
- 首尔之春 서울의 봄 (2023)
- 推荐指数 8/10
- 站在(肉鸡)上帝视角,整部电影荒诞得犹如一场闹剧,但令人脊背发凉的是,这正是历史真实上演的权力更迭。看完由衷感慨,即便世界只是个巨大的‘草台班子’,其背后依然要遵循精英主义与弱肉强食的丛林法则——只有当这些残酷的底层逻辑轮番登台,历史的齿轮才会被强行推动。(Ai 优化版)
阅
- 《ByteHouse: ByteDance’s Cloud-Native Data Warehouse for Real-Time Multimodal Data Analytics》
- https://arxiv.org/abs/2602.08226
- 字节跳动(今日头条、火山引擎、抖音)是 Clickhouse 的忠实拥趸,ByteHouse 基于 Clickhouse 二次开发(保留了查询引擎、增加了基于对象存储的接口做存算分离),论文提到了多项技术,如:
- byteKV 引擎:WAL + MVCC 机制,短期数据写 wal,将窗口时间(论文没提)的 wal 数据刷新到底层 kv,同时形成 mvcc 快照。使用自描述文件格式(Sniffer),整体格式设计与 parquet、orc 接近(minmax、bloomfilter 等 footer)
- CrossCache:因为是存算分离,所以要在 s3 / cn 之间做个 cache 加速性能体验。4MB 的数据块 + 并行刷新【这一层没有高级设计】
- 向量化:同时支持 HNSW、IVFSQ 和 IVFPQ,在数据实时要求高的时候 pq + hnsw 解决大部分问题 ,在成本控制上还有 DiskANN 和 DiskIVFPQ 两种可落盘的能力,降低对内存的占用;
- 以及三种 pipeline 执行框架(优化器 + 执行器)
- APM:流水线模式,来一个消费一个;应该是最基础的分析模型;都是常见的数据交付能力 shuffle、gather 和 broadcast 。在高并发模式下也是有序消费、先进先出、避免后续抢占先头。
- SPM:应对分批机制,运行时间长的情况下可以【中间结果】物化、暂停、重试;可以给其他查询(如 APM 腾资源);类似 hive mapreduce 的设计,运行过程中单个节点挂掉任务可继续补全部分单元而运行。
- IPM:增量刷新,结合 KV 层数据分布机制(数据行 - chunk id),实现增量刷新的机制;两次刷新之间间隔取决数据量,刷新时与 join 左右关联有深度优化(没写窗口函数如何优化),只描述了增量刷新的能力
用
- obsidian ,一款 markdown 编辑器
- 按照 P D C A 或者 P A R A 的方式构建个人笔记;记得做好备份( 3-2-1 原则在两种介质上保留三份数据,其中一份异地存储)